Llama 3 encontra MOE: pioneira ai de alto custo de baixo custo

TecnoDicas & Trends
dezembro 28, 2024

O impacto transformador dos transformadores no processamento de linguagem natural (PNL) e na visão computacional (CV) é inegável. Sua escalabilidade e eficácia impulsionaram os avanços nesses campos, mas a crescente complexidade desses modelos levou a custos computacionais crescentes. O enfrentamento desse desafio tornou-se uma prioridade, promovendo a exploração em abordagens alternativas, como arquiteturas de mistura de especialistas (MOE), que visam aumentar a capacidade do modelo sem aumentos proporcionais na computação.

No entanto, o treinamento de modelos MOE do zero está repleto de dificuldades, incluindo excesso de ajuste e instabilidade nos mecanismos de roteamento. Para resolver essas questões, pesquisadores da Universidade do Texas em Austin e Nvidia introduziram um método inovador em seu artigo, Llama 3 encontra MOE: Upcycling eficiente. A receita inovadora de treinamento da equipe permite o desenvolvimento de um modelo MOE de 8 top-2 de 8,00, usando o LLAMA 3-8B, com menos de 1% da computação normalmente necessária para o pré-treinamento.

Os pesquisadores destacam as seguintes grandes realizações:

Estrutura de treinamento eficiente de MOE: Eles propõem uma estrutura para treinar um modelo MOE TOP-2 (E8T2) 8-Expert baseado na arquitetura LLAMA 3-8B usando uma mistura de conjuntos de dados acadêmicos. Seu método requer menos de 1% da computação padrão de pré-treinamento.
Desempenho aprimorado da tarefa a jusante: O modelo demonstra desempenho aprimorado no raciocínio de senso comum e nos benchmarks de conhecimento, como a MMLU.
Estudos abrangentes de ablação: Eles conduzem dois experimentos de ablação para validar a escolha do fator de capacidade e do algoritmo de roteamento para o treinamento.
Integração com Nemo: Upcycling on-line é implementado no NEMO, permitindo que os pesos do modelo pré-treinado inicializem e treinem modelos MOE de maneira eficaz.

O método começa com um denso ponto de verificação de um modelo de idioma pré-treinado. Um subconjunto de camadas de alimentação no modelo denso é convertido em camadas de MOE. Especificamente, cada camada de alimentação é replicada ‘n’ vezes para inicializar os especialistas, enquanto o roteador é inicializado com pesos aleatórios. Todos os outros parâmetros, incluindo camadas de incorporação, são copiados diretamente do ponto de verificação denso.

A implementação do upcycling em configurações de treinamento distribuído para grandes modelos de idiomas (LLMS) apresenta desafios únicos. Upcycling aumenta a contagem total de parâmetros, potencialmente excedendo a capacidade de memória de dispositivos individuais devido ao requisito para cada nó armazenar uma cópia completa dos parâmetros e gradientes do modelo compartilhado.

Para abordar isso, a equipe implementou um método de upcycling on -line eficiente no NEMO. Sua abordagem encala o denso ponto de verificação entre os dispositivos com base em uma configuração de treinamento paralela. Isso permite que os pesos sejam reciclados independentemente em cada dispositivo, eliminando a computação adicional e a cópia de peso cruzado.

A abordagem da equipe demonstrou que os modelos MOE de alto desempenho podem ser treinados com eficiência. Ao alavancar pontos de verificação densos pré-treinados, eles obtiveram uma melhoria de 2% na precisão de tiro zero nos benchmarks da MMLU e atingiram uma utilização do modelo (MFU) de 46,8% durante o treinamento. Sua integração de upcycling on-line no NEMO simplifica o uso de pesos pré-treinados, abrindo caminho para o desenvolvimento econômico e escalável de arquiteturas MOE.

Esse método inovador de modelos densos pré-treinados de “upcycling” em arquiteturas MOE de alta capacidade aborda os desafios computacionais e de memória associados ao treinamento em larga escala. Ao reduzir drasticamente os requisitos de computação pré-treinamento, mantendo o alto desempenho, essa abordagem representa um passo significativo no desenvolvimento de modelos de IA eficientes e escaláveis.

O papel Llama 3 encontra MOE: Upcycling eficiente está no arxiv.

Autor: Hecate ele | Editor: Chain Zhang

0 Comentários

Mais antigo

O mais novo Mais Votados

Feedbacks embutidos

Ver todos os comentários

TecnoDicas
& Trends

Llama 3 encontra MOE: pioneira ai de alto custo de baixo custo

Assim:

O Mistério do Bigode em "Alto Potencial" Explicado

Tudo sobre a 51ª temporada do SNL: Episódios, Datas e Como Assistir

Feliz Natal, Ted Cooper!: Um Filme de Natal Cheio de Charme e Humor

Landman 2ª Temporada: Tudo o que Você Precisa Saber

4ª Temporada de Prefeito de Kingstown: Tudo o que Você Precisa Saber

Paul e Morgan: Rumores de Romance e Novidades no Mundo dos Reality Shows

O Que Assistir na TV e Streaming Hoje: Filmes, Séries e Esportes

Keri Russell brilha em "O Diplomata": Melhores momentos da 3ª temporada

My Hero Academia Temporada 8: Confronto Final e Emoções Intensas

Bill Maher Critica Reforma de Trump na Casa Branca

TecnoDicas
& Trends

Categorias

Informações

Siga-nos

Llama 3 encontra MOE: pioneira ai de alto custo de baixo custo

Assim:

O Mistério do Bigode em "Alto Potencial" Explicado

Tudo sobre a 51ª temporada do SNL: Episódios, Datas e Como Assistir

Feliz Natal, Ted Cooper!: Um Filme de Natal Cheio de Charme e Humor

Landman 2ª Temporada: Tudo o que Você Precisa Saber

4ª Temporada de Prefeito de Kingstown: Tudo o que Você Precisa Saber

Paul e Morgan: Rumores de Romance e Novidades no Mundo dos Reality Shows

O Que Assistir na TV e Streaming Hoje: Filmes, Séries e Esportes

Keri Russell brilha em "O Diplomata": Melhores momentos da 3ª temporada

My Hero Academia Temporada 8: Confronto Final e Emoções Intensas

Bill Maher Critica Reforma de Trump na Casa Branca

TecnoDicas & Trends

Categorias

Informações

Siga-nos

TecnoDicas
& Trends