O impacto transformador dos transformadores no processamento de linguagem natural (PNL) e na visão computacional (CV) é inegável. Sua escalabilidade e eficácia impulsionaram os avanços nesses campos, mas a crescente complexidade desses modelos levou a custos computacionais crescentes. O enfrentamento desse desafio tornou-se uma prioridade, promovendo a exploração em abordagens alternativas, como arquiteturas de mistura de especialistas (MOE), que visam aumentar a capacidade do modelo sem aumentos proporcionais na computação.
No entanto, o treinamento de modelos MOE do zero está repleto de dificuldades, incluindo excesso de ajuste e instabilidade nos mecanismos de roteamento. Para resolver essas questões, pesquisadores da Universidade do Texas em Austin e Nvidia introduziram um método inovador em seu artigo, Llama 3 encontra MOE: Upcycling eficiente. A receita inovadora de treinamento da equipe permite o desenvolvimento de um modelo MOE de 8 top-2 de 8,00, usando o LLAMA 3-8B, com menos de 1% da computação normalmente necessária para o pré-treinamento.
Os pesquisadores destacam as seguintes grandes realizações:
- Estrutura de treinamento eficiente de MOE: Eles propõem uma estrutura para treinar um modelo MOE TOP-2 (E8T2) 8-Expert baseado na arquitetura LLAMA 3-8B usando uma mistura de conjuntos de dados acadêmicos. Seu método requer menos de 1% da computação padrão de pré-treinamento.
- Desempenho aprimorado da tarefa a jusante: O modelo demonstra desempenho aprimorado no raciocínio de senso comum e nos benchmarks de conhecimento, como a MMLU.
- Estudos abrangentes de ablação: Eles conduzem dois experimentos de ablação para validar a escolha do fator de capacidade e do algoritmo de roteamento para o treinamento.
- Integração com Nemo: Upcycling on-line é implementado no NEMO, permitindo que os pesos do modelo pré-treinado inicializem e treinem modelos MOE de maneira eficaz.
O método começa com um denso ponto de verificação de um modelo de idioma pré-treinado. Um subconjunto de camadas de alimentação no modelo denso é convertido em camadas de MOE. Especificamente, cada camada de alimentação é replicada ‘n’ vezes para inicializar os especialistas, enquanto o roteador é inicializado com pesos aleatórios. Todos os outros parâmetros, incluindo camadas de incorporação, são copiados diretamente do ponto de verificação denso.
A implementação do upcycling em configurações de treinamento distribuído para grandes modelos de idiomas (LLMS) apresenta desafios únicos. Upcycling aumenta a contagem total de parâmetros, potencialmente excedendo a capacidade de memória de dispositivos individuais devido ao requisito para cada nó armazenar uma cópia completa dos parâmetros e gradientes do modelo compartilhado.
Para abordar isso, a equipe implementou um método de upcycling on -line eficiente no NEMO. Sua abordagem encala o denso ponto de verificação entre os dispositivos com base em uma configuração de treinamento paralela. Isso permite que os pesos sejam reciclados independentemente em cada dispositivo, eliminando a computação adicional e a cópia de peso cruzado.
A abordagem da equipe demonstrou que os modelos MOE de alto desempenho podem ser treinados com eficiência. Ao alavancar pontos de verificação densos pré-treinados, eles obtiveram uma melhoria de 2% na precisão de tiro zero nos benchmarks da MMLU e atingiram uma utilização do modelo (MFU) de 46,8% durante o treinamento. Sua integração de upcycling on-line no NEMO simplifica o uso de pesos pré-treinados, abrindo caminho para o desenvolvimento econômico e escalável de arquiteturas MOE.
Esse método inovador de modelos densos pré-treinados de “upcycling” em arquiteturas MOE de alta capacidade aborda os desafios computacionais e de memória associados ao treinamento em larga escala. Ao reduzir drasticamente os requisitos de computação pré-treinamento, mantendo o alto desempenho, essa abordagem representa um passo significativo no desenvolvimento de modelos de IA eficientes e escaláveis.
O papel Llama 3 encontra MOE: Upcycling eficiente está no arxiv.
Autor: Hecate ele | Editor: Chain Zhang
Assim:
Como Carregando…