Jetformer de DeepMind: modelos multimodais unificados sem restrições de modelagem

Publicidade

Os recentes avanços no treinamento de grandes modelos multimodais foram impulsionados por esforços para eliminar as restrições de modelagem e unificar arquiteturas entre domínios. Apesar desses avanços, muitos modelos existentes ainda dependem de componentes treinados separadamente, como codificadores e decodificadores específicos da modalidade.

Em um novo papel Jetformer: um modelo generativo auto -regressivo de imagens e texto cruuma equipe de pesquisa do Google DeepMind apresenta o JetFermer, um transformador autorregressivo inovador e apenas para decodificador, projetado para modelar diretamente dados brutos. Esse modelo maximiza a probabilidade de dados brutos sem depender de qualquer componente pré-treinado e é capaz de entender e gerar texto e imagens sem problemas.

A equipe resume as principais inovações no jetformer da seguinte maneira:

  1. Aproveitando os fluxos de normalização para a representação da imagem: O insight central por trás do JetFermer é o uso de um poderoso fluxo de normalização – retomou um “jato” – para codificar imagens em uma representação latente adequada para modelagem autoregressiva. A autoregressão autorreretral tradicional em patches de imagem bruta codificada como pixels tem sido impraticável devido à complexidade de sua estrutura. O modelo de fluxo do JetFormer aborda isso, fornecendo uma representação invertível e sem perdas que se integra perfeitamente ao modelo multimodal. Na inferência, a invertibilidade do fluxo permite a decodificação de imagem direta.
  2. Orientar o modelo para informações de alto nível: Para melhorar o foco em informações essenciais de alto nível, os pesquisadores empregam duas estratégias inovadoras:
  • Aumento progressivo do ruído gaussiano: Durante o treinamento, o ruído gaussiano é adicionado e gradualmente reduzido, incentivando o modelo a priorizar os recursos gerais no início do processo de aprendizado.
  • Gerenciando a redundância nos dados da imagem: O jetformer permite a exclusão seletiva de dimensões redundantes em imagens naturais do modelo autoregressivo. Alternativamente, a análise de componentes principais (PCA) é explorada para reduzir a dimensionalidade sem sacrificar informações críticas.

A equipe avaliou o jetformer em duas tarefas desafiadoras: geração de imagens de classe ImageNet e geração multimodal em escala na Web. Os resultados mostram que o jetformer é competitivo com modelos menos flexíveis quando treinado em dados em larga escala, destacando-se nas tarefas de geração de imagem e texto. Sua capacidade de treinamento de ponta a ponta destaca ainda mais sua flexibilidade e eficácia.

O Jetformer representa um salto significativo na simplificação de arquiteturas multimodais, unificando abordagens de modelagem para texto e imagens. Seu uso inovador de fluxos de normalização e ênfase na priorização de recursos de alto nível marca uma nova era na modelagem generativa de ponta a ponta. Esta pesquisa estabelece as bases para uma exploração adicional de sistemas multimodais unificados, abrindo caminho para abordagens mais integradas e eficientes para o desenvolvimento do modelo de IA.

O papel Jetformer: um modelo generativo auto -regressivo de imagens e texto cru está no arxiv.


Autor: Hecate ele | Editor: Chain Zhang


Subscribe
Notificar de
guest
0 Comentários
Mais antigo
O mais novo Mais Votados
Feedbacks embutidos
Ver todos os comentários

Publicidade

Publicidade