Um par de iniciativas inovadoras de pesquisa da Meta AI no final de 2024 está desafiando o paradigma fundamental de “previsão do próximo toque” que sustenta a maioria dos grandes modelos de idiomas de hoje (LLMS). A introdução do BLT (transformador de nível de byte) A arquitetura, que elimina a necessidade de tokenizadores e demonstra potencial significativo no alinhamento e fusão multimodal, coincidiu com a inauguração do Modelo conceitual grande (LCM). O LCM dá um passo radical além, descartando os tokens, com o objetivo de preencher a lacuna entre a IA simbólica e conexionista, permitindo o raciocínio direto e a geração em um espaço de “conceito” semântico. Esses desenvolvimentos acenderam discussões na comunidade de IA, com muitos sugerindo que poderiam representar uma nova era para o design do LLM.
A pesquisa da Meta explora o espaço latente dos modelos, buscando revolucionar suas representações internas e facilitar os processos de raciocínio mais alinhados com a cognição humana. Essa exploração decorre da observação de que os LLMs atuais, ambos abertos e fechados, carecem de uma estrutura hierárquica explícita para processar e gerar informações em um nível abstrato, independentemente de linguagens ou modalidades específicas.
A abordagem prevalecente de “previsão do próximo toque” nos LLMs tradicionais ganhou tração em grande parte devido à sua relativa facilidade de implementação de engenharia e sua eficácia demonstrada na prática. Este método aborda a necessidade de os computadores processarem representações numéricas discretas do texto, com os tokens servindo como a maneira mais simples e direta de alcançar essa conversão em vetores para operações matemáticas. Ilya Sutskever, em uma conversa com Jensen Huang, sugeriu anteriormente que prever a próxima palavra permite que os modelos compreendam os processos e emoções do mundo real subjacente, levando à formação de um “modelo mundial”.
No entanto, os críticos argumentam que o uso de um sistema simbólico discreto para capturar a natureza contínua e complexa do pensamento humano é inerentemente falha, pois os humanos não pensam em tokens. A resolução de problemas e a criação de conteúdo de forma longa geralmente envolvem uma abordagem hierárquica, começando com um plano de alto nível da estrutura geral antes de adicionar detalhes gradualmente. Por exemplo, ao preparar um discurso, os indivíduos normalmente descrevem os argumentos centrais e o fluxo, em vez de pré-selecionar cada palavra. Da mesma forma, escrever um artigo envolve a criação de uma estrutura com capítulos que são então progressivamente elaborados. Os seres humanos também podem reconhecer e lembrar as relações entre diferentes partes de um documento longo em um nível abstrato.
O LCM da Meta aborda diretamente isso, permitindo que os modelos aprendam e raciocinam em um nível conceitual abstrato. Em vez de tokens, tanto a entrada quanto a saída do LCM são “conceitos”. Essa abordagem demonstrou recursos superiores de generalização transfrondual zero em comparação com outros LLMs de tamanho semelhante, gerando excitação significativa na indústria.
Yuchen Jin, CTO da Hiperbolic, comentou nas mídias sociais que ele está cada vez mais convencido de tokenização desaparecerá, com o LCM substituindo a “previsão do próximo toque” por “previsão do próximo conceito”. Ele acredita que o LCM intuitivamente pode se destacar nas tarefas de raciocínio e multimodais. O LCM também provocou uma discussão considerável entre os usuários do Reddit, que o consideram um novo paradigma em potencial para a cognição da IA e antecipam ansiosamente os efeitos sinérgicos da combinação do LCM com outras iniciativas da Meta como BLT, JEPA e coco.
Como acontece LCM Aprenda o raciocínio abstrato sem prever o próximo token?
A idéia principal por trás do LCM é executar a modelagem de idiomas em um nível mais alto de abstração, adotando um paradigma “centrado no conceito”. O LCM opera com dois níveis definidos de abstração: tokens e conceitos de subglema. Um “conceito” é definido como uma entidade abstrata de idioma e modalidade e agnóstico, representando uma idéia ou ação de nível superior, normalmente correspondendo a uma frase em um documento de texto ou em uma expressão falada equivalente. Em essência, o LCM aprende “conceitos” diretamente, usando um transformador para converter frases em sequências de vetores conceituais, em vez de sequências de token para treinamento.
Para treinar nessas representações abstratas de nível superior, o LCM utiliza SONARum meta modelo desenvolvido anteriormente para incorporações multilíngues e multimodais, como uma ferramenta de tradução. O sonar converte tokens em vetores conceituais (e vice-versa), permitindo que a entrada e a saída da LCM sejam vetores conceituais, permitindo o aprendizado direto de relacionamentos semânticos de nível superior. Enquanto o sonar atua como uma ponte entre tokens e conceitos (e não está envolvido no treinamento), os pesquisadores exploraram três arquiteturas modelo capazes de processar essas unidades de “conceito”: LCM baseado em difusão e LCM quantizado.
Base-lcma arquitetura fundamental, emprega um modelo de transformador somente para decodificador padrão para prever o próximo conceito (incorporação de sentença) no espaço de incorporação. Seu objetivo é minimizar diretamente a perda média de erro ao quadrado (MSE) para regredir a incorporação da sentença alvo. O sonar serve como uma pré -linha e pós -rede para normalizar as incorporações de entrada e saída. O fluxo de trabalho Base-LCM envolve segmentar a entrada em frases, codificando cada frase em uma sequência conceitual (vetor de sentença) usando sonar, processando essa sequência com LCM para gerar uma nova sequência de conceitos e, finalmente, decodificar os conceitos gerados novamente em uma sequência de token de subglema usando sonar. Embora estruturalmente claro e relativamente estável para treinar, essa abordagem corre o risco de perda de informações, pois todas as informações semânticas devem passar pelos vetores conceituais intermediários.
Quantizado LCM aborda a geração contínua de dados, discretizando -os. Essa arquitetura usa quantização de vetores residuais (RVQ) para quantizar a camada conceitual fornecida pelo sonar e depois modela as unidades discretas. Ao usar representações discretas, o LCM quantizado pode reduzir a complexidade computacional e oferece vantagens no processamento de sequências longas. No entanto, o mapeamento de incorporações contínuas para unidades discretas de livro de códigos pode levar à perda ou distorção de informações, impactando a precisão.
Baseada em difusão LCMinspirado em modelos de difusão, é modelado como um modelo autoregressivo que gera conceitos sequencialmente em um documento. Nesta abordagem, um modelo de difusão é usado para gerar incorporações de sentença. Duas variações principais foram exploradas:
- LCM de difusão de uma torre: Este modelo usa um backbone de um único transformador encarregado de prever incorporações de frases limpas, dadas entradas barulhentas. Treina efetivamente alternando entre incorporações limpas e barulhentas.
- Difusão de duas torres LCM: Isso separa a codificação do contexto da difusão da próxima incorporação. O primeiro modelo (contextualizador) codifica causalmente vetores de contexto, enquanto o segundo modelo (denoiser) prevê incorporações de sentença limpa por meio de denoising iterativo.
Entre as variações exploradas, a estrutura separada do LCM de difusão de duas torres permite um manuseio mais eficiente de contextos longos e aproveita a atendimento cruzado durante o denoising para utilizar informações contextuais, demonstrando desempenho superior em resumo abstrato e tarefas de raciocínio de longo contexto.
Que possibilidades futuras faz LCM Desbloquear?
O cientista e diretor da Feira da Meta, Yann Lecun, descreveram o LCM em uma entrevista de dezembro como o plano para a próxima geração de sistemas de IA. Lecun prevê um futuro em que os sistemas de IA orientados a objetivos possuam emoções e modelos mundiais, com o LCM sendo um componente crucial para realizar essa visão.
O mecanismo da LCM de codificar frases inteiras ou parágrafos em vetores de alta dimensão e aprender diretamente e produzir conceitos permite que os modelos de IA pensem e raciocinam em um nível mais alto de abstração, semelhante aos seres humanos, desbloqueando tarefas mais complexas.
Ao lado do LCM, a Meta também lançou o BLT e o coco, ambos representando explorações no espaço latente. O BLT elimina a necessidade de tokenizadores, processando bytes em patches de tamanho dinâmico, permitindo que diferentes modalidades sejam representadas como bytes e tornando o modelo de idioma que entende mais flexível. O coco (cadeia de pensamento contínuo) modifica a representação do espaço latente para permitir que os modelos raciocinam em um espaço latente contínuo.
A série de inovações da Meta no espaço latente provocou um debate significativo na comunidade de IA sobre as possíveis sinergias entre LCM, BLT, Coconut e a JEPA anteriormente introduzida pela Meta (Arquitetura Preditiva de incorporação conjunta).
Uma análise no Substack sugere que a arquitetura BLT poderia servir como um codificador e decodificador escalável na estrutura do LCM. Yuchen Jin ecoou esse sentimento, observando que, embora a implementação atual da LCM depende do sonar, que ainda usa processamento em nível de token para desenvolver o espaço de incorporação de sentença, ele está ansioso para ver o resultado de uma combinação LCM+BLT. Os usuários do Reddit especularam sobre futuros robôs conceituando tarefas diárias através do LCM, raciocínio sobre tarefas com coco e se adaptando às mudanças no mundo real via JEPA.
Esses desenvolvimentos do meta-sinalizam uma potencial mudança de paradigma em como os modelos de linguagem são projetados e treinados, indo além da abordagem estabelecida de “previsão do próximo toque” em relação às capacidades de raciocínio mais abstratas e semelhantes a humanos. A comunidade de IA estará assistindo de perto o desenvolvimento e a integração dessas novas arquiteturas.
O papel Modelos conceituais grandes: modelagem de idiomas em um espaço de representação de frases está no arxiv.
Assim:
Como Carregando…