Os pesquisadores do MIT revelam “selo”: um novo passo em direção à IA auto-improvante

Publicidade

O conceito de auto-aperfeiçoamento de IA tem sido um tema quente nos círculos de pesquisa recentes, com uma enxurrada de artigos emergentes e figuras proeminentes, como o CEO da Openai, Sam Altman, pesando sobre o futuro de sistemas inteligentes auto-evoluídos. Agora, um novo artigo do MIT, intitulado “Modelos de idiomas auto-adaptados”, apresenta SEAL (LLMS auto-adaptando)uma nova estrutura que permite que grandes modelos de idiomas (LLMS) atualizem seus próprios pesos. Esse desenvolvimento é visto como outro passo significativo para a realização de IA verdadeiramente evoluindo.

O trabalho de pesquisa, publicado ontem, já provocou uma discussão considerável, inclusive no Hacker News. O SEAL propõe um método em que um LLM pode gerar seus próprios dados de treinamento por meio de “auto-edição” e, posteriormente, atualizar seus pesos com base em novas entradas. Crucialmente, esse processo de auto-edição é aprendido por meio de aprendizado de reforço, com o mecanismo de recompensa vinculado ao desempenho a jusante do modelo atualizado.

O momento deste artigo é particularmente notável, dado o recente aumento de interesse em torno da auto-evolução da IA. No início deste mês, vários outros esforços de pesquisa chamaram a atenção, incluindo Sakana AI e a “Darwin-Gödel Machine (DGM) da Universidade da Colúmbia Britânica”, o treinamento de auto-recompensa da CMU (SRT), de auto-imposição de auto-impressão em Multimodal, MMM-Framework da Universidade Jiao, e a luta e a estrutura de sincero de imóveis, em Mulhaio, a luta e a estrutura de sintações e a luta e a luta na luta em modelos de luxo e a luta e a luta de modelos, a luta e a estrutura, a luta e a estrutura de sincera e a luta em modelos de jiao e a abeto Hong Kong em colaboração com Vivo.

Além do burburinho, o CEO da Openai, Sam Altman, compartilhou recentemente sua visão de um futuro com a IA e os robôs auto-improvisados ​​em seu post, “The Gentle Singularity”. Ele postulou que, embora os milhões iniciais de robôs humanóides precisassem de fabricação tradicional, eles poderiam “operar toda a cadeia de suprimentos para construir mais robôs, o que, por sua vez, pode construir mais instalações de fabricação de chips, data centers e assim por diante”. Isso foi rapidamente seguido por um tweet da @vraserx, alegando que um insider do Openai revelou que a empresa já estava executando a IA auto-aprimorada internamente, uma alegação que provocou um debate generalizado sobre sua veracidade.

Independentemente das especificidades dos desenvolvimentos internos do OpenAI, o artigo do MIT sobre selo fornece evidências concretas da progressão da IA ​​em relação à evolução da auto-evolução.

Entendendo o selo: modelos de idiomas auto-adaptados

A idéia principal por trás do SEAL é permitir que os modelos de linguagem melhorem a si mesmos ao encontrar novos dados, gerando seus próprios dados sintéticos e otimizando seus parâmetros através da auto-edição. O objetivo de treinamento do modelo é gerar diretamente esses auto-edits (SES) usando os dados fornecidos no contexto do modelo.

A geração dessas auto-editas é aprendida através da aprendizagem de reforço. O modelo é recompensado quando os auto-editores gerados, uma vez aplicados, levam a um melhor desempenho na tarefa de destino. Portanto, o selo pode ser conceituado como um algoritmo com dois loops aninhados: um loop de aprendizado de reforço externo (RL) que otimiza a geração de auto-editores e um loop de atualização interna que usa os auto-editores gerados para atualizar o modelo por descendência de gradiente.

Esse método pode ser visto como uma instância de meta-aprendizagem, onde o foco está em como gerar auto-edições eficazes de maneira meta-aprendizagem.

Uma estrutura geral

O SEAL opera em uma única instância de tarefa (c, τ), onde C é informações de contexto relevantes para a tarefa e τ define a avaliação a jusante para avaliar a adaptação do modelo. Por exemplo, em uma tarefa de integração de conhecimento, C pode ser uma passagem a ser integrada ao conhecimento interno do modelo, e τ um conjunto de perguntas sobre essa passagem.

Dado C, o modelo gera um SEDIT SE, que atualiza seus parâmetros através do ajuste fino supervisionado: θ ′ ← SFT (θ, SE). O aprendizado de reforço é usado para otimizar essa geração de auto-edit: o modelo executa uma ação (gera SE), recebe uma recompensa com base no desempenho de Lmθ ‘em τ e atualiza sua política para maximizar a recompensa esperada.

Os pesquisadores descobriram que métodos de política on -line tradicionais como GRPO e PPO levaram a um treinamento instável. Eles finalmente optaram por descansar, uma abordagem de clonagem comportamental mais simples e baseada em filtragem de um artigo de fundo profundo. Esse método pode ser visto como um processo de maximização de expectativa (EM), onde as amostras de etapa eletrônicas são produzidas da política atual do modelo, e o M-Etap reforça apenas as amostras que produzem uma recompensa positiva através do ajuste fino supervisionado.

O artigo também observa que, embora a implementação atual use um único modelo para gerar e aprender com os auto-editores, essas funções podem ser separadas em uma configuração “professor-aluno”.

Seal instantando em domínios específicos

A equipe do MIT instanciou o selo em dois domínios específicos: integração do conhecimento e Aprendizagem de poucos tiros.

  • Integração do conhecimento: O objetivo aqui é integrar efetivamente informações dos artigos nos pesos do modelo.
  • Aprendizagem de poucas fotos: Isso envolve o modelo que se adapta a novas tarefas com muito poucos exemplos.

Resultados experimentais

Os resultados experimentais para a aprendizagem de poucos tiros e a integração do conhecimento demonstram a eficácia da estrutura do selo.

Em Aprendizagem de poucos tirosusando um modelo LLAMA-3.2-1B-instrução, o SEAL melhorou significativamente as taxas de sucesso de adaptação, alcançando 72,5% em comparação com 20% para modelos usando auto-editores básicos sem treinamento de RL e 0% sem adaptação. Embora ainda abaixo do “Oracle TTT” (uma linha de base idealizada), isso indica progresso substancial.

Para integração do conhecimentousando um modelo QWEN2.5-7B maior para integrar novos fatos de artigos de esquadrão, o selo superou consistentemente os métodos de linha de base. O treinamento com dados gerados sinteticamente do modelo base QWEN-2.5-7B já mostrou melhorias notáveis ​​e o aprendizado de reforço subsequente aumentou ainda mais o desempenho. A precisão também mostrou melhoria rápida em relação às iterações externas de RL, geralmente superando as configurações usando dados gerados por GPT-4.1 em apenas duas iterações.

Exemplos qualitativos do artigo ilustram como a aprendizagem de reforço leva à geração de auto-edições mais detalhadas, resultando em melhor desempenho.

Embora promissores, os pesquisadores também reconhecem algumas limitações da estrutura do selo, incluindo aspectos relacionados ao esquecimento catastrófico, sobrecarga computacional e avaliação dependente do contexto. Estes são discutidos em detalhes no artigo original.

Papel original: https://arxiv.org/pdf/2506.10943

Site do projeto: https://jyopari.github.io/posts/seal

Github Repo: https://github.com/continual-intelligence/seal

Subscribe
Notificar de
guest
0 Comentários
Mais antigo
O mais novo Mais Votados
Feedbacks embutidos
Ver todos os comentários

Publicidade

Publicidade