Deepseek sinaliza o modelo R2 de próxima geração, revela uma nova abordagem para escalar a inferência com o SPCT

Publicidade

A Deepseek AI, um participante de destaque na grande arena de modelos de idiomas, publicou recentemente um artigo de pesquisa detalhando uma nova técnica destinada a melhorar a escalabilidade dos modelos de recompensa geral (GRMS) durante a fase de inferência. Simultaneamente, a empresa sugeriu a chegada iminente de seu modelo de próxima geração, R2, construindo antecipação na comunidade de IA.

O jornal, intitulado “Escala de tempo de inferência para modelagem de recompensa generalista”Introduz um novo método que permite que o GRMS otimize a geração de recompensa, produzindo dinamicamente princípios e críticas. Isso é alcançado por meio de rejeição de ajuste fino e aprendizado de reforço on-line baseado em regras (1-1).

Esse desenvolvimento chega em um momento em que o paradigma para o Scaling LLMS está mudando do estágio de pré-treinamento para o pós-treinamento, particularmente a fase de inferência, após o surgimento de modelos como o OpenAI’s O1. Essa abordagem aproveita o aumento da aprendizagem de reforço (esforço computacional durante o treinamento) e um “tempo de pensamento” mais extenso (esforço computacional durante o teste) para melhorar continuamente o desempenho do modelo. Notavelmente, o O1 gera uma longa cadeia interna de pensamento antes de responder aos usuários, refinar seu processo de raciocínio, explorando estratégias diferentes e identificando seus próprios erros.

A própria série de modelos R1 da Deepseek validou ainda mais o potencial de treinamento de aprendizado de reforço puro (sem depender de ajustes finos supervisionados) para obter saltos significativos nas capacidades de raciocínio de LLM.

O mecanismo fundamental de “previsão de token” do LLMS, enquanto fornece vasto conhecimento, geralmente carece de um planejamento profundo e a capacidade de prever resultados a longo prazo, tornando-os suscetíveis a decisões míopes. A aprendizagem de reforço serve como um complemento crucial, fornecendo aos LLMs um “modelo mundial interno”. Isso lhes permite simular os possíveis resultados de diferentes caminhos de raciocínio, avaliar a qualidade desses caminhos e selecionar soluções superiores, levando a um planejamento mais sistemático a longo prazo. A sinergia entre LLMs e RL é cada vez mais reconhecida como chave para melhorar a capacidade de resolver problemas complexos.

Wu Yi, professor assistente do Instituto de Ciências da Informação Interdisciplinar de Tsinghua (IIIs), comparou a relação entre LLMs e o aprendizado de reforço a um “relacionamento multiplicativo” em um podcast recente. Embora a aprendizagem de reforço se destaque na tomada de decisões, ele não tem entendimento. A construção do entendimento depende de modelos pré-treinados, sobre os quais o aprendizado de reforço pode otimizar ainda mais os recursos de tomada de decisão. Esse “relacionamento multiplicativo” sugere que somente quando um forte fundamento de entendimento, memória e raciocínio lógico é construído durante o pré-treinamento, pode reforçar o aprendizado de desbloquear totalmente seu potencial para criar um agente inteligente completo (1-2).

Um artigo de pesquisa abrangente intitulado “Aprendizagem de reforço LLMS aprimorada: uma pesquisa” descreve o processo típico de três etapas de usar o RL para treinar LLMS:

  1. Treinamento do modelo de recompensa: Antes do ajuste fino, um modelo de recompensa (ou função de recompensa) é treinado para aproximar as preferências humanas e avaliar diferentes saídas do LLM.
  2. Ajuste fino baseado em preferências: Em cada iteração de ajuste fino, o modelo de idioma grande gera várias respostas a uma determinada instrução e cada resposta é pontuada usando o modelo de recompensa treinada.
  3. Política Otimização: As técnicas de otimização de aprendizado de reforço são usadas para atualizar os pesos do modelo com base nas pontuações de preferência, com o objetivo de melhorar a geração de respostas.

A integração do aprendizado de reforço permite que grandes modelos de idiomas se ajustem dinamicamente com base em escores de preferência variados, indo além das limitações de uma única resposta pré-determinada.

SPCT de Deepseek: abordando os desafios de escala de Rl para Llms

Apesar do sucesso do aprendizado de reforço no pós-treinamento como um avanço para melhorar o desempenho do LLM, os próprios algoritmos de aprendizado de reforço ainda têm espaço significativo para melhorias, e as “leis de escala” do aprendizado de reforço ainda estão em seus estágios nascentes.

Diferentemente das leis tradicionais de escala que se concentram no aumento de dados e calculam para melhorar o desempenho do modelo, as leis de escala para a aprendizagem de reforço são influenciadas por fatores mais complexos, incluindo a taxa de transferência da amostra, o tamanho do parâmetro do modelo e a complexidade do ambiente de treinamento.

Um grande obstáculo na escala da aprendizagem de reforço é a escassez de recompensa. O modelo de recompensa é um componente crítico, e a geração de sinais de recompensa precisa é fundamental. Conseguir generalização e continuidade nos modelos de recompensa é um foco essencial.

Os pesquisadores Deepseek e Tsinghua abordaram esse desafio em seu trabalho recente, explorando a escalabilidade e a generalização dos modelos de recompensa em tempo de inferência. Seu método proposto de ajuste de crítica auto-princípio (SPCT) visa melhorar a escalabilidade da modelagem de recompensa geral durante a inferência.

A abordagem do SPCT envolve dois estágios -chave:

  1. Rejeição de ajuste fino: Isso serve como um começo frio, permitindo que o GRM se adapte à geração de princípios e críticas no formato e tipo corretos.
  2. RL online baseado em regras: Este estágio otimiza ainda mais a geração de princípios e críticas.

Para obter uma escala efetiva em tempo de inferência, os pesquisadores empregaram amostragem paralela para maximizar a utilização computacional. Ao amostrar várias vezes, o Deepseek-GRM pode gerar diferentes conjuntos de princípios e críticas e selecionar a recompensa final por meio da votação. Além disso, um modelo de meta-recompensa (meta RM) é treinado para orientar o processo de votação, aumentando ainda mais o desempenho da escala. O Meta RM é um modelo de recompensa escalar ponto a ponto, projetado para identificar a correção dos princípios e críticas geradas pelo Deepseek-GRM.

Os resultados experimentais demonstraram que o SPCT melhora significativamente a qualidade e a escalabilidade dos GRMs, superando os métodos e modelos existentes em vários benchmarks abrangentes da RM sem viés significativo de domínio.

Olhando para o futuro: Deepseek R2 no horizonte

Embora o artigo de pesquisa se concentre nos avanços na modelagem de recompensas e na escala de tempo de inferência, a menção da série R1 da Deepseek e a progressão implícita sugerem que a empresa está desenvolvendo ativamente seu modelo de próxima geração, R2. Dada a ênfase da Deepseek no puro aprendizado de reforço para aumentar o raciocínio, é altamente esperado que o R2 incorpore e desenvolva as idéias obtidas com esta última pesquisa sobre modelos de recompensa escalável.

A comunidade de IA estará observando profundamente os anúncios sobre o Deepseek R2, ansioso para ver como a empresa aproveita suas abordagens inovadoras para reforçar o aprendizado e a otimização de inferência para ultrapassar os limites dos grandes recursos do modelo de linguagem. O foco nos modelos de recompensa escalonável sugere uma ênfase potencial em mecanismos de autoavaliação e melhoria ainda mais sofisticados em seu próximo modelo.

O papel Escala de tempo de inferência para modelagem de recompensa generalista está no arxiv.

Subscribe
Notificar de
guest
0 Comentários
Mais antigo
O mais novo Mais Votados
Feedbacks embutidos
Ver todos os comentários

Publicidade

Publicidade