Como uma grande mudança no treinamento LLMS levou a uma explosão de capacidade

Publicidade

Primeiro, o Anthropic escreveu uma descrição simples dos princípios em inglês que um LLM deve seguir. Essa “Constituição” inclui princípios como “Escolha a resposta que tenha o conteúdo menos censurável, ofensivo, ilegal, enganoso, impreciso ou prejudicial”.

Durante o treinamento, o Antrópico aprimora a aprendizagem, pedindo a um “juiz” que decida se a produção do LLM “Student” é consistente com os princípios nesta Constituição. Nesse caso, o algoritmo de treinamento recompensa o aluno, incentivando -o a produzir mais resultados como ele. Caso contrário, o algoritmo de treinamento penaliza o aluno, desencorajando -o a produzir saídas semelhantes.

Esse método de treinamento de um LLM não depende diretamente dos julgamentos humanos. Os seres humanos influenciam apenas o modelo indiretamente, escrevendo a Constituição.

Obviamente, essa técnica exige que uma empresa de IA já tenha um LLM bastante sofisticado para atuar como juiz. Portanto, este é um processo de inicialização: à medida que os modelos ficam mais sofisticados, eles se tornam mais capazes de supervisionar a próxima geração de modelos.

Em dezembro passado, a Semiânica publicou um artigo descrevendo o processo de treinamento para uma versão atualizada do Claude 3,5 sonetos que o Antrópico lançou em outubro. Anthrópica havia lançado anteriormente Claude 3 em três tamanhos: Opus (grande), Soneto (Médio) e Haiku (pequeno). Mas quando o Anthropic lançou Claude 3.5 em junho de 2024, ele lançou apenas um modelo de tamanho médio chamado Sonnet.

Então, o que aconteceu com o Opus?

A semiânica relatou que “Treinamento antrópico Treinamento Claude 3.5 Opus, e teve um bom desempenho. No entanto, o Antrópico não o liberou. Isso ocorre porque, em vez de liberar publicamente, o antropal usou o Claude 3.5 Opus para gerar significativamente os dados sintéticos e a modelagem de recompensa para melhorar o Claude 3,5 Sonnet.”

Quando a semiânica diz que o Antrópico usou a Opus “para modelagem de recompensa”, o que eles significam é que a empresa usou o Opus para julgar os resultados do Claude 3,5 sonetos como parte de um processo de aprendizado de reforço. Opus era muito grande – e, portanto, caro – ser um bom valor para o público em geral. Mas, por meio de aprendizado de reforço e outras técnicas, o antropic poderia treinar uma versão do Soneto Claude que estava perto de Claude Opus em suas capacidades-multimadamente, proporcionando aos clientes o desempenho quase opus pelo preço do soneto.

Subscribe
Notificar de
guest
0 Comentários
Mais antigo
O mais novo Mais Votados
Feedbacks embutidos
Ver todos os comentários

Publicidade

Publicidade