Novo modelo Claude 4 AI refatou o código por 7 horas seguidas

Publicidade

Na quinta-feira, o Anthropic lançou Claude Opus 4 e Claude Sonnet 4, marcando o retorno da empresa a lançamentos maiores de modelos depois de se concentrar principalmente nas variantes de soneto de médio alcance desde junho do ano passado. Os novos modelos representam o que a empresa chama de seus modelos de codificação mais capazes, com o Opus 4 projetado para tarefas complexas e de longa duração que podem operar autonomamente por horas.

Alex Albert, chefe de relações de Claude, da Anthropic, disse à Ars Technica que a empresa optou por reviver a linha Opus por causa da crescente demanda por aplicativos de IA agênticos. “Em todas as empresas por aí que estão construindo as coisas, há uma onda realmente grande dessas aplicações agênticas surgindo e uma demanda e um prêmio muito altos sendo colocados em inteligência”, disse Albert. “Acho que a Opus vai se encaixar perfeitamente naquele ritmo”.

Antes de irmos mais longe, uma breve atualização sobre os três nomes de “tamanho” do modelo de IA de Claude (introduzidos em março de 2024) provavelmente é justificada. Haiku, Sonnet e Opus oferecem uma troca entre preço (na API), velocidade e capacidade.

Os modelos haiku são os menores, mais baratos de correr e menos capazes em termos do que você pode chamar de “profundidade do contexto” (considerando relacionamentos conceituais no prompt) e conhecimento codificado. Devido ao tamanho pequeno da contagem de parâmetros, os modelos haiku mantêm menos fatos concretos e, portanto, tendem a confabular com mais frequência (respondendo plausivelmente a perguntas com base na falta de dados) do que os modelos maiores, mas são muito mais rápidos em tarefas básicas do que modelos maiores. O Sonnet é tradicionalmente um modelo de gama média que atinge um equilíbrio entre custo e capacidade, e os modelos Opus sempre foram os maiores e mais lentos a serem executados. No entanto, os modelos Opus processam o contexto mais profundamente e são hipoteticamente mais adequados para executar tarefas lógicas profundas.

Uma captura de tela da interface da Web Claude com as opus 4 e o Sonnet 4 opções mostradas.


Crédito: Antrópico

Ainda não há Claude 4 haiku, mas os novos modelos Sonnet e Opus podem lidar com tarefas que as versões anteriores não conseguiram. Em nossa entrevista com Albert, ele descreveu os cenários de teste em que o Opus 4 trabalhou coerentemente por até 24 horas em tarefas como reproduzir Pokémon Enquanto a codificação de tarefas de refatoração no código Claude funcionou por sete horas sem interrupção. Os modelos Claude anteriores normalmente duravam apenas uma a duas horas antes de perder a coerência, disse Albert, o que significa que os modelos só poderiam produzir saídas úteis de auto-referência por isso muito antes de começar a produzir muitos erros.

Subscribe
Notificar de
guest
0 Comentários
Mais antigo
O mais novo Mais Votados
Feedbacks embutidos
Ver todos os comentários

Publicidade

Publicidade