Por que o sucesso do Pokémon do Google Gemini não é tudo o que está rachado para ser

Publicidade

Enquanto a Gemini está usando seu próprio modelo e processo de raciocínio para essas tarefas, é revelador que Joelz teve que enxertar especificamente esses agentes especializados no modelo básico para ajudá -lo a superar alguns dos desafios mais difíceis do jogo. Como Joelz escreve, “minhas intervenções melhoram as habilidades gerais de decisão e raciocínio de Gêmeos”.

O que estamos testando aqui?

Não me interpretem mal, massagear um LLM em uma forma que pode vencer um jogo de Pokémon é definitivamente uma conquista. No entanto, o nível de “intervenção” necessário para ajudar Gêmeos com as coisas que “os LLMs não podem fazer de forma independente ainda é crucial para ter em mente ao avaliar esse sucesso.

O momento em que Gêmeos venceu o Pokémon (com uma pequena ajuda).

Já sabemos que as ferramentas de aprendizado de reforço especialmente projetadas podem vencer os Pokémon com bastante eficiência (e que mesmo um gerador de números aleatórios pode vencer o jogo de maneira ineficiente). A ressonância particular de um teste de “LLM Plays Pokémon” é ver se um modelo de idioma generalizado pode raciocinar sua própria solução para um jogo complicado por conta própria. Quanto mais retenção de mãos damos ao modelo-através de informações externas, ferramentas ou “arreios”-, menos útil o jogo é como esse tipo de teste.

Anthrópica disse em fevereiro que Claude interpreta Pokémon mostrou “vislumbres de sistemas de IA que enfrentam desafios com a crescente competência, não apenas através do treinamento, mas com o raciocínio generalizado”. Mas, como Bradshaw escreve sobre Lesswrong, “sem um arnês de agente refinado, (todos os modelos) têm dificuldade em passar pela primeira tela do jogo, o quarto de Red!” Os testes de jogabilidade subsequentes de Bradshaw com LLMs sem arnês destacam ainda mais como esses modelos frequentemente vagam sem rumo, retrocederam sem sentido ou até alucinar situações impossíveis de jogos.

Em outras palavras, ainda estamos muito longe do tipo de futuro previsto, onde uma inteligência geral artificial pode descobrir uma maneira de vencer os Pokémon apenas porque você pediu.

Subscribe
Notificar de
guest
0 Comentários
Mais antigo
O mais novo Mais Votados
Feedbacks embutidos
Ver todos os comentários

Publicidade

Publicidade