Novo estudo acusa a arena de jogos de seu popular referência de IA de AI

TecnoDicas & Trends
maio 1, 2025

Este estudo também chama a LM Arena para o que parece ser uma promoção muito maior de modelos privados como Gêmeos, Chatgpt e Claude. Os desenvolvedores coletam dados sobre as interações modelo da API do Chatbot Arena, mas as equipes focadas em modelos abertos consistentemente obtêm o final curto do bastão.

Os pesquisadores apontam que certos modelos aparecem nos confrontos da arena com muito mais frequência, com o Google e o OpenAI juntos representando mais de 34 % dos dados do modelo coletado. Empresas como Xai, Meta e Amazon também estão desproporcionalmente representadas na arena. Portanto, essas empresas obtêm mais dados vibemares em comparação com os fabricantes de modelos abertos.

Mais modelos, mais evalas

Os autores do estudo têm uma lista de sugestões para tornar a LM Arena mais justa. Várias recomendações do artigo visam corrigir o desequilíbrio de modelos comerciais testados em particular, por exemplo, limitando o número de modelos que um grupo pode adicionar e retrair antes de liberar um. O estudo também sugere mostrar todos os resultados do modelo, mesmo que não sejam finais.

No entanto, os operadores do site discordam de algumas das metodologia e conclusões do artigo. A LM Arena ressalta que os recursos de teste de pré-lançamento não foram mantidos em segredo, com uma postagem no blog de março de 2024 com uma breve explicação do sistema. Eles também afirmam que os criadores de modelos não escolhem tecnicamente a versão mostrada. Em vez disso, o site simplesmente não mostra versões não públicas por uma questão de simplicidade. Quando um desenvolvedor lança a versão final, é isso que a LM Arena adiciona à tabela de classificação.

Os modelos proprietários recebem atenção desproporcional na arena do chatbot, diz o estudo.

Crédito: Shivalika Singh et al.

Um lugar em que os dois lados podem achar que o alinhamento está em questão de confrontos desiguais. Os autores do estudo exigem amostragem justa, que garantirá modelos abertos na Arena Chatbot a uma taxa semelhante a Gemini e ChatGPT. A LM Arena sugeriu que funcionará para tornar o algoritmo de amostragem mais variado, para que você nem sempre obtenha os grandes modelos comerciais. Isso enviaria mais dados de avaliação para players pequenos, dando -lhes a chance de melhorar e desafiar os grandes modelos comerciais.

A LM Arena anunciou recentemente que estava formando uma entidade corporativa para continuar seu trabalho. Com dinheiro na mesa, os operadores precisam garantir que a Arena de Chatbot continue figurando no desenvolvimento de modelos populares. No entanto, não está claro se essa é uma maneira objetivamente melhor de avaliar os chatbots versus testes acadêmicos. À medida que as pessoas votam nas vibrações, há uma possibilidade real de que estamos pressionando modelos para adotar tendências bajuladoras. Isso pode ter ajudado a incentivar o chatgpt no território de sucção nas últimas semanas, um movimento que o Openai reverteu às pressas após a raiva generalizada.

0 Comentários

Mais antigo

O mais novo Mais Votados

Feedbacks embutidos

Ver todos os comentários

TecnoDicas
& Trends

Novo estudo acusa a arena de jogos de seu popular referência de IA de AI

Mais modelos, mais evalas

O Mistério do Bigode em "Alto Potencial" Explicado

Tudo sobre a 51ª temporada do SNL: Episódios, Datas e Como Assistir

Feliz Natal, Ted Cooper!: Um Filme de Natal Cheio de Charme e Humor

Landman 2ª Temporada: Tudo o que Você Precisa Saber

4ª Temporada de Prefeito de Kingstown: Tudo o que Você Precisa Saber

Paul e Morgan: Rumores de Romance e Novidades no Mundo dos Reality Shows

O Que Assistir na TV e Streaming Hoje: Filmes, Séries e Esportes

Keri Russell brilha em "O Diplomata": Melhores momentos da 3ª temporada

My Hero Academia Temporada 8: Confronto Final e Emoções Intensas

Bill Maher Critica Reforma de Trump na Casa Branca

TecnoDicas
& Trends

Categorias

Informações

Siga-nos

Novo estudo acusa a arena de jogos de seu popular referência de IA de AI

Mais modelos, mais evalas

O Mistério do Bigode em "Alto Potencial" Explicado

Tudo sobre a 51ª temporada do SNL: Episódios, Datas e Como Assistir

Feliz Natal, Ted Cooper!: Um Filme de Natal Cheio de Charme e Humor

Landman 2ª Temporada: Tudo o que Você Precisa Saber

4ª Temporada de Prefeito de Kingstown: Tudo o que Você Precisa Saber

Paul e Morgan: Rumores de Romance e Novidades no Mundo dos Reality Shows

O Que Assistir na TV e Streaming Hoje: Filmes, Séries e Esportes

Keri Russell brilha em "O Diplomata": Melhores momentos da 3ª temporada

My Hero Academia Temporada 8: Confronto Final e Emoções Intensas

Bill Maher Critica Reforma de Trump na Casa Branca

TecnoDicas & Trends

Categorias

Informações

Siga-nos

TecnoDicas
& Trends