Este estudo também chama a LM Arena para o que parece ser uma promoção muito maior de modelos privados como Gêmeos, Chatgpt e Claude. Os desenvolvedores coletam dados sobre as interações modelo da API do Chatbot Arena, mas as equipes focadas em modelos abertos consistentemente obtêm o final curto do bastão.
Os pesquisadores apontam que certos modelos aparecem nos confrontos da arena com muito mais frequência, com o Google e o OpenAI juntos representando mais de 34 % dos dados do modelo coletado. Empresas como Xai, Meta e Amazon também estão desproporcionalmente representadas na arena. Portanto, essas empresas obtêm mais dados vibemares em comparação com os fabricantes de modelos abertos.
Mais modelos, mais evalas
Os autores do estudo têm uma lista de sugestões para tornar a LM Arena mais justa. Várias recomendações do artigo visam corrigir o desequilíbrio de modelos comerciais testados em particular, por exemplo, limitando o número de modelos que um grupo pode adicionar e retrair antes de liberar um. O estudo também sugere mostrar todos os resultados do modelo, mesmo que não sejam finais.
No entanto, os operadores do site discordam de algumas das metodologia e conclusões do artigo. A LM Arena ressalta que os recursos de teste de pré-lançamento não foram mantidos em segredo, com uma postagem no blog de março de 2024 com uma breve explicação do sistema. Eles também afirmam que os criadores de modelos não escolhem tecnicamente a versão mostrada. Em vez disso, o site simplesmente não mostra versões não públicas por uma questão de simplicidade. Quando um desenvolvedor lança a versão final, é isso que a LM Arena adiciona à tabela de classificação.
Os modelos proprietários recebem atenção desproporcional na arena do chatbot, diz o estudo.
Crédito: Shivalika Singh et al.
Os modelos proprietários recebem atenção desproporcional na arena do chatbot, diz o estudo.
Crédito: Shivalika Singh et al.
Um lugar em que os dois lados podem achar que o alinhamento está em questão de confrontos desiguais. Os autores do estudo exigem amostragem justa, que garantirá modelos abertos na Arena Chatbot a uma taxa semelhante a Gemini e ChatGPT. A LM Arena sugeriu que funcionará para tornar o algoritmo de amostragem mais variado, para que você nem sempre obtenha os grandes modelos comerciais. Isso enviaria mais dados de avaliação para players pequenos, dando -lhes a chance de melhorar e desafiar os grandes modelos comerciais.
A LM Arena anunciou recentemente que estava formando uma entidade corporativa para continuar seu trabalho. Com dinheiro na mesa, os operadores precisam garantir que a Arena de Chatbot continue figurando no desenvolvimento de modelos populares. No entanto, não está claro se essa é uma maneira objetivamente melhor de avaliar os chatbots versus testes acadêmicos. À medida que as pessoas votam nas vibrações, há uma possibilidade real de que estamos pressionando modelos para adotar tendências bajuladoras. Isso pode ter ajudado a incentivar o chatgpt no território de sucção nas últimas semanas, um movimento que o Openai reverteu às pressas após a raiva generalizada.