Uma captura de tela do problema de 2025 USAMO nº 1 e uma solução, mostrada no site da Aopsonline.
Crédito: Aopsonline
A Olimpíada de Matemática dos EUA (USAMO) serve como qualificadora para a Olimpíada Internacional de Matemática e apresenta uma barra muito mais alta do que testes como o American Invitational Mathematics Examination (AIME). Embora os problemas do AIM sejam difíceis, eles exigem respostas inteiras. A USAMO exige que os participantes escrevem provas matemáticas completas, pontuadas por correção, integridade e clareza ao longo de nove horas e dois dias.
Os pesquisadores avaliaram vários modelos de raciocínio de IA sobre os seis problemas do USAMO de 2025 logo após o lançamento, minimizando qualquer chance de os problemas fazerem parte dos dados de treinamento dos modelos. Esses modelos incluíram QWQ-32B da Qwen, Deepseek R1, Gemini 2.0 Flash Thinking (Experimental) do Google e Gemini 2.5 Pro, Openi O1-Pro e O3-Mini-Hini-Alter, Claude de 3,7 sonetos do Anthropic com pensamento estendido e Grok 3 de Xai.
Uma captura de tela de 25 de abril de 2025 do site dos pesquisadores Matharena, mostrando as pontuações de precisão dos modelos de SR em cada problema no USAMO.
Crédito: Matharena
Enquanto um modelo, o Gemini 2.5 Pro do Google alcançou uma pontuação média mais alta de 10,1 dos 42 pontos (~ 24 %), os resultados mostraram uma queda massiva de desempenho em comparação com os benchmarks de nível de AIME. Os outros modelos avaliados ficaram consideravelmente mais para trás: Deepseek R1 e Grok 3 em média 2,0 pontos cada, o ritmo de flash do Google marcou 1,8, o Claude 3,7 do Anthrópio gerenciou 1,5, enquanto o QWQ da Qwen e o OpenAI O1-Pro em média 1,2 pontos. O O3-mini da Openai teve a pontuação média mais baixa em apenas 0,9 pontos (~ 2,1 %). Das quase 200 soluções geradas em todos os modelos e execuções testados, nenhuma recebeu uma pontuação perfeita para qualquer problema.
Enquanto o recém-lançado 03 e o O4-Mini-Hini do OpenAi não foram examinados para este estudo, os benchmarks no site dos pesquisadores Matharena mostram uma pontuação de 21,73 % dos pesquisadores e a pontuação de O4-Mini-alta 19,05 % no USAMO. No entanto, esses resultados estão potencialmente contaminados porque foram medidos após a concorrência, o que significa que os modelos mais recentes do OpenAI poderiam ter incluído as soluções nos dados de treinamento.
Como os modelos falharam
No artigo, os pesquisadores identificaram vários padrões importantes de falha recorrentes. As saídas de IA continham lacunas lógicas em que falta a justificação matemática, incluíam argumentos baseados em suposições não comprovadas e continuaram produzindo abordagens incorretas, apesar de gerar resultados contraditórios.
Um exemplo específico envolveu o problema do USAMO 2025 5. Esse problema solicitou aos modelos que encontrassem todos os números inteiros positivos “K”, de modo que um cálculo específico envolvendo somas de coeficientes binomiais elevados ao poder de “K” sempre resultaria em um número inteiro, não importa qual inteiro positivo “n” fosse usado. Sobre esse problema, o modelo QWQ de Qwen cometeu um erro notável: ele excluiu incorretamente as possibilidades não inteiras em um estágio em que a declaração do problema permitia. Esse erro levou o modelo a uma resposta final incorreta, apesar de ter identificado corretamente as condições necessárias no início de seu processo de raciocínio.