Por que usar o3-pro?
Ao contrário de modelos de uso geral como o GPT-4O que priorizam a velocidade, o amplo conhecimento e a faz com que os usuários se sintam bem consigo mesmos, o O3-Pro usa um processo de raciocínio simulado da cadeia de pensamentos para dedicar mais tokens de saída para trabalhar em problemas complexos, tornando-o geralmente melhor para desafios técnicos que requerem análises mais profundas. Mas ainda não é perfeito.

O gráfico de benchmark de O3-Pro da OpenAI.
Credit:
OpenAI
Medir o chamado capacidade de “raciocínio” é complicado, pois os benchmarks podem ser fáceis de jogar, escolhendo a contaminação por dados de cerejeira ou treinamento, mas o OpenAI relata que o O3-Pro é popular entre os testadores, pelo menos. “Em avaliações especializadas, os revisores preferem consistentemente O3-Pro o O3 em todas as categorias testadas e, especialmente, em domínios-chave como ciência, educação, programação, negócios e ajuda de escrita”, escreve o OpenAI em suas notas de lançamento. “Os revisores também classificaram o O3-Pro consistentemente mais alto para maior clareza, abrangência, seguidores de instruções e precisão”.

O gráfico de benchmark de O3-Pro da OpenAI.
Credit:
OpenAI
Resultados de referência compartilhados do OpenAI, mostrando melhorias de desempenho relatadas pelo O3-Pro. Na competição de matemática de Aime 2024, o O3-Pro alcançou 93 % de precisão a 1, em comparação com 90 % para O3 (médio) e 86 % para O1-Pro. O modelo atingiu 84 % em questões científicas de nível de doutorado da GPQA Diamond, acima de 81 % para O3 (médio) e 79 % para O1-Pro. Para tarefas de programação medidas pelas forças de código, o O3-Pro alcançou uma classificação ELO de 2748, superando O3 (médio) em 2517 e O1-Pro em 1707.
Quando o raciocínio é simulado

Crédito: Floriana via Getty Images
É fácil para os leigos serem expulsos pelas reivindicações antropomórficas de “raciocínio” nos modelos de IA. Nesse caso, como no termo antropomórfico emprestado, “alucinações”, “raciocínio” tornou -se um termo de arte na indústria de IA que basicamente significa “dedicar mais tempo de computação para resolver um problema”. Isso não significa necessariamente que os modelos de IA apliquem sistematicamente a lógica ou possuam a capacidade de construir soluções para problemas verdadeiramente novos. É por isso que nós da ARS Technica continuamos a usar o termo “raciocínio simulado” (SR) para descrever esses modelos. Eles estão simulando um processo de raciocínio de estilo humano que não produz necessariamente os mesmos resultados que o raciocínio humano quando confrontado com novos desafios.