O modelo O3 da OpenAI fica aquém de suas próprias reivindicações de referência

Cryptopolitan
Atualizado em
Mitrade Team
coverImg
Fonte: DepositPhotos

O mais novo LLM da Openai, O3, está enfrentando escrutínio depois que os testes da Independent descobriram que ele resolveu um número muito menos de problemas matemáticos difíceis do que a empresa afirmou pela primeira vez. 

Quando o OpenAI divulgou a O3 em dezembro, os executivos disseram que o modelo pode responder "pouco mais de um quarto" dos problemas da Frontiermath, um conjunto notoriamente difícil de quebra -cabeças de matemática em nível de pós -graduação.

O melhor concorrente, acrescentou, ficou preso perto de 2%. "Hoje, todas as ofertas por aí têm menos de 2%", disse o diretor de pesquisa Mark Chen durante o O3 e o O3 Mini LiveStream . "Estamos vendo, com a O3 em configurações agressivas de computação de tempo de teste, podemos obter mais de 25%".

O TechCrunch informou que o resultado foi obtido pelo OpenAI em uma versão da O3 que usava mais poder de computação do que o modelo que a empresa lançou na semana passada.

Na sexta -feira, a época do Instituto de Pesquisa AI, que criou a Frontiermath, publicou sua própria pontuação para a O3 pública.

Usando uma edição atualizada de 290 perguntas do benchmark, a Epoch colocou o modelo em cerca de 10%.

O resultado corresponde a uma figura inferior no documento técnico de dezembro da OpenAI, e Epoch alertou que a discrepância poderia ser devido a vários motivos.

"A diferença entre nossos resultados e o OpenAI pode ser devida à avaliação do OpenAI com um andaime interno mais poderoso, usando mais computação de tempo de teste ou porque esses resultados foram executados em um subconjunto de fronteira diferente", escreveu  .

O FrontierMath foi projetado para medir o progresso em direção ao raciocínio avançado do Mathematic. O conjunto público de dezembro de 2024 continha 180 problemas, enquanto a atualização privada de fevereiro de 2025 expandiu o pool para 290.

As mudanças na lista de perguntas e a quantidade de energia de computação permitida no tempo de teste podem causar grandes balanços nas porcentagens relatadas.

OpenAI confirmou que o modelo público O3 usa menos computação do que a versão demo

A evidência de que a O3 comercial também veio também veio de testes da ARC Prêmio Foundation, que tentou uma construção anterior e maior. O lançamento público "é um modelo diferente ... sintonizado para o uso de bate -papo/produto", o arco Price Foundation postou em X, acrescentando que "todas as camadas de computação O3 lançadas são menores que a versão que comparamos".

A funcionária da Openai, Wenda Zhou, ofereceu uma explicação semelhante durante uma transmissão ao vivo na semana passada. O sistema de produção, disse ele, foi "mais otimizado para casos de uso do mundo real" e velocidade. "Fizemos [otimizações] para tornar o modelo mais econômico [e] mais útil em geral", disse Zhou, ao mesmo tempo em que reconhece a possível referência "disparidades".

Dois modelos menores da empresa, O3 -Mini -High e o recém -anunciado O4 -Mini, já venceram a O3 na Frontiermath, e o Openai diz que uma melhor variante O3 -Pro chegará nas próximas semanas.

Ainda assim, mostra como as manchetes de referência podem ser enganosas. Em janeiro, a Epoch foi criticada por adiar a divulgação do financiamento do Openai até depois da estréia da O3. Mais recentemente, a startup Xai de Elon Musk foi acusada de apresentar gráficos que exageravam as capacidades de seu modelo GROK 3.

Os observadores da indústria dizem que essas controvérsias de referência estão se tornando uma ocorrência no setor de IA, enquanto as empresas correm para capturar manchetes com novos modelos.


Isenção de responsabilidade: este artigo representa apenas a opinião do autor e não pode ser usado como consultoria de investimento. O conteúdo do artigo é apenas para referência. Os leitores não devem tomar este artigo como base para investimento. Antes de tomar qualquer decisão de investimento, procure orientação profissional independente para garantir que você entenda os riscos.

 

Os Contratos por Diferença (CFDs) são produtos alavancados que podem resultar na perda de todo o seu capital. Esses produtos não são adequados para todos os clientes; por favor, invista com rigor. Consulte este arquivo para obter mais informações.


goTop
quote
Você achou este artigo útil?
Artigos Relacionados
placeholder
Índice Dow Jones Industrial Average avança com anúncio de acordo comercial entre EUA e Reino UnidoO Índice Dow Jones Industrial Average (DJIA) ganhou terreno na quinta-feira, subindo mais de 650 pontos ou 1,6% após o governo Trump anunciar um acordo comercial iminente (mas ainda não assinado) com o Reino Unido (UK).
Autor  FXStreet
7 horas atrás
O Índice Dow Jones Industrial Average (DJIA) ganhou terreno na quinta-feira, subindo mais de 650 pontos ou 1,6% após o governo Trump anunciar um acordo comercial iminente (mas ainda não assinado) com o Reino Unido (UK).
placeholder
Os mercados de ações dos EUA surgem, Bitcoin ultrapassa US $ 100 mil, pois Trump diz aos americanos para “comprar ações agora”Os mercados dos EUA saltaram na quinta -feira depois que o President Donald Trump confirmou uma nova estrutura de acordo com o comércio entre os Estados Unidos e o Reino Unido, chamando -o de início do que ele disse seria um boom econômico. O anúncio marcou o primeiro grande acordo desde que a Casa Branca lançou tarifas abrangentes contra a maioria das economias globais […]
Autor  Cryptopolitan
7 horas atrás
Os mercados dos EUA saltaram na quinta -feira depois que o President Donald Trump confirmou uma nova estrutura de acordo com o comércio entre os Estados Unidos e o Reino Unido, chamando -o de início do que ele disse seria um boom econômico. O anúncio marcou o primeiro grande acordo desde que a Casa Branca lançou tarifas abrangentes contra a maioria das economias globais […]
placeholder
O Índice Dow Jones Industrial Average mantém-se estável antes da decisão sobre a taxa de juros pelo FedO Índice Dow Jones Industrial Average (DJIA) se ajustou para a faixa média durante as negociações de quarta-feira pela manhã, mantendo-se logo acima da marca importante de 41.000, enquanto os investidores aguardam a mais recente decisão sobre a taxa de juros do Federal Reserve (Fed).
Autor  FXStreet
Ontem 03: 13
O Índice Dow Jones Industrial Average (DJIA) se ajustou para a faixa média durante as negociações de quarta-feira pela manhã, mantendo-se logo acima da marca importante de 41.000, enquanto os investidores aguardam a mais recente decisão sobre a taxa de juros do Federal Reserve (Fed).
placeholder
Bitcoin e mercados de ações dos EUA veem ganhos modestos depois que o Fed mantinha as taxas de juros inalteradasAs ações Bitcoin Rose e os EUA mudaram na quarta -feira, depois que o Fed manteve sua taxa de juros intocada, alertando o aumento das ameaças a empregos e preços. O S&P 500 fechou 0,1% maior após uma sessão confusa. O Dow Jones acrescentou 237 pontos, ou 0,6%, ajudado por um salto nas ações da Disney. O NASDAQ, atingido por Tech […]
Autor  Cryptopolitan
Ontem 01: 35
As ações Bitcoin Rose e os EUA mudaram na quarta -feira, depois que o Fed manteve sua taxa de juros intocada, alertando o aumento das ameaças a empregos e preços. O S&P 500 fechou 0,1% maior após uma sessão confusa. O Dow Jones acrescentou 237 pontos, ou 0,6%, ajudado por um salto nas ações da Disney. O NASDAQ, atingido por Tech […]
placeholder
Dow Jones Industrial Average cai 250 pontos enquanto os mercados aguardam atualizações do Fed e do comércioO Dow Jones Industrial Average (DJIA) acompanhou a queda do mercado acionário mais amplo na terça-feira, com as ações sofrendo um leve golpe antes da próxima reunião do Federal Reserve (Fed) sobre taxas na quarta-feira.
Autor  FXStreet
5 Mês 07 Dia Qua
O Dow Jones Industrial Average (DJIA) acompanhou a queda do mercado acionário mais amplo na terça-feira, com as ações sofrendo um leve golpe antes da próxima reunião do Federal Reserve (Fed) sobre taxas na quarta-feira.