El modelo O3 de OpenAI no se encuentra en sus propias reclamaciones de referencia

Fuente Cryptopolitan

El nuevo LLM de OpenAI, O3, enfrenta un escrutinio después de que las pruebas dedent descubrieron que resolvió una cantidad mucho menos de problemas matemáticos difíciles de lo que la compañía afirmó por primera vez. 

Cuando Operai presentó O3 en diciembre, los ejecutivos dijeron que el modelo podría responder "un poco más de un cuarto" de los problemas en Frontiermath, un conjunto notoriamente difícil de acertijos de matemáticas a nivel de posgrado.

El mejor competidor, agregaron, estaba atrapado cerca del 2%. "Hoy, todas las ofertas tienen menos del 2%", dijo el director de investigación Mark Chen durante la transmisión en vivo . "Estamos viendo, con O3 en la configuración de cómputo agresivo de Test -time, podemos superar el 25%".

TechCrunch informó que el resultado fue obtenido por OpenAI en una versión de O3 que usó más potencia informática que el modelo que la compañía lanzó la semana pasada la semana pasada..

El viernes, la Epoch AI del Instituto de Investigación, que creó Frontiermath, publicó su propia puntuación para el Público O3.

Utilizando una edición actualizada de 290 preguntas del punto de referencia, Epoch puso el modelo en aproximadamente el 10%.

El resultado coincide con una cifra de unión inferior en el documento técnico de diciembre de OpenAI, y Epoch advirtió que la discrepancia podría deberse a varias razones.

"La diferencia entre nuestros resultados y la de OpenAI podría deberse a la evaluación de OpenAI con un andamio interno más potente, utilizando más computación en tiempo de prueba, o porque esos resultados se ejecutaron en un subconjunto diferente de Frontiermath", escribió .

Frontiermath está diseñado para medir el progreso hacia el razonamiento avanzado de Matematical. El conjunto público de diciembre de 2024 contenía 180 problemas, mientras que la actualización privada de febrero de 2025 amplió el grupo a 290.

Los cambios en la lista de preguntas y la cantidad de potencia informática permitida en el tiempo de prueba pueden causar grandes cambios en porcentajes informados.

Operai confirmó que el modelo Public O3 usa menos cómputo que la versión de demostración

La evidencia de que falta el O3 comercial también provino de las pruebas de la Fundación del Premio ARC, que probó una construcción anterior y más grande. El lanzamiento público "es un modelo diferente ... sintonizado para el uso de chat/producto", ARC Price Foundation publicó en X, y agregó que "todos los niveles de cómputo O3 lanzados son más pequeños que la versión que comparamos".

La empleada de Operai, Wenda Zhou, ofreció una explicación similar durante una transmisión en vivo la semana pasada. El sistema de producción, dijo, estaba "más optimizado para los casos de uso del mundo real" y la velocidad. "Hemos hecho [optimizaciones] para que el modelo sea más rentable [y] más útil en general", dijo Zhou, al tiempo que reconoce posibles "disparidades".

Dos modelos más pequeños de la compañía, O3 -Mini -Aligh y el recientemente anunciado O4 -Mini, ya vencieron a O3 en Frontiermath, y OpenAi dice que una mejor variante de O3 -Pro llegará en las próximas semanas.

Aún así, muestra cómo los titulares de referencia pueden ser engañosos. En enero, Epoch fue criticada por retrasar la divulgación de fondos de Operai hasta después del debut de O3. Más recientemente, la startup Xai de Elon Musk fue acusada de presentar cuadros que exageraban las capacidades de su modelo Grok 3.

Los observadores de la industria dicen que tales controversias de referencia se están convirtiendo en una ocurrencia en la industria de la IA a medida que las empresas corren para capturar los titulares con nuevos modelos.

Academia Cryptopolitan: ¿Cansado de columpios del mercado? Aprenda cómo DeFi puede ayudarlo a generar ingresos pasivos constantes. Registrarse ahora

Descargo de responsabilidad: Sólo con fines informativos. Rentabilidades pasadas no son indicativas de resultados futuros.
placeholder
Ethereum Predicción del Precio: Patrón gráfico de 18 meses apunta a un objetivo de 4.000$ para ETHEl precio de Ethereum se ha consolidado a lo largo de una línea de tendencia ascendente durante los últimos dieciocho meses, con el nivel de 2.035$ como resistencia. La acción general del precio ha formado un patrón de triángulo ascendente, que pronostica un objetivo de precio de 4.736$ para el ETH. La tesis alcista se invalidará si la altcoin rompe y cierra por debajo de la línea de tendencia ascendente en el nivel psicológico de 1.500$.
Autor  FXStreet
13 de nov de 2023
El precio de Ethereum se ha consolidado a lo largo de una línea de tendencia ascendente durante los últimos dieciocho meses, con el nivel de 2.035$ como resistencia. La acción general del precio ha formado un patrón de triángulo ascendente, que pronostica un objetivo de precio de 4.736$ para el ETH. La tesis alcista se invalidará si la altcoin rompe y cierra por debajo de la línea de tendencia ascendente en el nivel psicológico de 1.500$.
placeholder
El precio de Solana podría alcanzar los tres dígitos en 2024, un analista comparte una visión alcista sobre SOLEl volumen mensual de Solana supera los 6.000 millones de dólares, lo que soporta la actual recuperación del precio de SOL. El analista de criptomonedas Altcoin Sherpa predijo una subida masiva del precio de SOL en 2024. El precio de SOL podría retroceder por debajo de los 50$, antes de volver a subir.
Autor  FXStreet
27 de nov de 2023
El volumen mensual de Solana supera los 6.000 millones de dólares, lo que soporta la actual recuperación del precio de SOL. El analista de criptomonedas Altcoin Sherpa predijo una subida masiva del precio de SOL en 2024. El precio de SOL podría retroceder por debajo de los 50$, antes de volver a subir.
placeholder
El mercado de criptomonedas corre el riesgo de perder oportunidades debido al reciente revés en el proyecto de ley sobre stablecoins: BitwiseEl director de inversiones (CIO) de Bitwise, Matt Hougan, compartió en una nota a los inversores el martes que los responsables de las políticas necesitan comenzar a abordar las regulaciones de criptomonedas para que el mercado avance.
Autor  FXStreet
5 Mes 07 Día Mier
El director de inversiones (CIO) de Bitwise, Matt Hougan, compartió en una nota a los inversores el martes que los responsables de las políticas necesitan comenzar a abordar las regulaciones de criptomonedas para que el mercado avance.
placeholder
Bitcoin, el mercado de criptomonedas no se ve afectado mientras la Fed mantiene las tasas de interés establesBitcoin (BTC) vio una ganancia del 2% el miércoles tras la decisión de la Reserva Federal (Fed) de mantener las tasas en 4.25% - 4.50%, lo que se alineó con las expectativas.
Autor  FXStreet
El dia de ayer 01: 27
Bitcoin (BTC) vio una ganancia del 2% el miércoles tras la decisión de la Reserva Federal (Fed) de mantener las tasas en 4.25% - 4.50%, lo que se alineó con las expectativas.
placeholder
Ripple gana la demanda SEC y recupera $ 75 millones después de que termina la batalla legalRipple y la SEC acordaron resolver su demanda con un pago de $ 50 millones, y Ripple obtendrá $ 75 millones de regreso.
Autor  Cryptopolitan
13 hace una horas
Ripple y la SEC acordaron resolver su demanda con un pago de $ 50 millones, y Ripple obtendrá $ 75 millones de regreso.
goTop
quote