Openai最新的LLM O3在Independent 测试发现它解决的严重数学问题要比该公司最初声称的要少得多。
当Openai于12月宣布O3时,高管们说,该模型可以回答“ Frontiermath的第四个问题”,这是众所周知的一组研究生级数学难题。
他们补充说,最好的竞争对手被困在接近2%。 “今天,所有产品都少于2%,”首席研究官Mark Chen在O3和O3迷你直播。 “我们看到的是,O3处于积极的测试时间计算设置中,我们能够获得超过25%。”
TechCrunch报告说,该结果是由Openai在O3版本上获得的,该版本使用的计算能力比公司上周发布的模型更多.
星期五,创建Frontiermath的研究所时代的AI为公共O3发布了自己的成绩。
Openai与O4-Mini一起发布了O3,这是O4-Mini,这是一个成功的O3 Mini模型。
我们评估了数学和科学基准套件的新模型。导致线程! pic.twitter.com/5gbtzkey1b
- Epoch AI(@epochairesearch) 2025年4月18日
使用基准的290个问题的更新版本,Epoch将模型的限制约为10%。
结果确实与OpenAI的12月技术论文中的较低型数字相匹配,时代警告说,差异可能是由于各种原因所致。
写道 “我们的结果与OpenAI之间的差异可能是由于使用更强大的内部支架,使用更多的测试时间计算,或者是因为这些结果是在前面的另一个子集上运行的,” Epoch。
Frontiermath旨在衡量高级MathematicAl推理的进步。 2024年12月的公共场合包含180个问题,而2025年2月的私人更新将池扩展到290。
问题列表中的变化和测试时间允许的计算能力量可能会导致报告百分比的大幅波动。
ARC奖基金会的测试也来自于较早的构建,这也来自ARC奖基金会的测试。 发布的ARC Price Foundation发布了公共发行的“是另一个用于聊天/产品使用”的模型,并补充说:“所有已发布的O3计算层都比我们基准的版本小。”
Openai员工Wenda Zhou在上周的直播中也提供了类似的解释。他说,生产系统“针对现实世界的用例更优化”和速度。周说:“我们已经进行了[优化],以使模型更具成本效益,并且一般而言。”同时承认可能的基准“差异”。
该公司的两个较小型号,O3 -Mini -High和新宣布的O4 -Mini,已经在Frontiermath上击败O3,Openai表示,未来几周将有更好的O3 -Pro变体。
尽管如此,它表明了基准标题如何误导。一月份,Epoch因将OpenAI资金披露推迟到O3首次亮相后而受到批评。最近,埃隆·马斯克(Elon Musk)的创业公司XAI被指控展示了夸大其Grok 3模型功能的图表。
行业观察家说,随着公司争夺新车型的头条新闻,这种基准争议已成为AI行业的一个发生。
密码大都会学院:厌倦了市场波动?了解DeFi帮助您建立稳定的被动收入。立即注册