Openai的O3型号未达到其自己的基准要求

来源 Cryptopolitan

Openai最新的LLM O3在Independent 测试发现它解决的严重数学问题要比该公司最初声称的要少得多。

当Openai于12月宣布O3时，高管们说，该模型可以回答“ Frontiermath的第四个问题”，这是众所周知的一组研究生级数学难题。

他们补充说，最好的竞争对手被困在接近2％。 “今天，所有产品都少于2％，”首席研究官Mark Chen在O3和O3迷你直播。 “我们看到的是，O3处于积极的测试时间计算设置中，我们能够获得超过25％。”

TechCrunch报告说，该结果是由Openai在O3版本上获得的，该版本使用的计算能力比公司上周发布的模型更多.

星期五，创建Frontiermath的研究所时代的AI为公共O3发布了自己的成绩。

Openai与O4-Mini一起发布了O3，这是O4-Mini，这是一个成功的O3 Mini模型。

我们评估了数学和科学基准套件的新模型。导致线程！ pic.twitter.com/5gbtzkey1b

- Epoch AI（@epochairesearch） 2025年4月18日

使用基准的290个问题的更新版本，Epoch将模型的限制约为10％。

结果确实与OpenAI的12月技术论文中的较低型数字相匹配，时代警告说，差异可能是由于各种原因所致。

写道 “我们的结果与OpenAI之间的差异可能是由于使用更强大的内部支架，使用更多的测试时间计算，或者是因为这些结果是在前面的另一个子集上运行的，” Epoch。

Frontiermath旨在衡量高级MathematicAl推理的进步。 2024年12月的公共场合包含180个问题，而2025年2月的私人更新将池扩展到290。

问题列表中的变化和测试时间允许的计算能力量可能会导致报告百分比的大幅波动。

OpenAI确认公共O3模型的计算少于演示版本

ARC奖基金会的测试也来自于较早的构建，这也来自ARC奖基金会的测试。发布的ARC Price Foundation发布了公共发行的“是另一个用于聊天/产品使用”的模型，并补充说：“所有已发布的O3计算层都比我们基准的版本小。”

Openai员工Wenda Zhou在上周的直播中也提供了类似的解释。他说，生产系统“针对现实世界的用例更优化”和速度。周说：“我们已经进行了[优化]，以使模型更具成本效益，并且一般而言。”同时承认可能的基准“差异”。

该公司的两个较小型号，O3 -Mini -High和新宣布的O4 -Mini，已经在Frontiermath上击败O3，Openai表示，未来几周将有更好的O3 -Pro变体。

尽管如此，它表明了基准标题如何误导。一月份，Epoch因将OpenAI资金披露推迟到O3首次亮相后而受到批评。最近，埃隆·马斯克（Elon Musk）的创业公司XAI被指控展示了夸大其Grok 3模型功能的图表。

行业观察家说，随着公司争夺新车型的头条新闻，这种基准争议已成为AI行业的一个发生。

密码大都会学院：厌倦了市场波动？了解DeFi帮助您建立稳定的被动收入。立即注册

免责声明：仅供参考。过去的表现并不预示未来的结果。

推荐文章

人民币汇率强劲升值！高盛：国际化加速，2026年人民币兑美元升至6.85 美元兑在岸人民币（USD/CNY）跌至7.0824，美元兑离岸人民币（USD/CNH）跌至7.0779，双双创一年多新低。

作者 Alison Ho

11 月 26 日周三

美元兑在岸人民币（USD/CNY）跌至7.0824，美元兑离岸人民币（USD/CNH）跌至7.0779，双双创一年多新低。

日本央行12月加息概率飙升至80%！日元汇率升破155，未来继续涨？美元/日元（USD/JPY）跌至154.66，创两个星期低点。随着套息交易平仓，美元/日元或跌向150。

作者 Alison Ho

12 月 02 日周二

美元/日元（USD/JPY）跌至154.66，创两个星期低点。随着套息交易平仓，美元/日元或跌向150。

黄金白银都成功突破，比特币还在9万挣扎！趋势何时反转？周五(12月12日)比特币在昨日剧烈波动后继续在9.2万美元附近整理，一位分析师表示，比特币面临的下行压力正在减弱，但市场尚未完全脱离风险。

作者 FX168

12 月 12 日周五

周五(12月12日)比特币在昨日剧烈波动后继续在9.2万美元附近整理，一位分析师表示，比特币面临的下行压力正在减弱，但市场尚未完全脱离风险。

12月15日财经早餐：下任美联储主席“换人”，黄金、白银冲高回落，博通下挫超11%、纳指跌近2%特朗普表示美联储前理事沃什(Kevin Warsh)是接替鲍威尔担任美联储主席的首选。特朗普表态受到华尔街欢迎，但特朗普下一任美联储主席应该就利率问题征求他的意见，并称希望一年后的利率水平降至1%甚至更低。因降息将有助美国财政部降低30万亿美元政府债务融资的成本。消息公布后美国2年期国债收益率跌至3.52%、10年期国债收益率升至4.18%，美国30年期国债收益率升至4.84%，创9月以来最高水平。凸显市场对通胀前景、美联储独立性受冲击感到担忧。

作者 Insights

9 小时前

特朗普表示美联储前理事沃什(Kevin Warsh)是接替鲍威尔担任美联储主席的首选。特朗普表态受到华尔街欢迎，但特朗普下一任美联储主席应该就利率问题征求他的意见，并称希望一年后的利率水平降至1%甚至更低。因降息将有助美国财政部降低30万亿美元政府债务融资的成本。消息公布后美国2年期国债收益率跌至3.52%、10年期国债收益率升至4.18%，美国30年期国债收益率升至4.84%，创9月以来最高水平。凸显市场对通胀前景、美联储独立性受冲击感到担忧。

美11月非农重磅来袭！美元、美股、黄金市场将迎巨震？12月16日，美国将公布政府开门后首份重要就业报告，据悉包含10月非农部分数据和11月非农完整数据。

作者 Alison Ho

6 小时前

12月16日，美国将公布政府开门后首份重要就业报告，据悉包含10月非农部分数据和11月非农完整数据。

热门品种