GPT-5.2登场:OpenAI十周年之际亮剑,以专业模型稳守AI高地

来源 Tradingkey

TradingKey - 仅在启动“红色警报”一周后,OpenAI于周四正式推出其最新旗舰模型——GPT-5.2系列。

OpenAI介绍称,GPT‑5.2被定位为“专业知识工作的最优解”,在多项核心能力上实现跨越式突破,其中GPT-5.2 Thinking版本更成为公司首款在真实世界软件工程任务中达到人类专家水平的AI模型

GPT-5.2系列包含Instant、Thinking和Pro三个版本,覆盖从日常办公到复杂专业任务的全场景需求。

Instant版本延续了GPT-5.1亲切自然的对话风格,在信息查询、操作指南、技术写作和翻译等高频任务中响应更迅速、解释更清晰,能够直接呈现关键信息,提升用户效率。

Thinking版本则专为深度工作设计,擅长处理编码、长篇文档总结、基于上传文件的问答、多步数学与逻辑推理,并能以更结构化的框架辅助用户进行规划与决策。

而Pro版本则面向最复杂、高风险的专业场景,在编程等高难度任务中表现出更强的准确性和可靠性,重大错误率显著降低。

性能的全面跃升

性能方面,GPT-5.2在多个权威基准测试中全面刷新行业纪录。在涵盖44个职业的GDPval知识工作评估中,模型表现达到或超过人类专家水平的比例高达70.9%。OpenAI指出,GPT-5.2 Thinking完成这些任务的速度是人类专家的11倍以上,成本却不到其1%。

gdpval

在编码能力上,该模型不仅在SWE-Bench Verified测试中创下80%的历史新高,在更具挑战性的SWE-Bench Pro中也取得55.6%的成绩,测试覆盖Python、JavaScript、Java和C++等多种主流语言。

swe-bench-pro-3dc89fd12986478e91e64c26433f5422

科学与推理能力同样亮眼,GPT-5.2 Pro在博士级科学问答基准GPQA Diamond上达到93.2%,Thinking版本为92.4%。

在通用推理基准ARC-AGI 1中,Pro成为首个突破90%阈值的模型,相较去年o3-preview的87%大幅提升,且实现该性能的成本降低至1/390。

横向对比显示,GPT-5.2 Thinking在几乎所有关键推理基准上均小幅领先Google Gemini 3和Anthropic Claude Opus 4.5,无论是在真实软件工程、高阶科学问答,还是抽象模式发现任务中均保持优势。

openai

OpenAI CEO Sam Altman评价道:“即使没有诸如输出精美文件这类新功能,GPT-5.2也感觉像是我们许久以来获得的最大升级。”

直面竞争

几周前,Gemini 3凭借优异的推理与编码能力迅速登顶LMArena和Humanity’s Last Exam等榜单,给OpenAI带来不小压力。本周早些时候,媒体披露Altman已向内部发布“红色警报”备忘录,要求集中资源加速ChatGPT迭代。

对此,OpenAI应用业务CEO Fidji Simo表示,“红色警报”仅是内部优先级管理工具,旨在明确“哪些项目应全力推进,哪些可暂时降级”。她强调,GPT-5.2的开发已筹备数月,并非仓促应对之举。“我们确实增加了对ChatGPT的资源投入,这有助于发布,但并非本周发布的原因。”

Altman表示:“Gemini 3对我们核心指标的影响,可能没有我们最初担心的那么大。”他预计OpenAI将在2026年1月前“以非常强势的地位”退出红色警报状态。

从技术演进看,GPT-5.2更像是对过去两次更新的系统性整合。8月的GPT-5完成架构重置,引入“快速”与“思考”双模式,11月的GPT-5.1优化对话性与智能体协作,而GPT-5.2则在此基础上全面提升稳定性与生产级可靠性。

此次发布也意在修复今年8月初版GPT-5留下的信任裂痕——彼时模型因无法解答简单数学题、绘制错误地图等低级失误,在社交媒体上引发广泛嘲讽,暴露出OpenAI在技术稳定性与产品节奏上的挑战。

值得注意的是,尽管图像生成被列为内部优先事项,本次更新仍未包含新图像生成器。自8月发布Nano Banana以来,OpenAI在视觉生成领域明显落后于Gemini。有报道称,公司计划明年1月推出具备更强图像能力的新模型,但周四未予确认。

市场反应仍显审慎。Constellation Research的创始人兼首席分析师Ray Wang表示,GPT-5.2 是对谷歌Gemini的有力回应,但不足以扭转其竞争对手的势头。Wang说,对于企业而言,“OpenAI所做的是让创建办公效率工具变得更加容易。Gemini的集成度仍然更高。”

市场对于Gemini 3的接受度较高,Gemini 3 Pro预览版发布前五天Tokens量达1435亿(对比Gemini 2.5 Pro上线首周Tokens量301亿),11月17日至23日发布周期间,Gemini周访问量突破3亿人次。

芯片计划与十周年愿景

同日,Altman在和迪士尼达成协议后的采访中意外透露:“我们对即将推出的芯片感到兴奋。”尽管未提供细节,这一“说漏嘴”迅速引发对OpenAI自研AI芯片的猜测。

目前,OpenAI尚未正式公布芯片计划。但今年以来,其与博通等半导体厂商的合作传闻不断,凸显公司正系统性减少对英伟达的依赖——后者目前占据AI芯片市场约80%份额。

若成功推出定制芯片,OpenAI不仅能将模型经验嵌入硬件实现软硬协同,还可显著提升算力效率与成本控制。

周四也恰逢OpenAI成立十周年。Altman发布题为《十年》的博客,回顾公司从“疯狂、不太可能且史无前例”的目标起步,如今“似乎有望实现使命”。

他感慨早期团队“那么年轻、那么乐观、那么快乐”,即便“被严重误解”,仍坚信此事“值得付出巨大努力”。他坦言过去三年极其紧张:“从一无所有成长为一家庞大公司绝非易事,每周要做出成百上千个决策。我为团队的正确决策自豪,而错误,大多是我的责任。”

但他也表示,从未对OpenAI的研究路径如此乐观。“再过十年,几乎可以肯定我们将构建出超级智能。2035年的人们将能完成今天我们难以想象的事情。”

随着"红色警报"的解除,OpenAI似乎暂时稳住了阵脚,但这场AI霸权争夺战远未落幕。GPT-5.2的真正考验不在于实验室的基准分数,而在于能否在企业级市场中得到证明。

免责声明:仅供参考。 过去的表现并不预示未来的结果。
placeholder
大炮一响黄金万两?以史为鉴:伊朗冲突将如何影响原油、黄金、汇市与股市FX168财经报社(北美)讯 周六(2月28日),美国总统特朗普在“真实社交”平台发布的一段8分钟视频中证实,美国已对伊朗发动“重大作战行动”,并对伊朗喊话称,“等行动结束,接管你们的政府”。
作者  FX168
2 月 28 日 周六
FX168财经报社(北美)讯 周六(2月28日),美国总统特朗普在“真实社交”平台发布的一段8分钟视频中证实,美国已对伊朗发动“重大作战行动”,并对伊朗喊话称,“等行动结束,接管你们的政府”。
placeholder
【财经纵览】:中东“火药桶”或彻底引爆!油价飙升逾10%,黄金大涨100美元,美元反弹冲击98.0周一(3月2日)黄金开盘飙升逾百美元,最高触及5379美元。WTI原油、布伦特原油双双涨超10%,其中WTI原油一度攀升至75.33美元,布伦特原油一度升至81.65,其后双双回落至72.0及78.8美元。美股股指期货周一低开,纳指、道指期货跌超1%,标普500指数期货跌超0.9%。美元拉升,盘中最高触及98.0。
作者  Insights
昨日 00: 10
周一(3月2日)黄金开盘飙升逾百美元,最高触及5379美元。WTI原油、布伦特原油双双涨超10%,其中WTI原油一度攀升至75.33美元,布伦特原油一度升至81.65,其后双双回落至72.0及78.8美元。美股股指期货周一低开,纳指、道指期货跌超1%,标普500指数期货跌超0.9%。美元拉升,盘中最高触及98.0。
placeholder
突发!霍尔木兹海峡告急、沙特关闭最大炼油厂,黄金突破5400!据半岛电视台2日援引伊朗军方的消息报道,三艘英美油轮在波斯湾和霍尔木兹海峡遭到袭击。
作者  Insights
昨日 08: 57
据半岛电视台2日援引伊朗军方的消息报道,三艘英美油轮在波斯湾和霍尔木兹海峡遭到袭击。
placeholder
伊朗危机助力美元上冲!本周非农影响几何?【外汇周报】高市早苗打压加息预期,日元重回贬值。美以突袭伊朗后欧元大跌!本周非农能否助力?
作者  Alison Ho
昨日 09: 14
高市早苗打压加息预期,日元重回贬值。美以突袭伊朗后欧元大跌!本周非农能否助力?
placeholder
【财经纵览】:伊朗宣布关闭尔木兹海峡!纳指终结两连跌、黄金冲高回落,白银挫4.8%、美元突破98周一(3月2日)美伊局势呈现进一步升级格局,投资者关注美伊冲突的持续时间及冲突规模是否出现实际性升级。伊朗伊斯兰革命卫队司令顾问表示霍尔木兹海峡已被关闭,伊方将打击所有试图从霍尔木兹海峡通过的船只。
作者  Insights
13 小时前
周一(3月2日)美伊局势呈现进一步升级格局,投资者关注美伊冲突的持续时间及冲突规模是否出现实际性升级。伊朗伊斯兰革命卫队司令顾问表示霍尔木兹海峡已被关闭,伊方将打击所有试图从霍尔木兹海峡通过的船只。
goTop
quote