TradingKey - 在啟動「紅色警戒」僅一周後,OpenAI於週四正式推出其最新旗艦模型——GPT-5.2系列。
OpenAI介紹稱,GPT‑5.2被定位為「專業知識工作的最佳解方」,在多項核心能力上實現跨越式突破,其中GPT-5.2 Thinking版本更成為公司首款在真實世界軟體工程任務中達到人類專家水準的AI模型。
GPT-5.2系列包含Instant、Thinking和Pro三個版本,涵蓋從日常辦公到複雜專業任務的全方位需求。
Instant版本延續了GPT-5.1親切自然的對話風格,在資訊查詢、操作指南、技術寫作和翻譯等高頻任務中回應更迅速、解釋更清晰,能夠直接呈現關鍵資訊,提升使用者效率。
Thinking版本則專為深度工作設計,擅長處理編碼、長篇文件摘要、基於上傳檔案的問答、多步驟數學與邏輯推理,並能以更結構化的框架輔助使用者進行規劃與決策。
而Pro版本則面向最複雜、高風險的專業場景,在編程等高難度任務中展現出更強的準確性和可靠性,重大錯誤率顯著降低。
效能方面,GPT-5.2在多個權威基準測試中全面刷新產業紀錄。在涵蓋44個職業的GDPval知識工作評估中,模型表現達到或超越人類專家水準的比例高達70.9%。OpenAI指出,GPT-5.2 Thinking完成這些任務的速度是人類專家的11倍以上,成本卻不到其1%。

在編碼能力上,該模型不僅在SWE-Bench Verified測試中創下80%的歷史新高,在更具挑戰性的SWE-Bench Pro中也取得55.6%的成績,測試涵蓋Python、JavaScript、Java和C++等多種主流語言。

科學與推理能力同樣亮眼,GPT-5.2 Pro在博士級科學問答基準GPQA Diamond上達到93.2%,Thinking版本為92.4%。
在通用推理基準ARC-AGI 1中,Pro成為首個突破90%門檻的模型,相較去年o3-preview的87%大幅提升,且實現該效能的成本降低至1/390。
橫向對比顯示,GPT-5.2 Thinking在幾乎所有關鍵推理基準上均小幅領先Google Gemini 3和Anthropic Claude Opus 4.5,無論是在真實軟體工程、高階科學問答,還是抽象模式發現任務中均保持優勢。

OpenAI CEO Sam Altman評價道:「即使沒有諸如輸出精美檔案這類新功能,GPT-5.2也感覺像是我們許久以來獲得的最大升級。」
幾周前,Gemini 3憑藉優異的推理與編碼能力迅速登上LMArena和Humanity’s Last Exam等榜單,給OpenAI帶來不小壓力。本週稍早,媒體披露Altman已向內部發布「紅色警戒」備忘錄,要求集中資源加速ChatGPT迭代。
對此,OpenAI應用業務CEO Fidji Simo表示,「紅色警戒」僅是內部優先級管理工具,旨在明確「哪些專案應全力推進,哪些可暫時降級」。她強調,GPT-5.2的開發已籌備數月,並非倉促應對之舉。「我們確實增加了對ChatGPT的資源投入,這有助於發布,但並非本週發布的原因。」
Altman表示:「Gemini 3對我們核心指標的影響,可能沒有我們最初擔心的那麼大。」他預計OpenAI將在2026年1月前「以非常強勢的地位」解除紅色警戒狀態。
從技術演進看,GPT-5.2更像是對過去兩次更新的系統性整合。8月的GPT-5完成架構重置,引入「快速」與「思考」雙模式,11月的GPT-5.1優化對話性與智慧體協作,而GPT-5.2則在此基礎上全面提升穩定性與生產級可靠性。
此次發布也意在修復今年8月初版GPT-5留下的信任裂痕——當時模型因無法解答簡單數學題、繪製錯誤地圖等低級失誤,在社群媒體上引發廣泛嘲諷,暴露出OpenAI在技術穩定性與產品節奏上的挑戰。
值得注意的是,儘管圖像生成被列為內部優先事項,本次更新仍未包含新圖像生成器。自8月發布Nano Banana以來,OpenAI在視覺生成領域明顯落後於Gemini。有報導稱,公司計畫明年1月推出具備更強圖像能力的新模型,但週四未予確認。
市場反應仍顯審慎。Constellation Research的創辦人兼首席分析師Ray Wang表示,GPT-5.2 是對谷歌Gemini的有力回應,但不足以扭轉其競爭對手的勢頭。Wang說,對於企業而言,「OpenAI所做的是讓創建辦公效率工具變得更加容易。Gemini的整合度仍然更高。」
市場對於Gemini 3的接受度較高,Gemini 3 Pro預覽版發布前五天Tokens量達1435億(對比Gemini 2.5 Pro上線首週Tokens量301億),11月17日至23日發布週期間,Gemini週訪問量突破3億人次。
同日,Altman在和迪士尼達成協議後的採訪中意外透露:「我們對即將推出的晶片感到興奮。」儘管未提供細節,這一「說溜嘴」迅速引發對OpenAI自研AI晶片的猜測。
目前,OpenAI尚未正式公布晶片計畫。但今年以來,其與博通等半導體廠商的合作傳聞不斷,凸顯公司正系統性減少對輝達的依賴——後者目前佔據AI晶片市場約80%份額。
若成功推出客製化晶片,OpenAI不僅能將模型經驗嵌入硬體實現軟硬協同,還可顯著提升算力效率與成本控制。
週四也恰逢OpenAI成立十週年。Altman發布題為《十年》的部落格,回顧公司從「瘋狂、不太可能且史無前例」的目標起步,如今「似乎有望實現使命」。
他感慨早期團隊「那麼年輕、那麼樂觀、那麼快樂」,即便「被嚴重誤解」,仍堅信此事「值得付出巨大努力」。他坦言過去三年極其緊張:「從一無所有成長為一家龐大公司絕非易事,每週要做數百上千個決策。我為團隊的正確決策感到自豪,而錯誤,大多是我的責任。」
但他也表示,從未對OpenAI的研究路徑如此樂觀。「再過十年,幾乎可以肯定我們將建構出超級智慧。2035年的人們將能完成今天我們難以想像的事情。」
隨著「紅色警戒」的解除,OpenAI似乎暫時穩住了陣腳,但這場AI霸權爭奪戰遠未落幕。GPT-5.2的真正考驗不在於實驗室的基準分數,而是在於能否在企業級市場中獲得證明。