GPT-5.2性能爆表,但紅色警報沒有解除

日期: 2025-12-11 | 來源: 直面AI | 有0人參與評論 | 字體: 小中大
就在剛剛，ChatGPT-5.2發布了。

這是OpenAI成立以來，首次發布紅色警報（Code Red）後的第壹款產品。

雖然在時間上，GPT-5.2只跟5.1相隔了壹個月。但是從公布的性能數據來看，GPT-5.2較上壹代提升巨大，而且遠超谷歌和Anthropic的同期產品。

然而OpenAI的紅色警報並未因此解除，這家公司仍處於危機之中。

究其原因，現在的市場已經逐漸開始對OpenAI祛魅，而是更冷靜地審視每壹分算力背後的投入產出比。在這種前所未有的環境之下，OpenAI不僅需要證明自己是最強的，還需要證明自己不可被替代。

01

首先要說的，就是GPT-5.2的數學能力。

長期以來，業界普遍認為大語言模型雖然能寫代碼、能聊天，但在嚴格的數學推理上總是差強人意。這次GPT-5.2 Thinking在AIME 2025數學競賽中拿到了100%的滿分。

AIME是美國數學邀請賽，題目難度遠超普通高中數學，需要扎實的數學功底和靈活的解題思路。GPT-5.2能在這樣的測試中全部答對，說明它在數學推理上已經達到了相當高的水平。

在更高難度的FrontierMath測試中，GPT-5.2 Thinking解決了40.3%的專家級數學難題。這個測試專門針對前沿數學研究設計，許多題目連專業數學家都需要花費大量時間思考。能解決其中40%的問題，已經展現出在輔助科學研究方面的潛力。

除了推理和數學，GPT-5.2在專業工作領域也表現突出。

在OpenAI新推出的GDPval基准測試中，GPT-5.2 Thinking在涵蓋44種職業的知識工作任務上，有70.9%的情況下擊敗或打平了頂尖行業專家。

這些任務包括制作演示文稿、構建復雜的財務模型、撰寫專業文檔等。OpenAI表示，它完成這些任務的速度是人類專家的11倍以上，成本卻不到1%。

在軟件工程方面，GPT-5.2 Thinking在SWE-Bench Pro上達到55.6%的准確率，在SWE-bench Verified上達到80%。這些測試評估的是模型在真實代碼庫中修復bug、實現新功能的能力。

早期測試者反饋，它在前端開發和復雜UI實現上尤其出色，甚至能夠根據壹條提示就生成包含3D效果和物理模擬的完整應用。

GPT-5.2在長文檔理解上也有明顯進步。在OpenAI的MRCRv2測試中，它成為首個在256k token長度下，針對4-needle變體任務達到近乎100%准確率的模型。

這意味著用戶可以上傳數百頁的報告、合同或研究論文，模型仍能准確理解分散在不同位置的相關信息，並進行綜合分析。
- 新聞來源於其它媒體，內容不代表本站立場！
原文鏈接
原文鏈接:

上壹頁12 3 4 下壹頁

在此頁中閱讀全文

我們的贊助商

評論

目前還沒有人發表評論, 大家都在期待您的高見

發表評論

相關功能

新聞