-
日期: 2025-12-11 | 來源: 直面AI | 有0人參與評論 | 字體: 小 中 大

就在剛剛,ChatGPT-5.2發布了。
這是OpenAI成立以來,首次發布紅色警報(Code Red)後的第壹款產品。
雖然在時間上,GPT-5.2只跟5.1相隔了壹個月。但是從公布的性能數據來看,GPT-5.2較上壹代提升巨大,而且遠超谷歌和Anthropic的同期產品。
然而OpenAI的紅色警報並未因此解除,這家公司仍處於危機之中。
究其原因,現在的市場已經逐漸開始對OpenAI祛魅,而是更冷靜地審視每壹分算力背後的投入產出比。在這種前所未有的環境之下,OpenAI不僅需要證明自己是最強的,還需要證明自己不可被替代。
01
首先要說的,就是GPT-5.2的數學能力。
長期以來,業界普遍認為大語言模型雖然能寫代碼、能聊天,但在嚴格的數學推理上總是差強人意。這次GPT-5.2 Thinking在AIME 2025數學競賽中拿到了100%的滿分。
AIME是美國數學邀請賽,題目難度遠超普通高中數學,需要扎實的數學功底和靈活的解題思路。GPT-5.2能在這樣的測試中全部答對,說明它在數學推理上已經達到了相當高的水平。
在更高難度的FrontierMath測試中,GPT-5.2 Thinking解決了40.3%的專家級數學難題。這個測試專門針對前沿數學研究設計,許多題目連專業數學家都需要花費大量時間思考。能解決其中40%的問題,已經展現出在輔助科學研究方面的潛力。
除了推理和數學,GPT-5.2在專業工作領域也表現突出。
在OpenAI新推出的GDPval基准測試中,GPT-5.2 Thinking在涵蓋44種職業的知識工作任務上,有70.9%的情況下擊敗或打平了頂尖行業專家。
這些任務包括制作演示文稿、構建復雜的財務模型、撰寫專業文檔等。OpenAI表示,它完成這些任務的速度是人類專家的11倍以上,成本卻不到1%。
在軟件工程方面,GPT-5.2 Thinking在SWE-Bench Pro上達到55.6%的准確率,在SWE-bench Verified上達到80%。這些測試評估的是模型在真實代碼庫中修復bug、實現新功能的能力。
早期測試者反饋,它在前端開發和復雜UI實現上尤其出色,甚至能夠根據壹條提示就生成包含3D效果和物理模擬的完整應用。
GPT-5.2在長文檔理解上也有明顯進步。在OpenAI的MRCRv2測試中,它成為首個在256k token長度下,針對4-needle變體任務達到近乎100%准確率的模型。
這意味著用戶可以上傳數百頁的報告、合同或研究論文,模型仍能准確理解分散在不同位置的相關信息,並進行綜合分析。- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見