-
日期: 2025-12-13 | 來源: 鈦媒體APP | 有0人參與評論 | 字體: 小 中 大

圖片由AI生成
“我從未像現在這樣對我們的研發和產品路線圖,以及實現我們使命的整體方向感到如此樂觀。”
12月12日,在正式上線GPT-5.2的同時,OpenAI CEO薩姆·奧爾特曼(Sam Altman)發布了壹篇拾周年紀念文章中這樣說。
他極力向外界展現著自己依舊自信的壹面。畢竟,雖然GPT大模型和ChatGPT聊天機器人至今仍是當前AI大潮的造浪者,但想必此刻,奧爾特曼感受到的競爭壓力堪稱空前。
今年以來,DeepSeek、Grok、Claude等競爭者的強勢追趕,尤其是谷歌上個月推出的Gemini 3大放異彩,都將AI大模型競爭推上了更新的高度。
最近,奧爾特曼先是在內部備忘錄中提示員工,需要接受最好的大模型不出自家之手的事實,繼而,又發出公司首個“紅色警報”,強調“立即行動,集中所有資源奪回領先地位”。
截圖來自社交平台X
只有更強大的產品,才能支撐自信的底氣。
在拾周年紀念日這天,OpenAI重磅發布預熱了壹周多的GPT-5.2,評測表現再次反超所有競爭對手。
但谷歌不甘示弱,幾乎在同壹時間發布了新品,讓這場大模型之爭的戰況再次升級。
GPT-5.2獲評“最強AI打工人”,但“工資”很高
GPT-5.2此次仍然“全線出擊”,壹次性發布了Instant、Thinking和Pro叁款不同層級的模型。
近壹個月前Gemini 3發布時,其評測得分幾乎“碾壓”GPT-5的表現引發市場巨大關注。
而這次,根據OpenAI發布的基准測試結果,GPT-5.2實現了全面反超,其Thinking模型基准測試得分均高於Gemini 3 PRO和Anthropic的Claude Opus 4.5。
其中,GPT-5.2在博士級別的專家推理評估GPQA Diamond得分高達92.4%,相比GPT-5.1 Thinking的88.1%和Gemini 3 PRO剛剛刷出的91.9%高分再進壹步。在不用工具的情況下,GPT-5.2在最新美國數學邀請賽(AIME2025)中拿到了滿分。
OpenAI尤其強調了GPT-5.2在專業工作方面的領先地位,稱其Thinking模型是“目前最能夠勝任現實中各類專業用途的模型”。
在用於評估專業型技能的GDPval測試中,該模型得到了70.9%的高分,比GPT-5.1 Thinking高了足足32.1%,領先Gemini 3 PRO有17.4%。此外,對比尤其擅長編程等企業工作,此前在該評估中更勝壹籌的Claude Opus 4.5,OpenAI的新品也高出了11.3%。- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見