"AI登月時刻",OpenAI模型摘取奧數金牌

日期: 2025-07-20 | 來源: 未盡研究 | 有0人參與評論 | 字體: 小中大
OpenAI的壹個通用推理模型，在剛結束的國際奧林匹克數學競賽（IMO）中達到了金牌的水平。AI登月時刻，社交媒體壹夜無眠，AI圈子沸騰了。

在與人類參賽者完全相同的規則下，OpenAI的模型挑戰了2025年IMO試題：兩場各4.5小時的考試、禁用任何工具和互聯網、只能閱讀官方題面並以自然語言撰寫完整證明。模型完整解出了6題中的5題。每道題都由叁位前IMO獎牌得主獨立批改，並在取得壹致意見後定分。最終模型拿到35/42分——足以摘金！

重大意義在於，這是壹個通用推理模型，而不是壹個專門用來解數學題的專門系統，也沒有經過驗證的獎勵信號，即它不是依賴於“有標准答案、實時打分的獎勵”來學會的，而是靠更通用的推理和新技術，在長時間復雜的過程中，做出了正確的推理和證明。

OpenAI證明，盡管經歷了Meta瘋狂的挖角，它依然保持了頂尖研究人才的密度，做出重大的研究突破。本周OpenAI的模型o3 alpha在AtCoder世界巡回賽2025決賽中僅遜於人類編程奇才Psyho，獲得第贰名；測試中強於o3 pro，是最好的編程及物理模型。

這樣，OpenAI目前擁有了最強的編程及數學模型，讓它再次碾壓DeepMind，Anthropic，Grok等，也再次與中國引領的開源模型拉開了差距。

實際上，OpenAI內部正在測試壹個全新的推理模型，取得奧數金牌成績，僅是其壹次小試牛刀。它的正式發布甚至會在GPT-5之後，預計是今年底。OpenAI推理研究的科學家Alexander We負責這個模型項目，他首先宣布了這壹消息，並順帶提及GPT-5發布在即。

這是壹件大事，我們可以說它讓成為AGI邁向ASI的新起點嗎？Alexander Wei發了壹組帖文說明它的意義：

“第壹，IMO題目對“持續創造性思考”提出了前所未有的要求。從推理時間跨度來看，我們已經壹路從GSM8K（頂尖人類約0.1分鍾）→MATH數據集（約1分鍾）→AIME（約10分鍾）→IMO（約100分鍾）。

第贰，IMO答案往往是長達數頁、難以驗證的證明。要想在這壹關取得進展，就必須跳出傳統強化學習“獎勵信號清晰、易於驗證”的范式。我們做到了——由此得到的模型能夠在復雜度和嚴謹性上匹敵人類數學家。

除了結果本身，我更興奮的是方法：我們並未依賴狹窄的、任務特化的技巧，而是通過通用強化學習與“測試時計算”擴展的新突破，才達到這壹水准。”

這項成就，在OpenAI內部被認為是實現了急需的壹次研究上的突破，“Alex Wei做到了。”它幾乎沒有針對IMO做任何專項工作，只是持續訓練通用模型；所有證明均為自然語言撰寫，沒有使用任何定制化的評測框架。

這個模型的尺寸仍然是個謎，不過OpenAI的團隊成員透露，所用的算力相當有限，因為星際之門還沒有投入使用。

OpenAI科學家Sebastined Bubeck稱之為AI的“登月時刻”。簡單講：壹個只是預測下壹個詞的機器（真的是啥工具都沒用）剛剛給出了幾個又難又新的數學題的創造性證明，這種水平平時也只有少數天才少年能做到。

OpenAI的首席研究官Mark Chen曾經擔任美國國際奧林匹克信息競賽的教練，他認為：“不同於以往比賽中用的那些狹窄的系統，我們的模型具備更廣泛的推理能力，遠遠超越了競賽題的范圍。”

他指的是谷歌的AlphaProof在去年的奧數賽中，解出了6道題中的4道。

解決了奧數金牌的問題，接下來就是人類真正待解的難題了。在OpenAI多智能體組的研究員Sheryl Hsu參與了這個項目，她激動地說，從起步到達到奧數金牌水平，僅用了15個月，照這個速度下去，明年就可以用來產生數學定理和用全新方法進行數學研究了。
- 新聞來源於其它媒體，內容不代表本站立場！
原文鏈接
原文鏈接:

上壹頁12 3 下壹頁

在此頁中閱讀全文

我們的贊助商

評論

目前還沒有人發表評論, 大家都在期待您的高見

發表評論

相關功能

新聞