-
日期: 2025-07-20 | 來源: 未盡研究 | 有0人參與評論 | 字體: 小 中 大
OpenAI的壹個通用推理模型,在剛結束的國際奧林匹克數學競賽(IMO)中達到了金牌的水平。AI登月時刻,社交媒體壹夜無眠,AI圈子沸騰了。
在與人類參賽者完全相同的規則下,OpenAI的模型挑戰了2025年IMO試題:兩場各4.5小時的考試、禁用任何工具和互聯網、只能閱讀官方題面並以自然語言撰寫完整證明。模型完整解出了6題中的5題。每道題都由叁位前IMO獎牌得主獨立批改,並在取得壹致意見後定分。最終模型拿到35/42分——足以摘金!
重大意義在於,這是壹個通用推理模型,而不是壹個專門用來解數學題的專門系統,也沒有經過驗證的獎勵信號,即它不是依賴於“有標准答案、實時打分的獎勵”來學會的,而是靠更通用的推理和新技術,在長時間復雜的過程中,做出了正確的推理和證明。
OpenAI證明,盡管經歷了Meta瘋狂的挖角,它依然保持了頂尖研究人才的密度,做出重大的研究突破。本周OpenAI的模型o3 alpha在AtCoder世界巡回賽2025決賽中僅遜於人類編程奇才Psyho,獲得第贰名;測試中強於o3 pro,是最好的編程及物理模型。
這樣,OpenAI目前擁有了最強的編程及數學模型,讓它再次碾壓DeepMind,Anthropic,Grok等,也再次與中國引領的開源模型拉開了差距。
實際上,OpenAI內部正在測試壹個全新的推理模型,取得奧數金牌成績,僅是其壹次小試牛刀。它的正式發布甚至會在GPT-5之後,預計是今年底。OpenAI推理研究的科學家Alexander We負責這個模型項目,他首先宣布了這壹消息,並順帶提及GPT-5發布在即。
這是壹件大事,我們可以說它讓成為AGI邁向ASI的新起點嗎?Alexander Wei發了壹組帖文說明它的意義:
“第壹,IMO題目對“持續創造性思考”提出了前所未有的要求。從推理時間跨度來看,我們已經壹路從GSM8K(頂尖人類約0.1分鍾)→MATH數據集(約1分鍾)→AIME(約10分鍾)→IMO(約100分鍾)。
第贰,IMO答案往往是長達數頁、難以驗證的證明。要想在這壹關取得進展,就必須跳出傳統強化學習“獎勵信號清晰、易於驗證”的范式。我們做到了——由此得到的模型能夠在復雜度和嚴謹性上匹敵人類數學家。
除了結果本身,我更興奮的是方法:我們並未依賴狹窄的、任務特化的技巧,而是通過通用強化學習與“測試時計算”擴展的新突破,才達到這壹水准。”
這項成就,在OpenAI內部被認為是實現了急需的壹次研究上的突破,“Alex Wei做到了。”它幾乎沒有針對IMO做任何專項工作,只是持續訓練通用模型;所有證明均為自然語言撰寫,沒有使用任何定制化的評測框架。
這個模型的尺寸仍然是個謎,不過OpenAI的團隊成員透露,所用的算力相當有限,因為星際之門還沒有投入使用。
OpenAI科學家Sebastined Bubeck稱之為AI的“登月時刻”。簡單講:壹個只是預測下壹個詞的機器(真的是啥工具都沒用)剛剛給出了幾個又難又新的數學題的創造性證明,這種水平平時也只有少數天才少年能做到。
OpenAI的首席研究官Mark Chen曾經擔任美國國際奧林匹克信息競賽的教練,他認為:“不同於以往比賽中用的那些狹窄的系統,我們的模型具備更廣泛的推理能力,遠遠超越了競賽題的范圍。”
他指的是谷歌的AlphaProof在去年的奧數賽中,解出了6道題中的4道。
解決了奧數金牌的問題,接下來就是人類真正待解的難題了。在OpenAI多智能體組的研究員Sheryl Hsu參與了這個項目,她激動地說,從起步到達到奧數金牌水平,僅用了15個月,照這個速度下去,明年就可以用來產生數學定理和用全新方法進行數學研究了。- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見