DeepSeek新模型大揭秘,為何它能震動全球AI圈

日期: 2025-01-27 | 來源: AI未來指北 | 有0人參與評論 | 字體: 小中大
另壹個模型確實通過這種方法學會了推理的另壹個核心證據，是模型響應長度會根據問題的復雜度自然調節。這種自適應行為表明，它不是在簡單地套用模板，而是真正理解了問題的難度，並相應地投入更多的"思考時間"。就像人類面對簡單的加法和復雜的積分會自然調整思考時間壹樣，R1-Zero展現出了類似的智慧。

最有說服力的或許是模型展現出的遷移學習能力。在完全不同的編程競賽平台Codeforces上，R1-Zero達到了超過96.3%人類選手的水平。這種跨域表現表明，模型不是在死記硬背特定領域的解題技巧，而是掌握了某種普適的推理能力。

這是壹個聰明，但口齒不清的天才

盡管R1-Zero展現出了驚人的推理能力，但研究者們很快發現了壹個嚴重的問題：它的思維過程往往難以被人類理解。

論文坦誠地指出，這個純強化學習訓練出來的模型存在"poor readability"（可讀性差）和"language mixing"（語言混雜）的問題。

這個現象其實很好理解：R1-Zero完全通過獎懲信號來優化其行為，沒有任何人類示范的"標准答案"作為參考。就像壹個天才兒童自創了壹套解題方法，雖然屢試不爽，但向別人解釋時卻語無倫次。它在解題過程中可能同時使用多種語言，或者發展出了某種特殊的表達方式，這些都讓其推理過程難以被追蹤和理解。

正是為了解決這個問題，研究團隊開發了改進版本DeepSeek-R1。通過引入更傳統的"cold-start data"（冷啟動數據）和多階段訓練流程，R1不僅保持了強大的推理能力，還學會了用人類易懂的方式表達思維過程。這就像給那個天才兒童配了壹個溝通教練，教會他如何清晰地表達自己的想法。

在這壹調教下之後，DeepSeek-R1展現出了與OpenAI o1相當甚至在某些方面更優的性能。在MATH基准測試上，R1達到了77.5%的准確率，與o1的77.3%相近；在更具挑戰性的AIME 2024上，R1的准確率達到71.3%，超過了o1的71.0%。在代碼領域，R1在Codeforces評測中達到了2441分的水平，高於96.3%的人類參與者。

然而，DeepSeek-R1 Zero的潛力似乎更大。它在AIME 2024測試中使用多數投票機制時達到的86.7%准確率——這個成績甚至超過了OpenAI的o1-0912。這種"多次嘗試會變得更准確"的特征，暗示R1-Zero可能掌握了某種基礎的推理框架，而不是簡單地記憶解題模式。論文數據顯示，從MATH-500到AIME，再到GSM8K，模型表現出穩定的跨域性能，特別是在需要創造性思維的復雜問題上。這種廣譜性能提示R1-Zero可能確實培養出了某種基礎的推理能力，這與傳統的特定任務優化模型形成鮮明對比。

所以，雖然口齒不清，但也許DeepSeek-R1 Zero才是真正理解了推理的“天才”。

純粹強化學習，也許才是通向AGI的意外捷徑

之所以DeepSeek-R1的發布讓圈內人的焦點都投向了純強化學習方法，因為它完全可以說得上是打開了AI 進化的壹條新路徑。

R1-Zero——這個完全通過強化學習訓練出來的AI模型，展現出了令人驚訝的通用推理能力。它不僅在數學競賽中取得了驚人成績。

更重要的是，R1-Zero不僅是在模仿思考，而是真正發展出了某種形式的推理能力。

這個發現可能會改變我們對機器學習的認識：傳統的AI訓練方法可能壹直在重復壹個根本性的錯誤，我們太專注於讓AI模仿人類的思維方式了，業界需要重新思考監督學習在AI發展中的角色。通過純粹的強化學習，AI系統似乎能夠發展出更原生的問題解決能力，而不是被限制在預設的解決方案框架內。
- 新聞來源於其它媒體，內容不代表本站立場！
原文鏈接
原文鏈接:

上壹頁 1 2 345 下壹頁

在此頁中閱讀全文

我們的贊助商

評論

目前還沒有人發表評論, 大家都在期待您的高見

發表評論

相關功能

新聞