DeepSeek新模型大揭秘,為何它能震動全球AI圈

日期: 2025-01-27 | 來源: AI未來指北 | 有0人參與評論 | 字體: 小中大
用最簡單的配方，回歸最純粹的強化學習

在o1推出之後，推理強化成了業界最關注的方法。

壹般來說，壹個模型在訓練過程中會嘗試壹種固定訓練方法來提升推理能力。

而DeepSeek團隊在R1的訓練過程中，直接壹次性實驗了叁種截然不同的技術路徑：直接強化學習訓練（R1-Zero）、多階段漸進訓練（R1）和模型蒸餾，還都成功了。多階段漸進訓練方法和模型蒸餾都包含著很多創新意義元素，對行業有著重要影響。

其中最讓人激動的，還是直接強化學習這個路徑。因為DeepSeek-R1是首個證明這壹方法有效的模型。

我們先來了解壹下，訓練AI的推理能力傳統的方法通常是什麼：壹般是通過在SFT（監督微調）加入大量的思維鏈（COT）范例，用例證和復雜的如過程獎勵模型（PRM）之類的復雜神經網絡獎勵模型，來讓模型學會用思維鏈思考。

甚至會加入蒙特卡洛樹搜索（MCTS），讓模型在多種可能中搜索最好的可能。

（傳統的模型訓練路徑）

但DeepSeek-R1 Zero選擇了壹條前所未有的路徑“純”強化學習路徑，它完全拋開了預設的思維鏈模板（Chain of Thought）和監督式微調（SFT），僅依靠簡單的獎懲信號來優化模型行為。

這就像讓壹個天才兒童在沒有任何范例和指導的情況下，純粹通過不斷嘗試和獲得反饋來學習解題。

DeepSeek-R1 Zero 有的只是壹套最簡單的獎勵系統，來激發AI的推理能力。

這個規則就兩條：

1.准確性獎勵：准確性獎勵模型評估響應是否正確。對了就加分，錯了扣分。評價方法也很簡單：例如，在具有確定性結果的數學問題中，模型需要以指定格式（如和間）提供最終答案；對於編程問題，可以使用編譯器根據預定義的測試用例生成反饋。

2.格式獎勵：格式獎勵模型強制要求模型將其思考過程置於和標簽之間。沒這麼做就扣分，做了就加分。

為了准確觀察模型在強化學習（RL）過程中的自然進展，DeepSeek甚至有意將系統提示詞僅約束限制在這種結構格式上，來避免任何內容特定的偏見——例如強制讓模型進行反思性推理或推廣特定的問題解決策略。

（R1 Zero的系統提示詞）

靠著這麼壹個簡單的規則，讓AI在GRPO（Group Relative Policy Optimization）的規則下自我采樣+比較，自我提升。
- 新聞來源於其它媒體，內容不代表本站立場！
原文鏈接
原文鏈接:

上壹頁 123 4 5 下壹頁

在此頁中閱讀全文

我們的贊助商

評論

目前還沒有人發表評論, 大家都在期待您的高見

發表評論

相關功能

新聞