DeepSeek新模型大揭秘,為何它能震動全球AI圈

日期: 2025-01-27 | 來源: AI未來指北 | 有0人參與評論 | 字體: 小中大
GRPO的模式其實比較簡單，通過組內樣本的相對比較來計算策略梯度，有效降低了訓練的不穩定性，同時提高了學習效率。

簡單來說，你可以把它想象成老師出題，每道題讓模型同時回答多次，然後用上面的獎懲規則給每個答案打分，根據追求高分、避免低分的邏輯更新模型。

這個流程大概就是這樣的：

輸入問題 → 模型生成多個答案 → 規則系統評分 → GRPO計算相對優勢 → 更新模型。

這種直接訓練方法帶來了幾個顯著的優勢。首先是訓練效率的提升，整個過程可以在更短的時間內完成。其次是資源消耗的降低，由於省去了SFT和復雜的獎懲模型，計算資源的需求大幅減少。

更重要的是，這種方法真的讓模型學會了思考，而且是以“頓悟”的方式學會的。

用自己的語言，在“頓悟”中學習

我們是怎麼看出模型在這種非常“原始”的方法下，是真的學會了“思考”的呢？

論文記錄了壹個引人注目的案例：在處理壹個涉及復雜數學表達式 √a - √(a + x) = x 的問題時，模型突然停下來說"Wait, wait. Wait. That's an aha moment I can flag here"（等等、等等、這是個值得標記的啊哈時刻），隨後重新審視了整個解題過程。這種類似人類頓悟的行為完全是自發產生的，而不是預先設定的。

這種頓悟往往是模型思維能力躍升的時刻。

因為根據DeepSeek的研究，模型的進步並非均勻漸進的。在強化學習過程中，響應長度會出現突然的顯著增長，這些"跳躍點"往往伴隨著解題策略的質變。這種模式酷似人類在長期思考後的突然頓悟，暗示著某種深層的認知突破。

在這種伴隨著頓悟的能力提升下，R1-Zero在數學界享有盛譽的AIME競賽中從最初的15.6%正確率壹路攀升至71.0%的准確率。而讓模型對同壹問題進行多次嘗試時，准確率甚至達到了86.7%。這不是簡單的看過了就會做了——因為AIME的題目需要深度的數學直覺和創造性思維，而不是機械性的公式應用。模型基本必須能推理，才可能有這樣的提升。
- 新聞來源於其它媒體，內容不代表本站立場！
原文鏈接
原文鏈接:

上壹頁 1 234 5 下壹頁

在此頁中閱讀全文

我們的贊助商

評論

目前還沒有人發表評論, 大家都在期待您的高見

發表評論

相關功能

新聞