-
日期: 2025-01-27 | 來源: AI未來指北 | 有0人參與評論 | 字體: 小 中 大
GRPO的模式其實比較簡單,通過組內樣本的相對比較來計算策略梯度,有效降低了訓練的不穩定性,同時提高了學習效率。
簡單來說,你可以把它想象成老師出題,每道題讓模型同時回答多次,然後用上面的獎懲規則給每個答案打分,根據追求高分、避免低分的邏輯更新模型。
這個流程大概就是這樣的:
輸入問題 → 模型生成多個答案 → 規則系統評分 → GRPO計算相對優勢 → 更新模型。
這種直接訓練方法帶來了幾個顯著的優勢。首先是訓練效率的提升,整個過程可以在更短的時間內完成。其次是資源消耗的降低,由於省去了SFT和復雜的獎懲模型,計算資源的需求大幅減少。
更重要的是,這種方法真的讓模型學會了思考,而且是以“頓悟”的方式學會的。
用自己的語言,在“頓悟”中學習
我們是怎麼看出模型在這種非常“原始”的方法下,是真的學會了“思考”的呢?
論文記錄了壹個引人注目的案例:在處理壹個涉及復雜數學表達式 √a - √(a + x) = x 的問題時,模型突然停下來說"Wait, wait. Wait. That's an aha moment I can flag here"(等等、等等、這是個值得標記的啊哈時刻),隨後重新審視了整個解題過程。這種類似人類頓悟的行為完全是自發產生的,而不是預先設定的。
這種頓悟往往是模型思維能力躍升的時刻。
因為根據DeepSeek的研究,模型的進步並非均勻漸進的。在強化學習過程中,響應長度會出現突然的顯著增長,這些"跳躍點"往往伴隨著解題策略的質變。這種模式酷似人類在長期思考後的突然頓悟,暗示著某種深層的認知突破。
在這種伴隨著頓悟的能力提升下,R1-Zero在數學界享有盛譽的AIME競賽中從最初的15.6%正確率壹路攀升至71.0%的准確率。而讓模型對同壹問題進行多次嘗試時,准確率甚至達到了86.7%。這不是簡單的看過了就會做了——因為AIME的題目需要深度的數學直覺和創造性思維,而不是機械性的公式應用。模型基本必須能推理,才可能有這樣的提升。
- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見