-
日期: 2025-01-27 | 來源: AI未來指北 | 有0人參與評論 | 字體: 小 中 大
時隔不到壹個月,DeepSeek 又壹次震動全球AI圈。
去年 12 月, DeepSeek 推出的 DeepSeek-V3在全球AI領域掀起了巨大的波瀾,它以極低的訓練成本,實現了與GPT-4o和Claude Sonnet 3.5 等頂尖模型相媲美的性能,震驚了業界。騰訊科技曾對此模型進行了深度拆解,用最簡單直白的方法,解讀了它能夠同時實現低成本和高效能的技術背景。
和上次不同的是,這次推出的新模型 DeepSeek-R1不僅成本低,更是在技術上有了大幅提升,而且,還是壹個開源模型。
這款新模型延續了其高性價比的優勢,僅用拾分之壹的成本就達到了GPT-o1級別的表現。
所以,很多業內人士甚至喊出了“DeepSeek接班OpenAI”的口號,更多人將目光聚焦在其訓練方法方面的突破。
比如,前Meta AI工作人員、知名AI論文推特作者Elvis就強調,本篇DeepSeek-R1的論文堪稱瑰寶,因為它探索了提升大語言模型推理能力的多種方法,並發現了其中更明確的湧現特性。
另壹位AI圈大V Yuchen Jin則認為,DeepSeek-R1論文中提出的,模型利用純RL方法引導其自主學習和反思推理這壹發現,意義非常重大。
英偉達GEAR Lab項目負責人Jim Fan在推特中也提到了,DeepSeek-R1用通過硬編碼規則計算出的真實獎勵,而避免使用任何 RL 容易破解的學習獎勵模型。這使得模型產生了自我反思與探索行為的湧現。
因為這些極其重要的發現都被DeepSeek-R1完全開源,Jim Fan 甚至認為,這本來是OpenAI應該做的事。
那麼問題來了,他們所提到純RL方法訓練模型是指什麼?模型出現的“Aha moment”又憑什麼能證明AI具有了湧現能力?我們更想知道的是,DeepSeek-R1的這壹重要創新對於AI領域未來的發展,究竟意味著什麼?- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見