-
日期: 2025-01-31 | 來源: 傅裡葉的貓/基本常識 | 有0人參與評論 | 字體: 小 中 大
需要明確的是,這些都無損於深度求索的卓越成就。深度求索作為壹家行動迅速、資金充足、人才濟濟且專注的初創公司,能夠在推理模型發布上擊敗 Meta 等巨頭,值得稱贊。
技術成就深度求索已經找到了關鍵方法,實現了領先實驗室尚未取得的創新。我們預計,深度求索公布的任何改進,幾乎都會立即被西方實驗室效仿。
這些改進有哪些呢?大多數架構上的成就都與 V3 相關,V3 也是 R1 的基礎模型。下面詳細介紹這些創新成果。
訓練(預訓練和後訓練)深度求索 V3 大規模應用了前所未有的多令牌預測(MTP)技術,它增加了注意力模塊,能夠預測接下來的幾個令牌,而非單個令牌。這壹技術在訓練過程中提升了模型性能,且在推理時可舍棄。這是通過算法創新實現低計算量下性能提升的壹個范例。
訓練過程中還采用了 FP8 精度等技術,不過美國的領先實驗室采用 FP8 訓練已有壹段時間。
深度求索 V3 也是壹個混合專家模型,即由多個擅長不同領域的小模型組成壹個大型模型,這是壹種新興的模型架構。混合專家模型面臨的壹個難題是如何確定每個令牌該進入哪個子模型(即 “專家” 模型)。深度求索通過實施 “門控網絡”,以壹種平衡的方式將令牌路由到合適的專家模型,且不影響模型性能。這意味著路由效率極高,在訓練過程中,相對於整個模型的規模,每個令牌僅需改變少量參數。這不僅提高了訓練效率,還降低了推理成本。
盡避有人擔憂混合專家模型(MoE)帶來的效率提升可能並不顯著,節省下來的成本會迅速被投入到構建更大規模的模型中,導致總體投入不會減少。但實際上,MoE 提高的效率會加速人工智能的規模化發展。企業都在專注於擴大模型的計算規模,並提升算法效率。達裡奧指出,更強大的人工智能模型所帶來的經濟效益拾分可觀。
就 R1 而言,它極大地受益於強大的基礎模型(V3),部分原因在於強化學習(RL)。強化學習主要聚焦兩個方面:格式規范(確保輸出連貫)以及有用性和無害性(確保模型實用)。在基於合成數據集對模型進行微調的過程中,R1 的推理能力得以提升,這與 o1 的情況類似。需要注意的是,R1 的論文中並未提及計算資源的使用情況,因為提及所用的計算資源會暴露他們實際擁有的 GPU 數量比對外宣稱的更多。如此大規模的強化學習,尤其是在生成合成數據時,需要大量的計算資源,正如我們在關於規模定律的文章中所提到的。
此外,深度求索使用的部分數據似乎來自 OpenAI 的模型,我們認為這可能會對輸出數據提取相關政策產生影響。從服務條款來看,這種數據提取行為已經屬於違規。未來,壹種類似 “了解你的客戶”(KYC)的機制可能會出現,以杜絕此類數據提取行為。
多頭潛在注意力機制(MLA)MLA 是深度求索大幅降低推理成本的關鍵創新。它能將每次查詢所需的 KV 緩存減少約 90%(相較於標准注意力機制)。KV 緩存是 Transformer 模型中的壹種內存機制,用於存儲對話上下文數據,減少不必要的計算。
正如我們在規模定律文章中所討論的,隨著對話上下文的增加,KV 緩存也會增大,從而帶來顯著的內存限制問題。大幅減少每次查詢所需的 KV 緩存,意味著每次查詢所需的硬件資源減少,進而降低成本。不過,我們認為深度求索以成本價提供推理服務是為了獲取市場份額,實際上並未盈利。谷歌的 Gemini Flash 2.0 Thinking 價格更低,而且谷歌不太可能以成本價提供服務。MLA 尤其引起了美國許多領先實驗室的關注,它於 2024 年 5 月隨深度求索 V2 發布。由於 H20 相較於 H100 具有更高的內存帶寬和容量,深度求索在使用 H20 進行推理工作負載時效率更高。他們還宣布與華為建立合作關系,但目前在昇騰計算方面的合作成果尚不明顯。
我們認為,MLA 對利潤率的影響最為值得關注,這對整個生態系統意義重大。以下是我們對未來人工智能行業定價結構的展望,同時詳細闡述了為何認為深度求索在補貼價格,以及傑文斯悖論初現端倪的原因。此外,我們還將探討出口管制的影響、中國政府可能對深度求索日益增長的主導地位做出的反應等問題。
對利潤率的廣泛影響在利潤率方面,有壹個關鍵發現:R1 並非從技術層面削弱了 o1 的進展,而是以更低的價格實現了相當的能力。這在本質上是合理的,現在我們引入壹個關於未來定價機制的框架。
提升能力能夠帶來更高的利潤率。這與半導體制造行業的發展極為相似,台積電率先進入新節點(實現新能力)時,由於創造出了前所未有的產品,從而獲得了顯著的定價權。- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見