DeepSeek怎麼賺錢?梁文峰的10萬億美元戰略

日期: 2026-05-24 | 來源: AI普瑞斯 | 有2人參與評論 | 字體: 小中大
2026年的初夏，DeepSeek再度攪動整個AI行業的神經。

先是5月22日，彭博社報道DeepSeek的融資規模已達到700億元（約 100 億美元，同時創始人梁文鋒明確向投資者表態：優先突破技術邊界，而非短期商業化。

次日，DeepSeek官方宣布V4-Pro API永久降價至原價25%，V4 Pro 的輸出價格最終每百萬token 0.87美元，直接擊穿全球大模型定價底線。

與此同時，這家公司的大動作不斷：旗艦模型V4開源僅月余，卻遲遲未推對標競品的編程訂閱套餐；

傳言已久的代碼智能體團隊 “Harness” 剛組建，才挖來量化天才崔添翼加盟；

更關鍵的是，從V4全面適配華為昇騰芯片、脫離英偉達CUDA生態，到持續開源MoE架構、MLA注意力機制等核心技術，DeepSeek每壹步都像是在 “反商業常識”。

壹邊是近乎 “賠本” 的定價、百億級融資的燒錢爭議，壹邊是技術無保留開源、拒絕短期變現的執拗，外界的質疑聲從未停止：DeepSeek到底想幹什麼？梁文鋒的棋局裡，真的只有AGI理想，沒有賺錢邏輯嗎？

X博主@bookwormengr的萬字長文或許可以給出壹個答案。

DeepSeek是如何賺錢的，而且是賺很多錢的？

以下為原文全文：

你有沒有想過，DeepSeek 到底打算怎麼賺錢，而且是賺大錢？

他們沒有像智譜（GLM）、月之暗面（MoonShot）和 MiniMax 那樣推出有競爭力的編程訂閱計劃。他們沒有多模態、語音或視頻模型。時至今日，他們甚至連壹個 Harness 都沒有（雖然最近聽說他們開始招人做了）。而且，DeepSeek 還長期致力於開源，樂此不疲地分享自己的“獨家秘方”。這難道是瘋了嗎？還是純粹在燒錢？那些正准備給他們投資 100 億美元的投資人們，難道是在把錢往水裡扔嗎？

不，在我看來，恰恰相反！！！

在這裡，我想聊聊我對他們至今所作所為的觀察，以及他們似乎正在踐行的戰略。DeepSeek 創始人梁文鋒的眼光顯然盯著壹個大得多的終極獎杯——他們不僅自己能沖擊 1 萬億美元的市值，還能順便幫中國催生出壹個高達 10 萬億美元的產業巨獸！

重新審視 DeepSeek 的“英雄之旅”

DeepSeek 總是逆風而行，他們不屑於去卷那種“比別人好壹點點”的微調模型，也不急著去賣當下的應用（比如各種編程套餐）。我在 2025 年 1 月 27 日發過壹條瘋傳的推文，談到了我所看到的景象，而現在的劇情正變得越來越精彩。

當大家都在死磕稠密模型（Dense Models，所有參數都參與計算的傳統大模型結構）時，DeepSeek 卻迎難而上，選擇了極難訓練的混合專家模型（MoE, Mixture of Experts）。

他們從“第壹性原理”（First Principles）出發，發明了全新的 GRPO 算法，取代了在強化學習（RL, Reinforcement Learning）中雖然占據統治地位、但實現成本極高的 PPO 算法。

他們摸索出了基於驗證獎勵的強化學習（RLVR, Reinforcement Learning from Verified Rewards），並將其作為提升模型推理能力的殺手鑭。

他們通過“多 Token 預測”（MTP, Multi-Token Prediction）提出了壹種絕妙的投機解碼（Speculative Decoding，壹種通過預判後續單詞來加速大模型生成速度的技術）策略，同時還讓訓練信號變得更加密集。

他們完美打造了“零氣泡”（Zero-Bubble）流水線並行技術，把有限的 GPU 資源壓榨到了極致。

他們開源了專家負載均衡器（Expert Load Balancer），讓所有人都能輕松部署混合專家模型。特別是通過“寬專家並行”（Wide Expert Parallel）策略，模型可以在大批次下運行，使得服務成本大幅降低。

他們發明了 MLA、DSA、CSA 和 HCA 等壹系列魔改注意力機制的技術，極大地縮減了 KV 緩存（KV Cache，大模型推理時用於存儲歷史對話記憶的顯存空間）的需求，讓計算需求在面對無限拉長的上下文時幾乎保持恒定。

他們發明了 Engram（印跡模塊），實現了用內存換算力的神奇操作。

他們發明了 mHC（修正超連接），解決了模型體量暴增時的訓練穩定性難題。這個創新清單還能壹直列下去……

在英雄之旅這個最經典的敘事結構裡，主角壹開始並不知道自己的終極使命是什麼。他是在壹路上摸爬滾打，逐漸領悟了偉大的天命，然後排除萬難去完成它。在這個過程中，他會遇到無數的冷嘲熱諷，但他選擇無視；他會遇到不懷好意的對手；他本身也有致命的弱點或短板——但他最終戰勝了自我，達成了使命。他直面那些看似無法逾越的難關，卻總能巧妙地結盟、精明地整合寶貴的資源。這就是為什麼觀眾會不自覺地為英雄搖旗呐喊。這也是為什麼 DeepSeek 在贏得全球無數粉絲狂熱追捧和尊敬的同時，也招來了不少爭議。

接下來我將為你詳細拆解，DeepSeek 在這條路上已經走得足夠遠，並且已經窺見了他們的終極宿命：他們的格局根本不是賣什麼編程訂閱，而是去撬動壹個價值 10 萬億美元的中國 AI 硬件生態圈，並以此順理成章地讓自己斬獲 1 萬億美元的市值。在這個過程中，他們甚至還會順手幫壹把西方硬件生態中的壹眾新玩家。

歡迎大家探討與指正。

先來算壹筆好玩的 KV 緩存賬：

來看看知名半導體分析機構 @SemiAnalysis_發布的這條非常及時的推文：

我們先來做點有趣的 KV 緩存數學題。別擔心，如果你討厭數學，我們也只是用最近發布的 KV 緩存計算器，來看看 DeepSeek V4 Pro 到底能省下多少 KV 緩存，並把它跟最新的智譜 GLM 和阿裡通義千問（Qwen）模型做個對比。

我以 100 萬（1M）上下文長度為例進行計算，假設 KV 精度為 8 位（8-bit），索引器精度為 16 位（16-bit）。你自己也可以去這個網站上玩玩：https://kvcache.ai/tools/kv-cache-calculator/

在 100 萬上下文深度下：

DeepSeek V4 居然只需要 5.48 GB 的高帶寬內存（HBM, High Bandwidth Memory，壹種常用於頂尖 AI 顯卡的高速顯存）。

GLM5 需要 60 GB 的 HBM。

Qwen3-235B-A22B 則需要高達 89 GB 的顯存！

請注意，這還是在以下前提下：

DeepSeek 是壹個擁有 1.6 萬億（1.6T）參數的巨無霸模型。

GLM5 大約是 7000 億（700B）參數，而且它已經借鑒了 DeepSeek 的 MLA 和 DSA 技術，只是還沒用上最新的壓縮注意力機制。

Qwen3-235B-A22B 只有 2350 億參數，使用的是相對傳統的 GQA（分組查詢注意力機制）。

DeepSeek 在緩解顯存壓力方面做出了奠基性的貢獻。如果這項創新被行業廣泛采納，將讓那些需要處理超長任務的長程 AI 智能體（Long-horizon Agents）成本低到難以置信，從而徹底解鎖下壹代嶄新的應用場景。

瘋狂背後的精密章法

能夠在完全不犧牲模型質量的前提下，把 KV 緩存壓縮得如此之小，正是他們敢把長時緩存（Long-held Cache）價格壓到白菜價的底氣所在——其價格甚至不到 Anthropic 旗下 Claude Sonnet 4.6 緩存命中價格的 3%，而且他們還能幫你免費保留好幾個小時！

對於長程任務來說，由於緩存體量極小，將其“轉存”（Offloading）到固態硬盤（SSD）並在需要時重新加載，就變得極為劃算。這就大大降低了對 HBM 的依賴。要知道，HBM 目前全球嚴重短缺，而且從中國 AI 硬件產業的角度來看，這也是制造難度極高的核心痛點。更絕的是，DeepSeek 還開發了壹套能從 SSD 中以極高速度重新加載 KV 緩存的技術，具體細節都在他們的論文裡：https://arxiv.org/pdf/2602.21548

誰是這場“KV 緩存壓縮戰”的直接受益者？

誰在大量供應 SSD？別忘了長江存儲（YMTC）正在崛起為全球 3D NAND 閃存巨頭。閃存技術（NAND）讓 DeepSeek 能夠直接讀取緩存，從而避免了每次都重新計算 KV 的巨大算力浪費。反過來，DeepSeek 正在為 NAND 閃存和固態硬盤創造壹個無比龐大的新市場——這不僅讓長江存儲受益，也讓整個產業鏈所有玩家跟著大賺。

然而，格局絕不僅僅局限於 NAND 和 SSD：

低功耗內存（LPDDR）同樣蘊藏著巨大的潛力，可以用作存放模型權重（Weights）的“大後方”，並在需要時源源不斷地“流式傳輸”到 HBM 中，從而進壹步減輕 HBM 的容量壓力。你可以參考這篇博客：https://www.lmsys.org/blog/2025-09-25-gb200-part-2/。下面我用壹張圖來解釋這套方案是如何運作的：

雖然 DeepSeek 並沒有專門針對這壹方案做特殊開發，但他們那擁有龐大專家數量、並且支持 4 位（4-bit）權重的混合專家模型架構，完美契合了這套方案，使得其實施起來易如反掌。

這種創新配合上他們那堪稱逆天的無損超緊湊 KV 緩存技術，讓系統對 HBM 的吞吐和容量需求出現了斷崖式下跌。

中國誰在做 LPDDR？長鑫存儲（CXMT）。目前他們在 LPDDR 的速度上僅落後國際頂尖水平半代，在容量密度上僅落後壹代。差距非常小！這意味著在不久的將來，除了管夠的 NAND 閃存，中國本土生態還將迎來鋪天蓋地的 LPDDR 內存。那這能緩解算力芯片的壓力嗎？答案是：絕對能。請接著往下看……

聰明地玩轉存儲，還能順手給 GPU 和 ASIC 減負

道理很容易理解：用 NAND 閃存來存放 KV 緩存，不僅能延長緩存的保存時間、減輕 HBM 的壓力，還能免去重復計算的煩惱，這等於變相給 GPU 和 ASIC（專用集成電路，即各類定制化 AI 算力芯片）的計算單元松了綁。那麼，除了作為模型權重的“即時流式傳送帶”之外，LPDDR 還能以其他方式幫上忙嗎？答案同樣是：可以。

LPDDR 可以用來存儲海量的“Engram”（印跡模塊）。DeepSeek 在他們的論文（https://arxiv.org/pdf/2601.07372）中指出，雖然混合專家模型架構可以通過條件計算（Conditional Computation）來擴充模型的容量，但傳統的 Transformer 架構缺乏壹種天然的知識檢索機制，只能笨拙地通過高昂的“計算”去模擬“檢索”。為此，他們引入了 Engram 模塊，將經典的 N-gram 嵌入技術升級為基於哈希、時間復雜度為的瞬間查找，創造了壹個他們稱之為“條件內存”（Conditional Memory）的全新稀疏維度。這極大地省下了計算量，但代價是需要巨大的內存空間來存放這個龐大的嵌入表。這是壹次經典的“用空間（存儲）換時間（計算）”，其高明之處在於，讀取“存儲”的成本遠比進行計算要便宜得多（在 LPDDR 裡查壹下，可比讓大模型整整跑壹輪前向傳播省錢太多了）。在大規模部署時，這是壹筆劃算到家了的買賣。這就是他們如何通過狂砸內存來省下算力的秘密！！！

這種取舍簡直太值了：由於缺乏極紫外光刻機（EUV），無法在單個芯粒（Chiplet）上做到同等的晶體管密度，中國的 GPU 和 ASIC 在純粹的原始浮點運算能力（FLOPs）上，注定會長期落後於西方頂尖顯卡。同時，國內在先進封裝技術上也處於追趕狀態。因此，如果能利用國內產能充足、成本低廉的 NAND 和 LPDDR 內存來彌補算力的劣勢，這種“揚長避短”的打法簡直是絕配。

盤點 DeepSeek 的壹盤大棋：

縱觀這些令人眼花繚亂的創新和他們做出的種種抉擇（至今不做多模態、不做語音模型，至於視頻生成？那是什麼東西？），DeepSeek 的野心顯然不是眼前那區區幾億美元的蠅頭小利。他們正在極有耐心地下壹盤 10 萬億美元的大棋，目的是親手扶持起壹套獨立於西方之外的“備選硬件生態”。

這不僅讓中國的存儲芯片廠商在全球 AI 硬件舞台上躍升為主力軍，更從根本上降低了大模型訓練和推理的資源門檻。當運行 AI 模型的成本降下來後，原本性能稍遜的國產 GPU/ASIC 芯片以及網絡交換芯片也將全部變成“夠用、好用”的切實選項。而且，這些開源創新也將反哺西方的開源社區，並給西方那些試圖挑戰英偉達的芯片初創企業帶來壹線生機。

所有的蛛絲馬跡都對上了。讓我們來逐壹細數他們拋出的那些震撼行業的創新：

在 DeepSeek V2 中引入混合專家模型（MoE）和 MLA：MoE 讓訓練壹個極度聰明的模型減少了 40% 到 50% 的算力消耗；而多頭潛在注意力機制（MLA, Multi-head Latent Attention）更是把 KV 緩存直接砍掉了 90%，使得將緩存轉存到 SSD 變得極為高效。這些理念最早在他們 2024 年 5 月的論文（https://arxiv.org/pdf/2405.04434）中提出。正是憑借這些絕活，他們後來才能僅僅用 2048 張被閹割過的 H800 GPU，就硬生生訓練出了媲美頂級閉源模型的 DeepSeek V3。

DSA（密集跳躍注意力機制）：在論文（https://ariv.org/pdf/2512.02556）中推出，旨在削減長上下文場景下的計算量，同時緩解 HBM 的帶寬壓力。它確保了計算量不會隨著上下文的拉長而發生爆炸式增長。看看下面的圖表——DeepSeek-v3.2 的處理時間在上下文拉長時依然穩如泰山。

mHC（修正超連接）：在 2025 年 12 月的論文（https://arxiv.org/pdf/2512.24880）中首次亮相。mHC是 DeepSeek 在宏觀架構上的壹大創新，它徹底顛覆了大模型各層之間傳統的信號傳輸方式。過去大家都在用自 ResNet 時代流傳下來的標准殘差連接，而 mHC 則把這條殘差流擴展成了多條並行的“信息高速公路”，並允許模型自主學習如何進行混合。最為關鍵的是，它通過數學手段（將混合矩陣通過 Sinkhorn-Knopp 投影約束在 Birkhoff 多胞形上）強制讓這些混合矩陣滿足雙隨機性，從而在數學上完美確保了信號強度在穿過任意深度的網絡層時都不會衰減。

這徹底解決了此前困擾無約束超連接（Hyper-Connections，最早由字節跳動發明）的災難性不穩定難題——此前在 270 億（27B）參數規模下，信號放大系數會瘋狂飆升到 3000 倍，導致整個訓練徹底崩盤。

而它的計算成本卻微乎其微：由於它完全沒有改變注意力層或前饋網絡（FFN, Feed-Forward Network）層的原始浮點運算量，僅僅改變了輸出在各層之間的路由方式，因此它只增加了區區 6.7% 的實際訓練時間開銷。

然而它帶來的性能提升卻極為震撼：在同等模型大小和幾乎完全相同的算力預算下，27B 規模的模型在 mHC 的加持下，在復雜的 BIG-Bench Hard 推理測試中暴漲了 7.2 分，DROP 評測提升 3.2 分，GSM8K 數學測試提升 2.8 分，MMLU 綜合學科知識提升 1.4 分。

簡而言之，mHC 通過給網絡賦予壹套更豐富、更有表現力的跨層信息路由拓撲結構，在幾乎不需要額外多花壹丁點算力的情況下，讓單位參數發揮出了顯著更高的“智商”。

CSA 與 HSA：在 2026 年 4 月發布的 DeepSeek V4 Pro 技術文檔（https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf）中亮相。它們通過對 KV Token 進行深度壓縮，把本來就已經很小的 KV 緩存需求又砍掉了 90%！同時大幅降低了所需的浮點運算量，壹舉幫 HBM 和 GPU/ASIC 徹底解套。

論文（https://arxiv.org/pdf/2601.07372）於 2026 年第壹季度推出，正如前面所說，它在某種意義上實現了“用內存（LPDDR）換算力”。下面的詳細圖表展示了在總體參數預算完全壹致的情況下，Engram 帶來的巨大性能躍升。

將計算與通信的重疊壓榨到極致：諸如“雙路徑”（Dual Path）這樣的底層魔改，表面上看是為了繞過硬件資源的封鎖而被迫進行的閃轉騰挪。但 DeepSeek 更進壹步，甚至開始反過來對芯片硬件廠商的 ASIC 架構設計指點迷津，告訴他們如何設計芯片才能避免浪費哪怕壹絲壹毫寶貴的硅片資源。以下截圖正是出自 DeepSeek V4 Pro 的官方文檔：

對 TileLang 的重度投入：這明確無誤地表明，他們的目光早已超越了自家算力緊缺的困境，而是致力於讓整個中國硬件生態具備與西方掰手腕的競爭力。有了 TileLang（壹種用於編寫高性能算力內核的開源編程語言），工程師只需要編寫壹次算力內核代碼，就能在任何適配了 TileLang 後端的不同硬件平台上無縫跑起來。我預計國內其他 AI 實驗室很快也會紛紛加入這個陣營——這將合力幫助中國硬件廠商從側面解圍，繞開英偉達堅不可摧的“CUDA 壁壘”（CUDA Moat，英偉達苦心經營數拾年的專用並行計算架構生態，是其最寬的護城河）。同時，這也能順便解放 AMD 等西方的其他硬件廠商。注：國內許多 AI 硬件平台本身也提供 CUDA 兼容性或 CUDA 編譯轉換層。其中，摩爾線程、沐曦、壁仞和天數智芯是通過轉換層實現與 CUDA 兼容度最高的幾家中國芯片公司，理論上它們不需要 TileLang 的協助。

大規模強化學習與自動化科學研究：

隨著計算需求的斷崖式下降，以及可供選擇的本土硬件變得越來越多，DeepSeek 終於能夠放開手腳，去挑戰那些此前讓人望而卻步的宏大訓練計劃——尤其是強化學習階段的後訓練（Post-training）。強化學習需要生成海量的思考軌跡（Trajectories），動輒就會產生數萬億的 Token，這在過去燒錢速度極其恐怖。此外，要訓練出支持 100 萬上下文的模型，你就必須生成同樣長度的思考軌跡。只有讓模型在這種超長軌跡中經受錘煉，才能真正解鎖解決復雜長程任務的能力。

不僅如此，硬件選擇的多元化將讓 DeepSeek 擁有富余的算力去沖擊“自動化人工智能研究”（RSI, Research on Silicon Intelligence，即讓 AI 充當科學家，自己設計並執行算法實驗的自主進化技術）。這種讓 AI 左右互搏、自主進化的模式伴隨著大量的試錯，耗資極度高昂。但如果想要徹底探尋整個算法設計的未知空間，RSI 是必經之路。在通往通用人工智能（AGI）乃至超級人工智能（ASI）的道路上，DeepSeek 必須先點亮 RSI 這棵科技樹。

DeepSeek 今日的試金石，行業明天的教科書：

如今，DeepSeek 圍繞混合專家模型、MLA、DSA 的壹連串瘋狂創新，早已被中國乃至全球的各大 AI 實驗室奉為圭臬並爭相抄作業。

比如，打造了 GLM 系列模型的智譜 AI 已經用上了 MLA 和 DSA；月之暗面（Kimi）也大方承認自家的最新架構正是基於 DeepSeek 的演進。作為禮尚往來，DeepSeek 在大規模訓練中也采用了 Muon 優化器，而該優化器在超大規模訓練中的威力，正是被 Kimi 團隊首先發掘並證明的。
- 新聞來源於其它媒體，內容不代表本站立場！
原文鏈接
原文鏈接:

我們的贊助商

評論

有 2 人參與評論，請點擊查看評論

發表評論

相關功能

新聞