DeepSeek怎麼賺錢?梁文峰的10萬億美元戰略

日期: 2026-05-24 | 來源: AI普瑞斯 | 有3人參與評論 | 字體: 小中大
論文（https://arxiv.org/pdf/2601.07372）於 2026 年第壹季度推出，正如前面所說，它在某種意義上實現了“用內存（LPDDR）換算力”。下面的詳細圖表展示了在總體參數預算完全壹致的情況下，Engram 帶來的巨大性能躍升。

將計算與通信的重疊壓榨到極致：諸如“雙路徑”（Dual Path）這樣的底層魔改，表面上看是為了繞過硬件資源的封鎖而被迫進行的閃轉騰挪。但 DeepSeek 更進壹步，甚至開始反過來對芯片硬件廠商的 ASIC 架構設計指點迷津，告訴他們如何設計芯片才能避免浪費哪怕壹絲壹毫寶貴的硅片資源。以下截圖正是出自 DeepSeek V4 Pro 的官方文檔：

對 TileLang 的重度投入：這明確無誤地表明，他們的目光早已超越了自家算力緊缺的困境，而是致力於讓整個中國硬件生態具備與西方掰手腕的競爭力。有了 TileLang（壹種用於編寫高性能算力內核的開源編程語言），工程師只需要編寫壹次算力內核代碼，就能在任何適配了 TileLang 後端的不同硬件平台上無縫跑起來。我預計國內其他 AI 實驗室很快也會紛紛加入這個陣營——這將合力幫助中國硬件廠商從側面解圍，繞開英偉達堅不可摧的“CUDA 壁壘”（CUDA Moat，英偉達苦心經營數拾年的專用並行計算架構生態，是其最寬的護城河）。同時，這也能順便解放 AMD 等西方的其他硬件廠商。注：國內許多 AI 硬件平台本身也提供 CUDA 兼容性或 CUDA 編譯轉換層。其中，摩爾線程、沐曦、壁仞和天數智芯是通過轉換層實現與 CUDA 兼容度最高的幾家中國芯片公司，理論上它們不需要 TileLang 的協助。

大規模強化學習與自動化科學研究：

隨著計算需求的斷崖式下降，以及可供選擇的本土硬件變得越來越多，DeepSeek 終於能夠放開手腳，去挑戰那些此前讓人望而卻步的宏大訓練計劃——尤其是強化學習階段的後訓練（Post-training）。強化學習需要生成海量的思考軌跡（Trajectories），動輒就會產生數萬億的 Token，這在過去燒錢速度極其恐怖。此外，要訓練出支持 100 萬上下文的模型，你就必須生成同樣長度的思考軌跡。只有讓模型在這種超長軌跡中經受錘煉，才能真正解鎖解決復雜長程任務的能力。
- 新聞來源於其它媒體，內容不代表本站立場！
原文鏈接
原文鏈接:

上壹頁 1 ...4 5 678 下壹頁

在此頁中閱讀全文

我們的贊助商

評論

有 3 人參與評論，請點擊查看評論

發表評論

相關功能

新聞