-
日期: 2026-05-24 | 來源: AI普瑞斯 | 有3人參與評論 | 字體: 小 中 大
論文(https://arxiv.org/pdf/2601.07372)於 2026 年第壹季度推出,正如前面所說,它在某種意義上實現了“用內存(LPDDR)換算力”。下面的詳細圖表展示了在總體參數預算完全壹致的情況下,Engram 帶來的巨大性能躍升。
將計算與通信的重疊壓榨到極致:諸如“雙路徑”(Dual Path)這樣的底層魔改,表面上看是為了繞過硬件資源的封鎖而被迫進行的閃轉騰挪。但 DeepSeek 更進壹步,甚至開始反過來對芯片硬件廠商的 ASIC 架構設計指點迷津,告訴他們如何設計芯片才能避免浪費哪怕壹絲壹毫寶貴的硅片資源。以下截圖正是出自 DeepSeek V4 Pro 的官方文檔:
對 TileLang 的重度投入:這明確無誤地表明,他們的目光早已超越了自家算力緊缺的困境,而是致力於讓整個中國硬件生態具備與西方掰手腕的競爭力。有了 TileLang(壹種用於編寫高性能算力內核的開源編程語言),工程師只需要編寫壹次算力內核代碼,就能在任何適配了 TileLang 後端的不同硬件平台上無縫跑起來。我預計國內其他 AI 實驗室很快也會紛紛加入這個陣營——這將合力幫助中國硬件廠商從側面解圍,繞開英偉達堅不可摧的“CUDA 壁壘”(CUDA Moat,英偉達苦心經營數拾年的專用並行計算架構生態,是其最寬的護城河)。同時,這也能順便解放 AMD 等西方的其他硬件廠商。注:國內許多 AI 硬件平台本身也提供 CUDA 兼容性或 CUDA 編譯轉換層。其中,摩爾線程、沐曦、壁仞和天數智芯是通過轉換層實現與 CUDA 兼容度最高的幾家中國芯片公司,理論上它們不需要 TileLang 的協助。
大規模強化學習與自動化科學研究:
隨著計算需求的斷崖式下降,以及可供選擇的本土硬件變得越來越多,DeepSeek 終於能夠放開手腳,去挑戰那些此前讓人望而卻步的宏大訓練計劃——尤其是強化學習階段的後訓練(Post-training)。強化學習需要生成海量的思考軌跡(Trajectories),動輒就會產生數萬億的 Token,這在過去燒錢速度極其恐怖。此外,要訓練出支持 100 萬上下文的模型,你就必須生成同樣長度的思考軌跡。只有讓模型在這種超長軌跡中經受錘煉,才能真正解鎖解決復雜長程任務的能力。- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接: