-
日期: 2026-05-24 | 來源: AI普瑞斯 | 有3人參與評論 | 字體: 小 中 大
我們先來做點有趣的 KV 緩存數學題。別擔心,如果你討厭數學,我們也只是用最近發布的 KV 緩存計算器,來看看 DeepSeek V4 Pro 到底能省下多少 KV 緩存,並把它跟最新的智譜 GLM 和阿裡通義千問(Qwen)模型做個對比。
我以 100 萬(1M)上下文長度為例進行計算,假設 KV 精度為 8 位(8-bit),索引器精度為 16 位(16-bit)。你自己也可以去這個網站上玩玩:https://kvcache.ai/tools/kv-cache-calculator/
在 100 萬上下文深度下:
DeepSeek V4 居然只需要 5.48 GB 的高帶寬內存(HBM, High Bandwidth Memory,壹種常用於頂尖 AI 顯卡的高速顯存)。
GLM5 需要 60 GB 的 HBM。
Qwen3-235B-A22B 則需要高達 89 GB 的顯存!
請注意,這還是在以下前提下:
DeepSeek 是壹個擁有 1.6 萬億(1.6T)參數的巨無霸模型。
GLM5 大約是 7000 億(700B)參數,而且它已經借鑒了 DeepSeek 的 MLA 和 DSA 技術,只是還沒用上最新的壓縮注意力機制。
Qwen3-235B-A22B 只有 2350 億參數,使用的是相對傳統的 GQA(分組查詢注意力機制)。
DeepSeek 在緩解顯存壓力方面做出了奠基性的貢獻。如果這項創新被行業廣泛采納,將讓那些需要處理超長任務的長程 AI 智能體(Long-horizon Agents)成本低到難以置信,從而徹底解鎖下壹代嶄新的應用場景。
瘋狂背後的精密章法
能夠在完全不犧牲模型質量的前提下,把 KV 緩存壓縮得如此之小,正是他們敢把長時緩存(Long-held Cache)價格壓到白菜價的底氣所在——其價格甚至不到 Anthropic 旗下 Claude Sonnet 4.6 緩存命中價格的 3%,而且他們還能幫你免費保留好幾個小時!
對於長程任務來說,由於緩存體量極小,將其“轉存”(Offloading)到固態硬盤(SSD)並在需要時重新加載,就變得極為劃算。這就大大降低了對 HBM 的依賴。要知道,HBM 目前全球嚴重短缺,而且從中國 AI 硬件產業的角度來看,這也是制造難度極高的核心痛點。更絕的是,DeepSeek 還開發了壹套能從 SSD 中以極高速度重新加載 KV 緩存的技術,具體細節都在他們的論文裡:https://arxiv.org/pdf/2602.21548
- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接: