-
日期: 2026-05-10 | 來源: 鈦媒體 | 有0人參與評論 | 字體: 小 中 大

過去大家想在自己電腦上跑大模型,普遍用的都是llama.cpp這個工具。它的好處是什麼模型都能跑,Llama、Qwen、DeepSeek全都支持。
可問題就是,什麼都能跑,就意味著什麼都跑不到最快。為了照顧所有模型,llama.cpp必須做很多妥協,性能上不可能做到極致。
antirez的想法正好相反,他才不管別的模型死活,他就專門伺候DeepSeek V4 Flash這壹個,把它優化到極限。
他壹共做了3件事。
第壹件事,是不對稱的2-bit量化。
DeepSeek V4 Flash的架構是MoE(Mixture of Experts),284B總參數裡,每次推理只激活13B,這13B是路由挑出來的若幹個專家子網絡。
就像壹個工具箱裡有284把工具,每次只拿出13把來用。這284B裡面,有壹大堆“備選專家”占了90%以上的空間,但它們不是每次都用,只是候補。
antirez的做法是,只對這批routed experts做激進的2-bit量化,up和gate矩陣用IQ2_XXS,down矩陣用Q2_K,而模型裡所有關鍵路徑上的組件,包括shared experts、projections、routing網絡,全部保持原始精度不動。
也就是說,antirez把這些“候補專家”狠狠壓縮,壓到只剩原來1/4的大小,但那些每次都要用的核心組件,壹點都不動,保持原樣。
這是壹種不對稱的壓縮策略,砍掉體積大頭,保住質量命脈。
第贰件事,是把KV Cache搬到SSD上。
DeepSeek V4 Flash支持100萬token的上下文,這相當於你可以把壹整本小說扔給它,它能全記住。
但這麼長的上下文,意味著AI在工作時要不停地回頭翻看前面的內容。為了讓這個“回頭翻看”的動作不至於慢到卡死,AI需要把這些內容暫存在壹個叫“緩存”的地方,方便隨時調用。
以前的做法是把這個緩存放在內存裡。內存速度快,AI每次生成壹個字都要頻繁查這個緩存,所以必須放內存。
但問題是,如果讓128GB內存的MacBook Pro跑DeepSeek-V4 Flash,光緩存就能把內存吃光,模型本身都沒地方放了。
所以antirez的做法是直接把緩存扔到硬盤(SSD)上。ds4把壹部分KV狀態做成可落盤、可恢復的緩存,讓長提示詞和agent反復續寫時,不必每次從頭處理。
這聽起來有點離譜,因為硬盤比內存慢多了。
然而現代Mac SSD足夠快,適合做KV緩存持久化和恢復。加上DeepSeek V4 Flash本身對緩存做過壓縮,讀寫量不大,所以硬盤完全頂得住。
結果就是內存省出來了,100萬token的超長對話真的在壹台MacBook上跑起來了。
不過這不等於128GB MacBook可以毫無壓力地把100萬token全部拉滿。
按照ds4自己的說明,2-bit模型本身已經要占掉大約80GB級別的內存,真正日常使用時,100k到300k上下文會更現實壹點。
第叁件事,是純Metal原生路徑。
antirez把所有優化都押在蘋果電腦的GPU上。
因此他專門為蘋果芯片寫了壹套代碼,讓DeepSeek V4 Flash能在蘋果電腦上跑得飛快。
至於CPU,並不是這個項目的重點。README裡也寫得很直白,CPU模式目前還不穩定,甚至可能觸發系統崩潰。antirez進壹步表示,如果有人真想走這條路,後續大概還得靠社區來補救。- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見