-
日期: 2025-03-01 | 來源: 極客公園 | 有0人參與評論 | 字體: 小 中 大
Decode Load Balancer的關鍵問題是,不同數據並行(DP)實例上的請求數量、長度不同,導致core-attention計算量(與KVCache占用量相關)、dispatch發送量不同。
其優化目標是,各GPU的KVCache占用量盡量相同(core-attention計算負載均衡)、請求數量盡量相同(dispatch發送量負載均衡)。
專家並行負載均衡器的核心問題:對於給定MoE模型,存在壹些天然的高負載專家(expert),導致不同GPU的專家計算負載不均衡。
其優化目標是,每個GPU上的專家計算量均衡(即最小化所有GPU的dispatch接收量的最大值)。
▲DeepSeek在線推理系統圖- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見