-
日期: 2025-03-01 | 来源: 极客公园 | 有0人参与评论 | 字体: 小 中 大
Decode Load Balancer的关键问题是,不同数据并行(DP)实例上的请求数量、长度不同,导致core-attention计算量(与KVCache占用量相关)、dispatch发送量不同。
其优化目标是,各GPU的KVCache占用量尽量相同(core-attention计算负载均衡)、请求数量尽量相同(dispatch发送量负载均衡)。
专家并行负载均衡器的核心问题:对于给定MoE模型,存在一些天然的高负载专家(expert),导致不同GPU的专家计算负载不均衡。
其优化目标是,每个GPU上的专家计算量均衡(即最小化所有GPU的dispatch接收量的最大值)。
▲DeepSeek在线推理系统图- 新闻来源于其它媒体,内容不代表本站立场!
-
原文链接
原文链接:
目前还没有人发表评论, 大家都在期待您的高见