-
日期: 2025-03-01 | 来源: 极客公园 | 有0人参与评论 | 字体: 小 中 大
GitHub地址:
https://github.com/deepseek-ai/open-infra-index/blob/main/202502OpenSourceWeek/day_6_one_more_thing_deepseekV3R1_inference_system_overview.md
一、每日总成本为87072美元,利润率理论上最高545%
DeepSeek V3和R1的所有服务均使用H800 GPU,使用和训练一致的精度,即矩阵计算和dispatch传输采用和训练一致的FP8格式,core-attention计算和combine传输采用和训练一致的BF16,最大程度保证了服务效果。
此外,由于白天的高服务负载和晚上的低负载,DeepSeek在白天高峰时段跨所有节点部署推理服务。在低负载的夜间时段减少了推理节点,并将资源分配给研究和训练。
在过去的24小时内(2月27日24点到2月28日24点),V3和R1推理服务的合并峰值节点占用率达到278,平均占用率为226.75个节点(每个节点包含8个H800 GPU)。假设一个H800 GPU的租赁成本为每小时2美元,则每日总成本为87072美元。
▲推理服务的H800节点计数
在24小时统计周期内(2月27日24点到2月28日24点),V3和R1:
总输入Token 608B,其中342B Token(56.3%)命中KVCache硬盘缓存。
总输出Token 168B,平均输出速度为每秒20-22 tps,每个输出Token的平均kvcache长度为4989个Token。
每个H800节点在prefill期间提供约73.7k token/s输入(包括缓存命中)的平均吞吐量,或在解码期间提供约14.8k token/s输出。
以上统计数据包括所有来自web、APP、API的用户请求。
如果所有Token都以DeepSeek-R1的价格计费,每日总收入将为562027美元,成本利润率为545%。
*R1的定价:0.14美元输入Token(缓存命中),0.55美元输入令牌(缓存未命中),2.19美元输出令牌。
然而,DeepSeek的实际收入并没有这么多,其原因是DeepSeek-V3的定价明显低于R1;网页端和应用程序免费,所有只有一部分服务被货币化;夜间折扣在非高峰时段自动适用。
▲成本和理论收入
二、EP增加系统复杂性,三大策略应对
DeepSeek的解决方案采用了跨节点的专家并行(EP)。
首先,EP显着扩展了批处理大小,增强了GPU矩阵计算效率并提高了吞吐量;其次,EP将专家分布在不同GPU上,每个GPU只处理专家的一小部分(减少内存访问需求),从而降低延迟。- 新闻来源于其它媒体,内容不代表本站立场!
-
原文链接
原文链接:
目前还没有人发表评论, 大家都在期待您的高见