别盯着GPU了,CPU正成为AI时代的"新瓶颈"

日期: 2026-04-12 | 来源: 腾讯科技 | 有0人参与评论 | 字体: 小中大
另一个关键因素是上下文窗口的快速扩展。2024年，主流模型大多支持128K至200K token。进入2025年，Gemini 2.5 Pro、GPT-4.1、Llama 4 Maverick等模型均开始支持100万token以上。KV缓存（Key-Value Cache，用于加速Transformers模型推理过程）随token数量线性增长，在100万token时约为200GB，远超单块H100的80GB显存容量。

对于这类问题的解决方案之一是将KV缓存部分卸载至CPU内存。这意味着CPU不仅要管理编排和工具调用，还要协助承载显存放不下的数据。CPU内存容量、内存带宽以及CPU与GPU之间的互连速度，由此成为系统性能的关键。

因此，适合智能体时代的CPU，更需要低延迟、一致的内存访问能力，以及更强的系统级协同能力，而不是单一的核心规模扩张。

03 厂商们都在做什么？有人抢地盘，有人改设计

面对这场突然爆发的CPU需求，几家大厂的打法完全不同。

英特尔占据传统服务器CPU的首位。Mercury Research的数据显示，2025年第四季度，英特尔在服务器CPU市场仍占60%的份额，AMD占24.3%，英伟达占6.2%。但英特尔这些年一直在追赶新技术，这次CPU需求的爆发对他们来说，既是机会也是考验。

英特尔现在的策略是两条腿走路。一边是继续卖至强处理器，跟谷歌这样的超大规模客户深度绑定；另一边跟SambaNova合作，推出基于至强处理器与其自研RDU加速器的组合方案，主打“不用GPU也能跑智能体推理”的卖点。至强6 Granite Rapids和18A工艺的路线图，将是检验英特尔能否翻盘的关键。

AMD则是这次CPU需求爆发中最大的受益者之一。2025年第四季度，AMD数据中心收入54亿美元，同比增长39%。第五代EPYC Turin占了服务器CPU收入的一半以上，运行EPYC的云实例部署同比增长超过50%。AMD的服务器CPU收入份额首次突破40%。

AMD CEO苏姿丰（Lisa Su）把增长原因直接归到了“智能体”的发展——智能体工作负载把任务“推回”到了传统CPU任务上。

2026年2月，AMD还宣布了一项与Meta的潜在交易，价值超过1000亿美元，供应MI450 GPU和Venice EPYC CPU。

不过，AMD在系统级协同方面仍有提升空间，缺乏类似NVLink C2C这样成熟的高速CPU-GPU互连能力。随着智能体（Agent）系统对数据交互与协同效率要求不断提高，这一环节的重要性也在逐步上升。

英伟达设计CPU的思路，跟英特尔和AMD完全不一样。

英伟达Grace CPU只有72个核心，而AMD EPYC和英特尔至强通常是128个。英伟达AI基础设施负责人迪昂·哈里斯（Dion Harris）解释称：“如果你是超大规模企业，你希望最大化每个CPU的核心数量，这基本上会降低成本，即每核心的美元成本。所以这是一种商业模式。”

换句话说，在AI算力体系里，CPU的角色不再是通用计算主力，而是为GPU服务的“调度中枢”。如果CPU跟不上，昂贵的GPU就会被迫等待，整体效率反而下降。

因此，英伟达在设计上优先保证CPU与GPU之间的高效协同。例如通过NVLink C2C互连，将CPU与GPU之间的带宽提升到约1.8TB/s，远高于传统PCIe，CPU可以直接访问GPU内存，KV缓存管理一下子简单了很多。

目前，英伟达已将Vera CPU作为独立产品销售。CoreWeave是第一个客户。与Meta的交易更夸张，这是其第一次大规模 “纯Grace部署”，也就是CPU在没有GPU配对的情况下大规模独立部署。
- 新闻来源于其它媒体，内容不代表本站立场！
原文链接
原文链接:

在此页中阅读全文

我们的赞助商

目前还没有人发表评论, 大家都在期待您的高见

发表评论