-
日期: 2026-05-14 | 来源: 腾讯科技 | 有0人参与评论 | 字体: 小 中 大
在良率上,Cerebras 对外宣称做到了 100%。可如果仔细研究其S1文件和公开的信息和资料,它实际上只是改变了良率本身的计算方式。
换句话说,他重新定义了芯片良率。
传统芯片的良率算的是一颗die是否如预期完整可用,只要落上一个致命缺陷,整颗芯片就会被报废或降级出售。Cerebras把良率的定义换了一种计算方式:整片晶圆能否通过冗余核心和片上网络绕过缺陷,最终凑出一个逻辑上完整的计算系统。根据S-1文件的描述:这是从 memory 行业借来的思路,DRAM/SRAM实际上就是靠冗余Row/column 把良率做到接近100%,Cerebras 也把这套做法搬到逻辑芯片上。
这倒不能说他完全是在偷换良率的概念,真要实现如此大面积上的系统可用性也很不容易。靠着片内互连和结构上的取巧,Cerebras实现了某种工程上的突破和产品层面的平衡。但说到底,它和传统 GPU 良率口径不在同一个度量衡里,并不能直接横向比较。
从Cerebras的视角来看,除了WSE, 还有一个显着特点,也是其多次强调的创新突破之处,那就是片内带宽极高。根据其公开说法,片上 NoC 带宽达到Pbps量级。
但如果仔细研究就会发现,只要数据需要离开晶圆,还是要面对其他 AI芯片面临的问题,片(卡)间带宽的瓶颈同样会出现,片内和片间互连的量级差大约在 100 倍以上。
我们分析,正是这种“内快外慢”的结构决定了WSE的“转向”故事。
二、训练梦碎,推理找到了新机会
Cerebras 最早瞄准的是训练。站在今天回看,这件事没做成。
训练市场有三个绕不过去的约束。硬件:大模型训练拼的不是单芯片算力,是外部内存与外部互连,权重、梯度、optimizer state、activation 都要在大规模系统里高效搬运,而WSE恰恰在片外 I/O 互连上是短板。
软件:Nvidia 的真正壁垒在 GPU+CUDA+NCCL+NVLink+NVSwitch+HBM+服务器+云厂商部署+开发者生态共同搭出的整套系统,这种壁垒不是单点技术领先就能撼动。训练场景的客户基本上主要为全球大模型的头部玩家了,他们当下最大的战略任务是“留在牌桌上、争最快迭代”,没有人会用如此巨大的机会成本去赌一颗非Nvidia的训练芯片。
Cerebras当年为训练配了SwarmX和MemoryX,这其实一定程度上是借用了AMD的既有成果,挂在 WSE外面解决内存与扩展。但实际部署中这套配套基本没被认真用起来,根源还是那句话,WSE 的技术亮点在片内,AI 系统的真实瓶颈在系统,在模型如此规模化的今天,片间与片外的瓶颈,直接限制了系统的效能,进一步限制了应用场景。
它还押过一个更大的赌注:非结构化权重稀疏,理论上 8:1 任意稀疏可以拿到接近 8 倍的有效算力,在产品定义与设计上,要在AI计算的泛化意义上来实现,那是非常难的。但在实际上,大模型最后没走这条路,业界主流是 MoE、低精度量化(FP8/FP4/MXFP)、attention 优化。Cerebras 在硬件上尝试去做一个很难的特性,但这个特性没有成为模型演进的主路线。- 新闻来源于其它媒体,内容不代表本站立场!
-
原文链接
原文链接:
目前还没有人发表评论, 大家都在期待您的高见