-
日期: 2026-05-14 | 来源: 腾讯科技 | 有0人参与评论 | 字体: 小 中 大
这也再次证明,AI芯片产品经理要对AI模型有很深刻的理解和预判能力,不然的话,产品定义和设计,就会面临极高的风险。
三、推理成为“新金矿”
推理和训练的系统约束完全不同,推理和场景有关,其计算模式可以解耦。Cerebras 把推理任务做成一条流水线:把整个大模型按层切成几段,分别放到一片或多片 WSE 上;推理时数据像在工厂传送带上一样,从第一片 WSE 流到下一片,每片只负责自己那一段计算。
这套办法之所以能在 WSE 上跑通,关键在于一个细节,串接片与片之间需要传输的,只是这一步算出来的中间结果(activation),数据量相对较小;而真正吃内存的部分(模型权重、用户对话过程中累积的 KV cache)则被锁在每一片 WSE内部,不需要反复跨片搬运。
这恰好绕开了 WSE 最大的短板,片外 I/O 不够快(只是相对于片间来说,和其他 AI芯片其实也在同一个数量级上)。对追求高 token 吞吐的推理场景,这条路线的工程意义是真实的:Cerebras Inference在公开 benchmark上跑出了比主流GPU方案快约15倍的token速度。
但正如之前分析Groq的文章中所述,推理的强泛化能力几乎就难度极高了。
模型大小、结构、KV cache 需求差异极大,再加上 SRAM 容量、片外 I/O 这些底层约束,WSE 只能在“特定模型 + 特定适配”的场景下打出最强表现。它的最优市场策略,就应该是找到最通用的模型、量最大的HyperScaler客户,针对其计算系统进行软硬件的适配与优化,这也就意味着,从经济意义上来看,它必须挑客户。
到这里,技术故事讲完了。一颗工程上有真本事的大芯片,从训练市场退了出来,在推理市场找到了一条高吞吐路径,但这条路径必须靠少数大客户和深度适配才能走通。
在当今西方世界上,OpenAI和Anthropic是顶级模型大平台。
因此,接下来在S-1文件中,我们就看到了这个技术故事的另外一面。
四、$200 亿订单的另一面:股权换订单
2026 年 1 月,Cerebras 公开宣布与 OpenAI 的多年合同,金额“超过 200 亿美元”,部署 750MW 高速 AI 推理算力,双方共同设计未来模型与硬件。这是 Cerebras IPO路演中很重的一句话。
在S-1文件中,这句话却成为了一组互相咬合的合同条款,需要拼起来才能看到全貌。
第一笔:$10 亿“工作资本贷款”。MRA(Master Relationship Agreement)签署后,OpenAI 借给 Cerebras $10 亿 secured promissory note,年利率 6%,到期日不晚于 2032/12。但这笔钱的账户由 OpenAI 控制,Cerebras 不能自由支配;如果MRA因为非 OpenAI 重大违约的原因终止,OpenAI 可以一键冻结这笔钱并要求立即全额偿还。还款方式特别,Cerebras 可以用现金还,也可以用算力、硬件或其他服务抵销贷款本金和利息。- 新闻来源于其它媒体,内容不代表本站立场!
-
原文链接
原文链接:
目前还没有人发表评论, 大家都在期待您的高见