-
日期: 2025-07-06 | 来源: DeepTech深科技 | 有0人参与评论 | 字体: 小 中 大
图 | HFTA 的相关论文(来源:http://www.cs.toronto.edu/~wangsh46/)
由此可见,王尚在五年前就开始关注大模型,并在提高 GPU 利用率上做出了一定成果。而在 2025 年 5 月,也就是 CentML 被英伟达收购的不久之前,王尚接受一家外媒采访并介绍了 CentML 的业务进展。
在上述采访中,王尚表示 CentML 的开源机器学习编译器 Hidet 可以直接对接该公司基于 vLLM 的服务引擎 CServe,进而与 CentML 的一体化 AI 基础设施方案实现顺畅集成。借助 CentML 平台,开发者能够选择 Llama、Mistral 或?DeepSeek
等任何开源模型,并将其部署在任何硬件上(从英伟达 H100、AMD MI300X 到 TPU 均可),后续的性能优化和部署工作则由该技术栈自动完成。王尚表示,通过 CentML 平台,他和同事对于经 AWQ 量化的 DeepSeek-R1 模型进行了优化和部署。在 GPU 内核层面,CentML 借助 Hidet 编译器的领域特定语言 Hexcute,为 DeepSeek -R1 的关键组成部分——混合专家层构建了一个全融合 GPU 内核。相比基于 Triton 编译器打造的同类最佳方案,这一做法将 MoE 层的速度提升了 2 到 11 倍。此外,在推理引擎层面,CentML 构建了 EAGLE 推测式解码技术,该技术利用一个更小的草稿模型来减少原始大模型的工作量并助力其实现并行化,从而能够实现 1.5 到 2 倍的速度提升。
同样是在上述采访中,王尚还介绍了 CentML 团队发表在 2025 年机器学习与系统会议的一篇论文。该论文介绍了一款名为 Seesaw 的大模型推理引擎,其专门针对吞吐量导向型任务优化打造而来。Seesaw 的核心思想是动态模型重分片,该技术能够促进不同阶段间并行化策略的动态重构,从而在两个阶段均实现吞吐量最大化。为了减轻重分片开销以及优化计算效率,CentML 团队采用了分层 KV 缓存缓冲和过渡最小化调度的方法。这些方法通过协同作用能够减少因频繁的阶段转换所带来的开销,同时还能确保批处理效率的最大化。评估结果表明,与目前应用最广泛的顶尖大模型推理引擎 vLLM 相比,Seesaw 的吞吐量最高提升 1.78 倍(平均提升 1.36 倍)。
图 | Seesaw 的相关论文(来源:https://arxiv.org/pdf/2503.06433)
而此次 CentML 被英伟达收购以后,包含王尚在内的几位 CentML 创始人均已入职英伟达。原 CEO 佩基门科目前在英伟达担任 AI 软件高级总监,同时仍在多伦多大学担任教职;作为原 CTO 的王尚目前在英伟达担任 AI 软件系统经理;原首席架构师阿南德·贾亚拉詹(Anand Jayarajan)目前在英伟达担任工程经理;原 COO 阿克巴·努尔利巴耶夫(Akbar Nurlybayev)目前在英伟达担任 AI 软件高级经理。综合媒体报道和职业网站信息,英伟达此次还从 CentML 收编了十几名技术人员。总的来说,等待王尚等人的将是一个新的职业生涯。- 新闻来源于其它媒体,内容不代表本站立场!
-
原文链接
原文链接:
目前还没有人发表评论, 大家都在期待您的高见