-
日期: 2025-07-06 | 来源: DeepTech深科技 | 有0人参与评论 | 字体: 小 中 大
图 | CentML 的四位联合创始人(来源:资料图)
其实,王尚和英伟达的渊源颇深。在联合创办 CentML 之前,他曾在英伟达担任工程师,主要工作任务是帮助优化训练工作负载以便提高 GPU 性能,也就是说他第一次在英伟达负责的工作内容和后来所创立的 CentML 的业务内容大致类似。2022 年,他参与创办了 CentML,并由自己的导师佩基门科担任 CEO。佩基门科目前仍在加拿大多伦多大学担任副教授一职,并指导着将近 20 名学生。在 CentML 的四名主要创始成员中,除了佩基门科之外,其余三位创始成员中有两名都是自己的学生,而其中一名便是王尚。那么,他为何选择王尚一起创办了 CentML?王尚有着怎样的技术成果?关于此,从王尚的两篇代表论文或许可以窥斑见豹。这两篇论文分别于 2020 年和 2021 年发表在机器学习与系统会议(MLSys,Machine Learning and Systems)上。手握至少两篇顶会一作论文以及成果具有较高的应用性,可能是自己得以和导师共同创业的原因。那么,这两篇论文分别讲了什么?
图| 在两篇论文中所展示的王尚当时的照片(来源:http://www.cs.toronto.edu/~wangsh46/)
在 2020 年的一作论文中,
王尚和同事旨在提高反向传播的可扩展性,为此他和同事将反向传播重新表述为一种扫描操作。
扫描操作是一种原语,它按顺序对一系列值进行聚合,并返回每一步的中间结果。然后,通过改进之后的布莱洛克扫描算法(Blelloch scan algorithm),在并行系统上扩展这种反向传播的重新表述形式。研究中,他们使用合成数据集针对基础循环神经网络进行了训练评估,并使用 IRMAS 数据集针对带有门控循环单元的循环神经网络进行了训练评估,结果显示这一方法在整体训练时间上实现了高达 2.75 倍的速度提升,在反向传播上实现了 108 倍的速度提升,并证明针对剪枝后的网络进行重新训练可以作为这一方法的实际应用场景。
图| 将反向传播重新表述为一种扫描操作的相关论文(来源:http://www.cs.toronto.edu/~wangsh46/)
在 2021 年的一作论文中,
王尚等人分析了来自顶尖研究机构的 GPU 集群使用统计数据,以深入了解典型深度学习训练任务所实现的硬件效率。
这一研究表明,当单加速器训练任务被重复启动时,例如当用于超参数调优时,它们可能会在集群范围内的资源消耗中占据主导地位,同时却在很大程度上并未充分利用硬件。研究中,王尚等人观察到这类工作负载具有以下独特特征:一是工作中的模型通常具有相同类型和形状的算子,二是这类算子的模型间水平融合等同于其他已经过良好优化的算子。因此,为了帮助业内人士有效提高深度学习训练工作负载的硬件利用率,王尚等人在这项研究中提出了水平融合训练阵列(HFTA,Horizontally Fused Training Array)。HFTA 是一个深度学习框架扩展库,它能够横向融合来自不同重复性任务的模型,直至算子级别,然后在共享加速器上实现同步训练。研究中,王尚等人将 HFTA 用于在当时最新 GPU 和 TPU 上训练的六个深度学习模型。结果表明,与在单独的加速器上运行每个作业的标准做法相比,HFTA 在提高硬件利用率方面非常有效,其训练吞吐量可提高高达 15.1 倍。- 新闻来源于其它媒体,内容不代表本站立场!
-
原文链接
原文链接:
目前还没有人发表评论, 大家都在期待您的高见