-
日期: 2025-06-16 | 来源: 新智元 | 有0人参与评论 | 字体: 小 中 大
毕业后,他曾入职专注于生成式AI公司Hive任机器学习工程师。随后,又在维也纳复杂性科学中心担任访问研究员。
直到2024年12月,Keller正式加入OpenAI。
他所有GitHub项目中,最具影响力的便是——Modded-NanoGPT,星标超2.4k。
Keller和团队仅用8块H100在3分钟内复现GPT模型,仅需处理0.73B token。
他本人还有一个个人博客,自入职OpenAI以来,一直没有更新,
最后一篇文章正是Muon优化器。
Muon这篇文章究竟讲的是什么?
一个优化器,破训练速度新纪录
在深度学习领域,优化器是推动模型训练效率和性能的核心工具。
直到2024年12月,一个名为Muon优化器横空出世,凭借卓越性能刷新NanoGPT和CIFAR-10训练速度世界纪录。
Muon,是一种为神经网络2D参数隐藏层设计的优化器。
其核心思想是,SGD-动量法(SGD-momentum)生成的更新矩阵,通过Newton-Schulz迭代进行正交化处理,生成接近于半正交矩阵的更新,从而提升训练效率。
它的实现简单高效,支持在bf16精度下稳定运行,显着降低了计算开销。- 新闻来源于其它媒体,内容不代表本站立场!
-
原文链接
原文链接:
目前还没有人发表评论, 大家都在期待您的高见