仅凭一篇博客,他成功入职OpenAI! | 新闻 | 手机版本

仅凭一篇博客,他成功入职OpenAI!

日期: 2025-06-16 | 来源: 新智元 | 有0人参与评论 | 字体: 小中大
毕业后，他曾入职专注于生成式AI公司Hive任机器学习工程师。随后，又在维也纳复杂性科学中心担任访问研究员。

直到2024年12月，Keller正式加入OpenAI。

他所有GitHub项目中，最具影响力的便是——Modded-NanoGPT，星标超2.4k。

Keller和团队仅用8块H100在3分钟内复现GPT模型，仅需处理0.73B token。

他本人还有一个个人博客，自入职OpenAI以来，一直没有更新，

最后一篇文章正是Muon优化器。

Muon这篇文章究竟讲的是什么？

一个优化器，破训练速度新纪录

在深度学习领域，优化器是推动模型训练效率和性能的核心工具。

直到2024年12月，一个名为Muon优化器横空出世，凭借卓越性能刷新NanoGPT和CIFAR-10训练速度世界纪录。

Muon，是一种为神经网络2D参数隐藏层设计的优化器。

其核心思想是，SGD-动量法（SGD-momentum）生成的更新矩阵，通过Newton-Schulz迭代进行正交化处理，生成接近于半正交矩阵的更新，从而提升训练效率。

它的实现简单高效，支持在bf16精度下稳定运行，显着降低了计算开销。
- 新闻来源于其它媒体，内容不代表本站立场！
原文链接
原文链接:

上一页 1 2 345 6 7 下一页

在此页中阅读全文

我们的赞助商

评论

目前还没有人发表评论, 大家都在期待您的高见

发表评论

相关功能

新闻