仅凭一篇博客,他成功入职OpenAI! | 新闻 | 手机版本

仅凭一篇博客,他成功入职OpenAI!

日期: 2025-06-16 | 来源: 新智元 | 有0人参与评论 | 字体: 小中大
比起AdamW优化器，Muon在多个任务中，表现非常惊艳。

在CIFAR-10中，它将达到94%准确率的训练时间从3.3缩短至2.6 A100 秒，提升约21%。

针对NanoGPT训练，Muon在FineWeb数据集上，将验证损失达到3.28训练速度提升了1.35倍。

此外，在774M和1.5B参数规模的模型上，Muon依旧保持训练速度优势。

训练一个1.5B参数的Transformer模型达到GPT-2 XL水平，Muon仅需10个8xH100小时，而AdamW需要13.3小时，效率提升约25%。

那么，在AI圈，Muon的影响力有多大？

微软团队1月份论文中，便使用了Muon优化器。

一些机器学习大佬专为此着分析，还有更多研究中拥抱Muon优化器。
- 新闻来源于其它媒体，内容不代表本站立场！
原文链接
原文链接:

上一页 1 2 3 456 7 下一页

在此页中阅读全文

我们的赞助商

评论

目前还没有人发表评论, 大家都在期待您的高见

发表评论

相关功能

新闻