-
日期: 2025-06-16 | 来源: 新智元 | 有0人参与评论 | 字体: 小 中 大
比起AdamW优化器,Muon在多个任务中,表现非常惊艳。
在CIFAR-10中,它将达到94%准确率的训练时间从3.3缩短至2.6 A100 秒,提升约21%。
针对NanoGPT训练,Muon在FineWeb数据集上,将验证损失达到3.28训练速度提升了1.35倍。
此外,在774M和1.5B参数规模的模型上,Muon依旧保持训练速度优势。
训练一个1.5B参数的Transformer模型达到GPT-2 XL水平,Muon仅需10个8xH100小时,而AdamW需要13.3小时,效率提升约25%。
那么,在AI圈,Muon的影响力有多大?
微软团队1月份论文中,便使用了Muon优化器。
一些机器学习大佬专为此着分析,还有更多研究中拥抱Muon优化器。- 新闻来源于其它媒体,内容不代表本站立场!
-
原文链接
原文链接:
目前还没有人发表评论, 大家都在期待您的高见