华为盘古团队发布Pangu Ultra MoE架构,实现准万亿MoE大模型全流程在昇腾NPU上稳定训练

[复制链接]
周大 发表于 2025-5-29 14:29:23 | 显示全部楼层 |阅读模式
华为盘古团队发布参数规模达718B的准万亿MoE模型Pangu Ultra MoE,通过创新架构与训练方法实现了超大规模MoE模型在效果与效率间的平衡。该模型引入DSSN稳定架构与TinyInit初始化方法,显著降低梯度突刺率,支持长期稳定训练。同时,团队提出EP group loss优化负载均衡,促进专家特化能力,并结合MLA注意力机制与MTP多头扩展策略提升推理效率。此外,模型针对昇腾硬件特性进行深度优化,采用强化学习系统解决训练中的“跷跷板”问题,最终在多个权威评测中展现一流效果,标志着超大规模MoE模型训练的重大突破。
来源:https://mp.weixin.qq.com/s/mDSMsZjDuSl5qcWckFSXrA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-9 00:34 , Processed in 0.287211 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表