华为盘古团队发布Pangu Ultra MoE架构，实现准万亿MoE大模型全流程在昇腾NPU上稳定训练

周大发表于 2025-5-29 14:29:23

华为盘古团队发布参数规模达718B的准万亿MoE模型Pangu Ultra MoE，通过创新架构与训练方法实现了超大规模MoE模型在效果与效率间的平衡。该模型引入DSSN稳定架构与TinyInit初始化方法，显著降低梯度突刺率，支持长期稳定训练。同时，团队提出EP group loss优化负载均衡，促进专家特化能力，并结合MLA注意力机制与MTP多头扩展策略提升推理效率。此外，模型针对昇腾硬件特性进行深度优化，采用强化学习系统解决训练中的“跷跷板”问题，最终在多个权威评测中展现一流效果，标志着超大规模MoE模型训练的重大突破。
来源：https://mp.weixin.qq.com/s/mDSMsZjDuSl5qcWckFSXrA

		自动登录	找回密码
密码			立即注册

课程导航

华为盘古团队发布Pangu Ultra MoE架构，实现准万亿MoE大模型全流程在昇腾NPU上稳定训练