华为盘古昇腾原生72B MoE架构，SuperCLUE千亿内模型并列国内第一

周大发表于 2025-5-29 13:47:13

华为盘古团队推出的分组混合专家模型（MoGE）解决了传统 MoE 中专家负载不均衡的问题，其核心成果盘古 Pro MoE 大模型（72B 总参数、16B 激活参数）在昇腾系列平台上实现了卓越的推理性能（分别达 321 tokens/s 和 1528 tokens/s）。该模型在权威榜单 SuperCLUE 上以 59 分的成绩位居国内同规模模型首位，并在多领域评测中展现出强大的复杂推理能力。通过优化专家负载分布，盘古 Pro MoE 达到近乎理想的资源利用效率，标志着大模型从“参数军备竞赛”向“实效主义”的转变，为企业级应用提供了高效、普惠的智能解决方案。
来源：https://tech.ifeng.com/c/8jjPOPCNLNO

		自动登录	找回密码
密码			立即注册

课程导航

华为盘古昇腾原生72B MoE架构，SuperCLUE千亿内模型并列国内第一