华为盘古昇腾原生72B MoE架构,SuperCLUE千亿内模型并列国内第一

[复制链接]
周大 发表于 2025-5-29 13:47:13 | 显示全部楼层 |阅读模式
华为盘古团队推出的分组混合专家模型(MoGE)解决了传统 MoE 中专家负载不均衡的问题,其核心成果盘古 Pro MoE 大模型(72B 总参数、16B 激活参数)在昇腾系列平台上实现了卓越的推理性能(分别达 321 tokens/s 和 1528 tokens/s)。该模型在权威榜单 SuperCLUE 上以 59 分的成绩位居国内同规模模型首位,并在多领域评测中展现出强大的复杂推理能力。通过优化专家负载分布,盘古 Pro MoE 达到近乎理想的资源利用效率,标志着大模型从“参数军备竞赛”向“实效主义”的转变,为企业级应用提供了高效、普惠的智能解决方案。
来源:https://tech.ifeng.com/c/8jjPOPCNLNO

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-9 00:00 , Processed in 0.390933 second(s), 33 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表