小米最新大模型成果！罗福莉现身了

周大发表于 2025-10-17 14:06:54

小米AI与北京大学联合发布新研究，提出名为R3（Rollout Routing Replay）的方法，用于提升MoE架构下大模型强化学习的稳定性与效率。该方法通过重放推理阶段的路由分布，缓解因路由不一致导致的训练崩溃问题，并结合路由掩码缓存优化计算效率。基于Qwen3-30B-A3B模型的实验表明，R3在性能上优于基线方法，GRPO+R3得分提升1.29分，且训练至150步仍保持稳定。研究由小米研究员马文瀚与北大教授穗志方、前DeepSeek研究员罗福莉共同完成，后者以“独立研究者”身份署名，引发关注。
来源：https://mp.weixin.qq.com/s/LdKD6MHn2MlqJWjVEAtHOA

		自动登录	找回密码
密码			立即注册

课程导航

小米最新大模型成果！罗福莉现身了