小米最新大模型成果!罗福莉现身了

[复制链接]
周大 发表于 2025-10-17 14:06:54 | 显示全部楼层 |阅读模式
小米AI与北京大学联合发布新研究,提出名为R3(Rollout Routing Replay)的方法,用于提升MoE架构下大模型强化学习的稳定性与效率。该方法通过重放推理阶段的路由分布,缓解因路由不一致导致的训练崩溃问题,并结合路由掩码缓存优化计算效率。基于Qwen3-30B-A3B模型的实验表明,R3在性能上优于基线方法,GRPO+R3得分提升1.29分,且训练至150步仍保持稳定。研究由小米研究员马文瀚与北大教授穗志方、前DeepSeek研究员罗福莉共同完成,后者以“独立研究者”身份署名,引发关注。
来源:https://mp.weixin.qq.com/s/LdKD6MHn2MlqJWjVEAtHOA

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-9 12:36 , Processed in 0.284547 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表