小米AI新论文!雷军千万年薪要挖的DeepSeek天才少女署名

[复制链接]
周大 发表于 2025-10-16 14:57:57 | 显示全部楼层 |阅读模式
** 小米与北京大学联合发表论文,提出新方法Rollout Routing Replay(R3)以解决MoE大模型在强化学习训练中的不稳定性问题。实验显示,R3可将训练-推理KL散度从1.5×10⁻³降至7.5×10⁻⁴,极端token比例减少一个量级,且所有采用R3的训练组合均未发生崩盘,而对比方法在百步内即崩溃。在数学推理任务中,GRPO+R3得分最高提升达9.6分。该方法通过重放推理路由分布对齐训练过程,适用于多种强化学习场景,为MoE模型训练提供了有效新路径。
来源:https://tech.ifeng.com/c/8nUjMIj6JXW

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-9 15:36 , Processed in 0.270854 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表