小米AI新论文！雷军千万年薪要挖的DeepSeek天才少女署名

周大发表于 2025-10-16 14:57:57

** 小米与北京大学联合发表论文，提出新方法Rollout Routing Replay（R3）以解决MoE大模型在强化学习训练中的不稳定性问题。实验显示，R3可将训练-推理KL散度从1.5×10⁻³降至7.5×10⁻⁴，极端token比例减少一个量级，且所有采用R3的训练组合均未发生崩盘，而对比方法在百步内即崩溃。在数学推理任务中，GRPO+R3得分最高提升达9.6分。该方法通过重放推理路由分布对齐训练过程，适用于多种强化学习场景，为MoE模型训练提供了有效新路径。
来源：https://tech.ifeng.com/c/8nUjMIj6JXW

		自动登录	找回密码
密码			立即注册

课程导航

小米AI新论文！雷军千万年薪要挖的DeepSeek天才少女署名