虚假奖励信号显著提升Qwen模型性能,数学推理能力增益达25%,颠覆传统RLVR认知

[复制链接]
周大 发表于 2025-5-29 14:18:14 | 显示全部楼层 |阅读模式
华盛顿大学研究发现,即使使用虚假或随机奖励信号,Qwen2.5-Math模型在RLVR训练下仍能显著提升数学推理性能,MATH-500准确率提升约25%。研究表明,性能提升源于激活预训练中的代码推理能力,而非奖励信号正确性。然而,该现象仅适用于Qwen系列模型,其他模型表现平平甚至下降。研究提示,未来RLVR研究需关注跨模型验证,避免单一模型导向。
来源:https://mp.weixin.qq.com/s/J54SU9M-h8v2Mz2AJdXJXA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-9 00:04 , Processed in 0.301209 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表