为什么用错奖励,模型也能提分?新研究:模型学的不是新知识,是思维

[复制链接]
周大 发表于 8 小时前 | 显示全部楼层 |阅读模式
人大与腾讯的研究团队发现,语言模型在强化学习中对奖励噪声具有较强鲁棒性。实验表明,模型表现的提升更多依赖于高质量的思考过程,而非奖励的绝对准确性。通过设计简单的 Reasoning Pattern Reward (RPR) 机制,仅奖励模型输出中的关键思考词,Qwen-2.5-7B 在数学任务上的准确率显著提高。此外,研究发现当奖励模型准确率超过 75%,语言模型能容忍一定噪声;但低于此阈值时,训练效果会明显下降。团队还提出通过 RPR 校准奖励模型,有效提升了低准确率奖励模型的表现,并解决了小模型在复杂任务中的训练崩溃问题。研究强调,强化学习主要改变模型输出风格,而预训练阶段的能力仍是下游任务性能的关键瓶颈。
来源:https://mp.weixin.qq.com/s/gJYfFvNHg3O8ACFGns_tYA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-8 23:50 , Processed in 0.279636 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表