微软联合清华北大推出奖励推理模型RRM，可动态分配计算资源提升AI任务评估效果

周大发表于 2025-5-28 14:20:19

微软研究院与清华大学、北京大学合作推出奖励推理模型（RRMs），通过“思维链”推理动态分配计算资源，解决现有奖励模型在复杂任务中评估效果不佳的问题。RRMs 基于 Qwen2 模型，采用 Transformer-decoder 架构，将奖励建模转化为文本补全任务。测试表明，RRM-32B 在 RewardBench 和 PandaLM Test 中达到 98.6% 的推理准确率，显著优于传统标量奖励模型。此外，RRMs 支持多响应评估，结合 ELO 评分和多数投票机制提升资源利用效率，为强化学习提供了高效解决方案。
来源：https://tech.ifeng.com/c/8jhGnaPljez

		自动登录	找回密码
密码			立即注册

课程导航

微软联合清华北大推出奖励推理模型RRM，可动态分配计算资源提升AI任务评估效果