微软联合清华北大推出奖励推理模型RRM,可动态分配计算资源提升AI任务评估效果

[复制链接]
周大 发表于 2025-5-28 14:20:19 | 显示全部楼层 |阅读模式
微软研究院与清华大学、北京大学合作推出奖励推理模型(RRMs),通过“思维链”推理动态分配计算资源,解决现有奖励模型在复杂任务中评估效果不佳的问题。RRMs 基于 Qwen2 模型,采用 Transformer-decoder 架构,将奖励建模转化为文本补全任务。测试表明,RRM-32B 在 RewardBench 和 PandaLM Test 中达到 98.6% 的推理准确率,显著优于传统标量奖励模型。此外,RRMs 支持多响应评估,结合 ELO 评分和多数投票机制提升资源利用效率,为强化学习提供了高效解决方案。
来源:https://tech.ifeng.com/c/8jhGnaPljez

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-9 06:27 , Processed in 0.291297 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表