北大腾讯突破奖励模型瓶颈!让AI理解人类偏好,泛化能力比肩GPT-4.1

[复制链接]
周大 发表于 前天 14:52 | 显示全部楼层 |阅读模式
北京大学等联合团队提出新型奖励模型RewardAnything,通过自然语言原则实现从“死记硬背”到“融会贯通”的范式跃迁。该模型克服传统方法易形成的长度、格式偏见,在RM-Bench测试中表现出色,尤其在抗偏见设置下超越顶尖模型。团队同步发布RABench基准测试,全面评估模型对多样化原则的理解能力。实验表明,RewardAnything可通过简单语言指令定制AI行为,显著提升安全性和生成质量,为LLM对齐提供了更灵活、高效的新路径。
来源:https://mp.weixin.qq.com/s/sJI0TpYnuLQKtwaJdo2t6w

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-28 12:59 , Processed in 0.285183 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表