北大腾讯突破奖励模型瓶颈！让AI理解人类偏好，泛化能力比肩GPT-4.1

周大发表于前天 14:52

北京大学等联合团队提出新型奖励模型RewardAnything，通过自然语言原则实现从“死记硬背”到“融会贯通”的范式跃迁。该模型克服传统方法易形成的长度、格式偏见，在RM-Bench测试中表现出色，尤其在抗偏见设置下超越顶尖模型。团队同步发布RABench基准测试，全面评估模型对多样化原则的理解能力。实验表明，RewardAnything可通过简单语言指令定制AI行为，显著提升安全性和生成质量，为LLM对齐提供了更灵活、高效的新路径。
来源：https://mp.weixin.qq.com/s/sJI0TpYnuLQKtwaJdo2t6w

		自动登录	找回密码
密码			立即注册

课程导航

北大腾讯突破奖励模型瓶颈！让AI理解人类偏好，泛化能力比肩GPT-4.1