改变强化学习范式，Meta新作呼应Sutton「经验时代」预言

周大发表于 2025-10-13 15:15:20

Meta联合研究团队提出“早期经验”学习范式，通过隐式世界建模与自我反思，使语言智能体能从自身行为后果中学习，无需依赖外部奖励。该方法将任务成功率提升9.6%，分布外泛化能力提升9.4%，在多步推理与开放环境中表现突出，为AI从数据驱动向经验驱动过渡提供了可行路径，并有望提升后续强化学习的上限性能。
来源：https://mp.weixin.qq.com/s/L1l6YAq0D9VsBsbiYf0-FA

		自动登录	找回密码
密码			立即注册

课程导航

改变强化学习范式，Meta新作呼应Sutton「经验时代」预言