华人团队提出InFOM新方法实现RL预训练突破,在复杂任务中性能提升最高达20倍

[复制链接]
周大 发表于 前天 15:02 | 显示全部楼层 |阅读模式
加州大学伯克利分校团队提出新型强化学习方法InFOM,结合流匹配与意图感知的占据模型,不依赖奖励信号即可实现跨任务迁移。该方法通过潜在变量编码用户意图,并利用流匹配预测多步未来状态,提升了在稀疏奖励任务中的表现。实验显示,在ExORL和OGBench基准测试中,InFOM在多数任务上优于现有方法,其中Jaco任务性能提升达20倍,成功率较最佳基线提高36%。相比传统无监督技能发现方法,InFOM结构更简洁、训练更高效,展现出在复杂意图推理任务中的潜力。
来源:https://mp.weixin.qq.com/s/WyJuhjkmreZ2clSw1XvHiw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-7-1 15:30 , Processed in 0.280661 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表