只用图像也能思考,强化学习造就推理模型新范式!复杂场景规划能力Max

[复制链接]
周大 发表于 2025-5-25 15:23:15 | 显示全部楼层 |阅读模式
剑桥等机构提出全新“视觉规划”范式,该方法完全基于视觉表示进行推理与规划,避免了传统多模态模型因文本化导致的视觉信息损失。研究团队设计了基于强化学习的视觉规划框架(VPRL),在多个视觉导航任务中超越文本推理模型,特别是在复杂任务中表现更稳健。实验表明,视觉规划范式在精确匹配和进度率指标上显著优于语言驱动方法,展示了其在直观图像推理任务中的巨大潜力。
来源:https://mp.weixin.qq.com/s/KXx1t3jIlhLWu0rlVoQWNA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-9 13:02 , Processed in 0.288632 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表