RewardMap: 通过多阶段强化学习解决细粒度视觉推理的Sparse Reward

[复制链接]
周大 发表于 2025-10-21 14:32:57 | 显示全部楼层 |阅读模式
西湖大学ENCODE Lab联合多所高校提出RewardMap,一种针对多模态大模型在高分辨率地图推理中表现不佳的多阶段强化学习框架。针对传统方法因奖励稀疏导致训练不稳的问题,RewardMap引入难度感知的细粒度奖励机制,并构建含4018个样本、覆盖30城的ReasonMap-Plus数据集进行课程式训练。实验显示,该方法在多个基准上一致提升性能,最高在SpatialEval上增益13.51%,显著减少“看错线”“重复路线”等幻觉现象,为复杂视觉理解任务提供了可复用的训练范式。
来源:https://mp.weixin.qq.com/s/jTnrxfZ7Secq1-ZO1mDMyg

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-9 12:28 , Processed in 0.286453 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表