多模态大模型ReasonMap评测:北京杭州地铁图最难,GPT-o3领先但仍不及人类

[复制链接]
周大 发表于 昨天 15:32 | 显示全部楼层 |阅读模式
西湖大学、新加坡国立大学等机构联合提出了ReasonMap,这是首个针对高分辨率地铁图的多模态推理评测基准。该基准通过高分辨率图像(平均5839×5449)和复杂空间推理任务,评估多模态大模型在路径规划和细粒度视觉理解方面的能力。实验结果表明,主流开源模型在跨线路路径规划中常出现混淆或遗漏,而强化学习训练的闭源模型表现更佳,但仍逊色于人类水平。ReasonMap具备高分辨率挑战、难度感知设计及多维度评估体系,能有效揭示模型短板,为未来研究提供重要参考。
来源:https://mp.weixin.qq.com/s/sPJLQtHgl5DZghWLWa_H3Q

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-8 17:37 , Processed in 0.289838 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表