多模态大模型ReasonMap评测：北京杭州地铁图最难，GPT-o3领先但仍不及人类

周大发表于 2025-6-7 15:32:25

西湖大学、新加坡国立大学等机构联合提出了ReasonMap，这是首个针对高分辨率地铁图的多模态推理评测基准。该基准通过高分辨率图像（平均5839×5449）和复杂空间推理任务，评估多模态大模型在路径规划和细粒度视觉理解方面的能力。实验结果表明，主流开源模型在跨线路路径规划中常出现混淆或遗漏，而强化学习训练的闭源模型表现更佳，但仍逊色于人类水平。ReasonMap具备高分辨率挑战、难度感知设计及多维度评估体系，能有效揭示模型短板，为未来研究提供重要参考。
来源：https://mp.weixin.qq.com/s/sPJLQtHgl5DZghWLWa_H3Q

		自动登录	找回密码
密码			立即注册

课程导航

多模态大模型ReasonMap评测：北京杭州地铁图最难，GPT-o3领先但仍不及人类