AI能否「圣地巡礼」？多模态大模型全新评估基准VIR-Bench来了

周大发表于 2025-10-15 16:11:25

日本研究团队推出多模态评估基准 VIR-Bench，旨在测试 AI 对旅行视频中地理位置与时间顺序的理解能力。该基准基于 200 个日本旅行 vlog 构建，涵盖 3,689 个兴趣点，要求模型还原包含地理层级与移动顺序的结构化行程图。实验显示，现有模型在节点识别和边预测上仍存在明显缺陷，尤其是时序推理能力薄弱，尽管模型规模、地理预训练、思维链和音频输入可提升性能，但整体准确率尚远未达实用水平，揭示了多模态模型在长程时空理解上的重大挑战。
来源：https://mp.weixin.qq.com/s/uXAHAQdaA5EQRhDiMFqlGg

		自动登录	找回密码
密码			立即注册

课程导航

AI能否「圣地巡礼」？多模态大模型全新评估基准VIR-Bench来了