景不动人动，MLLM如何面对「移步换景」的真实世界？OST-Bench揭示多模态大模型在线时空理解短板

周大发表于 2025-10-14 14:10:56

OST-Bench是由多家高校联合推出的在线时空场景理解基准，通过10k条测试数据评估多模态大模型在动态探索中的感知与推理能力。结果显示，主流模型在跨时空推理任务中表现显著低于人类，准确率随步数增加而下降，暴露出长期记忆与复杂推理的短板。研究发现模型常依赖“就地猜测”而非整合历史信息，且空间增强模型未明显改善性能。微调虽提升分数超10%，但难以突破50%准确率，反映当前方法仍停留在“题海战术”。该基准揭示了现有模型在真实场景应用中的关键瓶颈，为未来模型设计提供了方向。
来源：https://mp.weixin.qq.com/s/wyNo5erX7SdjiTbwDt4P-A

		自动登录	找回密码
密码			立即注册

课程导航

景不动人动，MLLM如何面对「移步换景」的真实世界？OST-Bench揭示多模态大模型在线时空理解短板