景不动人动,MLLM如何面对「移步换景」的真实世界?OST-Bench揭示多模态大模型在线时空理解短板

[复制链接]
周大 发表于 2025-10-14 14:10:56 | 显示全部楼层 |阅读模式
OST-Bench是由多家高校联合推出的在线时空场景理解基准,通过10k条测试数据评估多模态大模型在动态探索中的感知与推理能力。结果显示,主流模型在跨时空推理任务中表现显著低于人类,准确率随步数增加而下降,暴露出长期记忆与复杂推理的短板。研究发现模型常依赖“就地猜测”而非整合历史信息,且空间增强模型未明显改善性能。微调虽提升分数超10%,但难以突破50%准确率,反映当前方法仍停留在“题海战术”。该基准揭示了现有模型在真实场景应用中的关键瓶颈,为未来模型设计提供了方向。
来源:https://mp.weixin.qq.com/s/wyNo5erX7SdjiTbwDt4P-A

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-9 15:26 , Processed in 0.261223 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表