浙大等联合发布ViewSpatial-Bench:5700问答对全面评估AI多视角空间推理能力

[复制链接]
周大 发表于 6 天前 | 显示全部楼层 |阅读模式
浙江大学等研究团队提出了首个评估视觉语言大模型(VLMs)多视角空间推理能力的基准体系——ViewSpatial-Bench,涵盖五种任务类型,包含5700个问答对。实验表明,当前主流VLMs如GPT-4o、Qwen2.5-VL等在多视角空间推理任务中表现欠佳,尤其是在人物面朝方向判断上准确率仅为25.6%。为解决这一问题,团队开发了Multi-View Spatial Model(MVSM),通过约43000个高质量样本的训练,在ViewSpatial-Bench上实现了46.24%的性能提升,并在实际场景中展现出优异的空间推理能力。该研究为AI系统获得类人空间认知能力提供了重要路径。
来源:https://mp.weixin.qq.com/s/LOtgY5OZjln9Wg3qzV7FuQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-8 17:50 , Processed in 0.282090 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表