清华腾讯斯坦福联合研究:多模态大模型视觉推理能力远不及人类,o3仅25.8%

[复制链接]
周大 发表于 2025-5-28 15:01:37 | 显示全部楼层 |阅读模式
来自清华大学、腾讯混元等机构的研究团队发布了RBench-V,一款专为评估大模型视觉推理能力设计的基准测试。该测试涵盖几何、物理等领域,要求模型通过“画图”辅助推理。结果显示,即使是最强模型o3准确率仅为25.8%,远低于人类的82.3%。研究指出,当前模型在图像输出和空间直觉方面存在明显短板,需借助多模态思维链等方法实现突破。
来源:https://mp.weixin.qq.com/s/FdgQbOieFVGGDnlZ0AKrog

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-9 05:57 , Processed in 0.284206 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表