大模型在具身推理上「翻车」了?4496 道题全面揭示短板

[复制链接]
周大 发表于 2025-10-28 15:18:51 | 显示全部楼层 |阅读模式
美国东北大学联合港中文、哈佛提出BEAR基准,系统评估多模态大语言模型(MLLM)在具身智能中的14项细粒度技能表现。基于4,469个图文视频VQA样本,实验显示当前最优模型GPT-5仅获52%准确率,暴露出视觉理解与3D空间推理等核心短板。研究发现Chain-of-thought提示可能降低性能,且底层感知错误占长程任务失败的88%。为此提出的BEAR-Agent通过辅助工具显著提升模型表现,并在仿真环境中实现MOKA指标20.17%的增长,为具身智能发展提供新路径。
来源:https://mp.weixin.qq.com/s/7vyXIIHjl92alYEJpQ3UXw

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-9 06:22 , Processed in 0.303428 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表