SeePhys基准揭示AI物理图像理解短板,顶尖模型准确率不足55%

[复制链接]
周大 发表于 2025-5-29 13:56:25 | 显示全部楼层 |阅读模式
中山大学等机构联合推出开源多模态物理推理基准SeePhys,覆盖从初中到博士资格考试的全谱系物理问题,包含2000道题目和2245张图表。实验评估显示,即使是最先进的模型(如Gemini-2.5-Pro),其准确率也不足55%,暴露出多模态推理的巨大挑战。研究发现,模型在视觉-文本对齐能力、特定图表识别及逻辑推理方面存在明显缺陷。团队归纳出9种错误推理模式,并指出知识注入的边际效应。SeePhys正在ICML 2025 Workshop中开放评估,旨在推动AI在物理图像理解领域的进步。
来源:https://mp.weixin.qq.com/s/LXf7pSyRIvj1LlvwRBJuUw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-9 00:03 , Processed in 0.295675 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表