港大等机构实测全球顶尖AI做物理题,均翻车准确率远逊人类专家

[复制链接]
周大 发表于 2025-5-28 14:52:15 | 显示全部楼层 |阅读模式
一项由港大、密歇根大学等机构联合开展的研究揭示,尽管当前最先进的AI模型(如GPT-4o、Claude 3.7 Sonnet)在奥数题上表现出色,但在物理推理方面却明显落后于人类专家。研究团队通过名为PHYX的大规模基准测试评估了16个基础模型,该测试包含3000道涉及热力学、电磁学、力学等领域的物理题。结果显示,即便是表现最好的模型准确率也仅为45.8%,远低于人类专家的最低准确率75.6%。研究指出,AI模型主要依赖记忆知识和数学公式,缺乏对物理现象的深度理解,尤其在处理复杂的多步骤推理时表现不佳。错误分析表明,模型普遍存在视觉推理、文本理解及领域知识不足的问题。这一研究凸显了AI在物理推理领域面临的挑战,并为未来模型设计提供了改进方向。
来源:https://tech.ifeng.com/c/8jiRuncLAq6

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-9 06:27 , Processed in 0.285262 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表