港大等机构实测全球顶尖AI做物理题，均翻车准确率远逊人类专家

周大发表于 2025-5-28 14:52:15

一项由港大、密歇根大学等机构联合开展的研究揭示，尽管当前最先进的AI模型（如GPT-4o、Claude 3.7 Sonnet）在奥数题上表现出色，但在物理推理方面却明显落后于人类专家。研究团队通过名为PHYX的大规模基准测试评估了16个基础模型，该测试包含3000道涉及热力学、电磁学、力学等领域的物理题。结果显示，即便是表现最好的模型准确率也仅为45.8%，远低于人类专家的最低准确率75.6%。研究指出，AI模型主要依赖记忆知识和数学公式，缺乏对物理现象的深度理解，尤其在处理复杂的多步骤推理时表现不佳。错误分析表明，模型普遍存在视觉推理、文本理解及领域知识不足的问题。这一研究凸显了AI在物理推理领域面临的挑战，并为未来模型设计提供了改进方向。
来源：https://tech.ifeng.com/c/8jiRuncLAq6

		自动登录	找回密码
密码			立即注册

课程导航

港大等机构实测全球顶尖AI做物理题，均翻车准确率远逊人类专家