专家反驳苹果AI研究结论:大模型推理能力被低估,评估方法存缺陷

[复制链接]
周大 发表于 昨天 14:26 | 显示全部楼层 |阅读模式
苹果发布的AI研究论文《The Illusion of Thinking》引发争议,论文称大型推理模型在复杂任务(如汉诺塔问题)中表现不佳。然而,Open Philanthropy研究员Alex Lawsen提出反驳,认为苹果的结论源于实验设计缺陷,例如忽略模型Token预算限制、测试中加入无解谜题以及评估脚本过于僵硬。为验证观点,Lawsen重新设计测试,要求模型生成递归Lua函数,结果发现多个模型能成功解决更高复杂度问题。这表明,LRMs具备处理高复杂任务的能力,问题可能更多在于评估方法的设计。
来源:https://tech.ifeng.com/c/8kAj9ASY5vG

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-15 18:39 , Processed in 0.285386 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表