质疑DeepSeek-R1、Claude Thinking根本不会推理！苹果争议论文翻车了？

周大发表于 2025-6-9 13:52:00

苹果团队发布论文质疑当前大语言模型（LLM）的推理能力，指出DeepSeek-R1、o3-mini等模型可能仅擅长记忆模式而非真正推理。研究通过可控谜题环境替代传统数学基准测试，揭示推理模型在不同复杂度下的表现：低复杂度时非推理模型更优，中等复杂度时推理模型占优，高复杂度时两者均崩溃。此外，研究发现推理模型存在根本性局限，包括减少推理投入及“过度思考”现象。然而，这一结论引发争议，部分研究者认为模型性能受限于输出token数量而非推理能力，若此观点成立，则苹果的研究意义可能受到质疑。
来源：https://mp.weixin.qq.com/s/Kc6QdjOdfqTlxQpW68UMdA

		自动登录	找回密码
密码			立即注册

课程导航

质疑DeepSeek-R1、Claude Thinking根本不会推理！苹果争议论文翻车了？