苹果炮轰推理模型全是假思考！4个游戏戳破神话，o3/DeepSeek高难度全崩溃

周大发表于 2025-6-8 15:05:42

苹果发布的最新大模型论文引发热议，研究指出当前推理模型并未真正具备思考能力，而只是进行模式匹配。团队通过设计汉诺塔、跳棋交换等四类可控难度的谜题环境测试发现，模型在不同复杂度下的表现呈现三阶段特征：低复杂度时标准模型更优，中复杂度时思考模型占优，高复杂度时所有模型均崩溃。此外，“推理努力反向缩放”现象表明模型存在内在扩展限制。研究呼吁改进推理能力评估方式，关注中间步骤质量。与此同时，苹果在大模型领域的进展备受质疑，其多项功能因技术问题被推迟或下架，内部资源分配与管理思维问题成为发展瓶颈。尽管如此，苹果仍可能延续其打磨后再推出的策略，未来或推出更具竞争力的产品。
来源：https://mp.weixin.qq.com/s/WRPjXZRm4QRGOUzsJ4FxGA

		自动登录	找回密码
密码			立即注册

课程导航

苹果炮轰推理模型全是假思考！4个游戏戳破神话，o3/DeepSeek高难度全崩溃