苹果炮轰推理模型全是假思考!4个游戏戳破神话,o3/DeepSeek高难度全崩溃

[复制链接]
周大 发表于 8 小时前 | 显示全部楼层 |阅读模式
苹果发布的最新大模型论文引发热议,研究指出当前推理模型并未真正具备思考能力,而只是进行模式匹配。团队通过设计汉诺塔、跳棋交换等四类可控难度的谜题环境测试发现,模型在不同复杂度下的表现呈现三阶段特征:低复杂度时标准模型更优,中复杂度时思考模型占优,高复杂度时所有模型均崩溃。此外,“推理努力反向缩放”现象表明模型存在内在扩展限制。研究呼吁改进推理能力评估方式,关注中间步骤质量。与此同时,苹果在大模型领域的进展备受质疑,其多项功能因技术问题被推迟或下架,内部资源分配与管理思维问题成为发展瓶颈。尽管如此,苹果仍可能延续其打磨后再推出的策略,未来或推出更具竞争力的产品。
来源:https://mp.weixin.qq.com/s/WRPjXZRm4QRGOUzsJ4FxGA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-8 23:50 , Processed in 0.264474 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表