Sakana AI发布AI数独测试:大模型9x9数独正确率仅2.9%,变异数独难倒AI

[复制链接]
周大 发表于 2025-5-28 15:03:32 | 显示全部楼层 |阅读模式
Sakana AI推出全新基准Sudoku-Bench,用于测试AI模型解决数独问题的能力。该基准涵盖4x4至9x9难度的数独问题,强调创造性推理能力。测试结果表明,大模型总体正确率仅为15%,在复杂9x9数独中表现尤其不佳(如o3 Mini High正确率仅2.9%)。这反映了大模型存在的“记忆依赖症”,即依赖训练数据中的固定模式而非逻辑推理。Sudoku-Bench通过“变异数独”提供更严格的测试环境,成为评估AI推理能力的重要工具。该项目在2025 NVIDIA GTC开发者大会上亮相,获NVIDIA CEO黄仁勋肯定。Sakana AI由Transformer作者Llion Jones创立,此前已发布多项创新成果,包括AI科学家和连续思维机器(CTM)。
来源:https://mp.weixin.qq.com/s/2CuZyE4YMs7xD8HK7cf5xQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-9 06:17 , Processed in 0.281861 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表