腾讯上海交大团队推出12.1万高难度数学题DeepTheorem,显著提升AI定理证明性能

[复制链接]
周大 发表于 前天 13:37 | 显示全部楼层 |阅读模式
DeepTheorem是由腾讯AI Lab与上海交大联合推出的首个自然语言数学定理证明框架,包含12.1万道IMO级难度题目,规模与难度领先现有数据集。通过强化学习训练,DeepTheorem-7B模型性能超越多个开源及商业模型(如Claude3.7)。该框架提供三个测试集(FIMO、HMMT、PutnamBench)及全面评价指标,实验表明其在同规模模型中达SOTA水平,为AI数学推理开辟新方向。
来源:https://mp.weixin.qq.com/s/13CZeHrN-ZMI3hyhEm_Xkg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-8 13:42 , Processed in 0.272902 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表