中科院自动化所新方法:用省略号+强化学习助大模型自主按需思考,节省算力

[复制链接]
周大 发表于 2025-5-28 14:49:33 | 显示全部楼层 |阅读模式
中国科学院自动化研究所与鹏城实验室提出了名为AutoThink的高效推理策略,旨在解决大语言模型过度思考的问题。该策略通过省略号提示词结合多阶段强化学习,使模型能根据题目难度自主决定思考深度。实验表明,AutoThink在多个数学Benchmark上显著提升了模型性能,同时减少了约10%的Token消耗。其三阶段训练方案有效防止了模式坍缩,并优化了推理长度。尽管存在奖励规避和推理预算不可控等局限性,AutoThink仍展示了强大的适应性和实用性,为未来通用智能演进提供了重要方向。
来源:https://mp.weixin.qq.com/s/qcGrNjIqU1cLSg_31wijJg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-9 06:30 , Processed in 0.302658 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表