中科院自动化所新方法：用省略号+强化学习助大模型自主按需思考，节省算力

周大发表于 2025-5-28 14:49:33

中国科学院自动化研究所与鹏城实验室提出了名为AutoThink的高效推理策略，旨在解决大语言模型过度思考的问题。该策略通过省略号提示词结合多阶段强化学习，使模型能根据题目难度自主决定思考深度。实验表明，AutoThink在多个数学Benchmark上显著提升了模型性能，同时减少了约10%的Token消耗。其三阶段训练方案有效防止了模式坍缩，并优化了推理长度。尽管存在奖励规避和推理预算不可控等局限性，AutoThink仍展示了强大的适应性和实用性，为未来通用智能演进提供了重要方向。
来源：https://mp.weixin.qq.com/s/qcGrNjIqU1cLSg_31wijJg

		自动登录	找回密码
密码			立即注册

课程导航

中科院自动化所新方法：用省略号+强化学习助大模型自主按需思考，节省算力