顿悟不是玄学！港科大清华等联手：撕开推理黑箱，RL让AI像人思考

周大发表于 2025-10-7 15:44:49

香港科技大学、滑铁卢大学与清华大学等团队联合研究首次揭示，大语言模型在强化学习中通过“先执行后规划”的两阶段分层机制提升推理能力。研究指出，“顿悟时刻”与“长度缩放”实为高层策略发展的体现，并发现当前RL方法因均匀优化所有token而效率低下。基于此，团队提出HICRA算法，聚焦优化稀疏但关键的规划token，在多项基准测试中显著超越GRPO。实验还证实，语义熵比传统指标更能准确反映策略探索进程，为未来高效推理训练提供新方向。
来源：https://mp.weixin.qq.com/s/Ob-xdTKQ--j9k0U_n83gEw

		自动登录	找回密码
密码			立即注册

课程导航

顿悟不是玄学！港科大清华等联手：撕开推理黑箱，RL让AI像人思考