顿悟不是玄学!港科大清华等联手:撕开推理黑箱,RL让AI像人思考

[复制链接]
周大 发表于 2025-10-7 15:44:49 | 显示全部楼层 |阅读模式
香港科技大学、滑铁卢大学与清华大学等团队联合研究首次揭示,大语言模型在强化学习中通过“先执行后规划”的两阶段分层机制提升推理能力。研究指出,“顿悟时刻”与“长度缩放”实为高层策略发展的体现,并发现当前RL方法因均匀优化所有token而效率低下。基于此,团队提出HICRA算法,聚焦优化稀疏但关键的规划token,在多项基准测试中显著超越GRPO。实验还证实,语义熵比传统指标更能准确反映策略探索进程,为未来高效推理训练提供新方向。
来源:https://mp.weixin.qq.com/s/Ob-xdTKQ--j9k0U_n83gEw

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-9 22:27 , Processed in 0.286022 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表