大模型推理学习新范式!ExGRPO框架:从盲目刷题到聪明复盘

[复制链接]
周大 发表于 2025-10-23 15:08:34 | 显示全部楼层 |阅读模式
来自上海人工智能实验室等机构的研究团队提出ExGRPO框架,通过系统性管理大模型在强化学习中的高价值经验,解决传统方法存在的“经验浪费”问题。该框架基于问题难度(中等为最优)和推理路径质量(低熵为佳)筛选优质经验,构建可复用的“错题本”,并采用混合策略平衡新任务探索与旧经验学习。实验表明,在6类不同模型上,ExGRPO相较传统方法平均提升+3.5至+7.6个百分点,尤其在AIME等复杂推理任务中表现突出,还能稳定训练弱模型并避免错误逻辑累积,为高效、稳定的AI推理训练提供了新路径。
来源:https://mp.weixin.qq.com/s/oSQQmoz2X5gR8mvMnNkEtQ

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-9 09:34 , Processed in 0.277167 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表