大模型推理学习新范式！ExGRPO框架：从盲目刷题到聪明复盘

周大发表于 2025-10-23 15:08:34

来自上海人工智能实验室等机构的研究团队提出ExGRPO框架，通过系统性管理大模型在强化学习中的高价值经验，解决传统方法存在的“经验浪费”问题。该框架基于问题难度（中等为最优）和推理路径质量（低熵为佳）筛选优质经验，构建可复用的“错题本”，并采用混合策略平衡新任务探索与旧经验学习。实验表明，在6类不同模型上，ExGRPO相较传统方法平均提升+3.5至+7.6个百分点，尤其在AIME等复杂推理任务中表现突出，还能稳定训练弱模型并避免错误逻辑累积，为高效、稳定的AI推理训练提供了新路径。
来源：https://mp.weixin.qq.com/s/oSQQmoz2X5gR8mvMnNkEtQ

		自动登录	找回密码
密码			立即注册

课程导航

大模型推理学习新范式！ExGRPO框架：从盲目刷题到聪明复盘