港科提出新算法革新大模型推理范式：随机策略估值竟成LLM数学推理「神操作」

周大发表于 2025-10-31 15:08:17

香港科技大学联合阶跃、快手团队提出ROVER，一种基于随机策略价值评估的极简强化学习方法，用于提升大语言模型的数学推理能力。该方法跳过传统策略迭代，无需额外价值网络或参考模型，在AIME24、HMMT25等任务上pass@1最高提升19.1分，pass@256提升16.8，推理多样性平均提升17.6%。实验表明其在多类基准上显著优于PPO、GRPO等主流方法，并展现出更强的探索能力与泛化性能，相关成果已开源。
来源：https://mp.weixin.qq.com/s/4kURevxLskZZ9YyQ6BkYKQ

		自动登录	找回密码
密码			立即注册

课程导航

港科提出新算法革新大模型推理范式：随机策略估值竟成LLM数学推理「神操作」