港科提出新算法革新大模型推理范式:随机策略估值竟成LLM数学推理「神操作」

[复制链接]
周大 发表于 2025-10-31 15:08:17 | 显示全部楼层 |阅读模式
香港科技大学联合阶跃、快手团队提出ROVER,一种基于随机策略价值评估的极简强化学习方法,用于提升大语言模型的数学推理能力。该方法跳过传统策略迭代,无需额外价值网络或参考模型,在AIME24、HMMT25等任务上pass@1最高提升19.1分,pass@256提升16.8,推理多样性平均提升17.6%。实验表明其在多类基准上显著优于PPO、GRPO等主流方法,并展现出更强的探索能力与泛化性能,相关成果已开源。
来源:https://mp.weixin.qq.com/s/4kURevxLskZZ9YyQ6BkYKQ

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-9 06:22 , Processed in 0.313378 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表