NeurIPS 25 | GRPO进阶版来了,GVPO重构大模型后训练范式

[复制链接]
周大 发表于 2025-10-14 14:04:59 | 显示全部楼层 |阅读模式
作业帮与香港科技大学(广州)在NeurIPS 2025提出GVPO(Group Variance Policy Optimization),一种用于大模型后训练的新方法。该方法通过避免重要性采样解决了GRPO训练不稳定的问题,并在理论上证明存在唯一最优解。实验以Qwen2.5-Math-7B为基座模型,在AIME2024、AMC等五项数学推理任务中表现全面优于GRPO和Dr.GRPO,且对超参数不敏感、支持高效数据复用,展现出更强的稳定性与可扩展性,为大模型后训练提供了兼具理论保障与工程实用性的新范式。
来源:https://mp.weixin.qq.com/s/mhv0bo0PEB67jbUkZU3sXg

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-9 15:27 , Processed in 0.335979 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表