北大彭一杰教授课题组提出RiskPO，用风险度量优化重塑大模型后训练

周大发表于 2025-10-15 16:17:03

北京大学彭一杰团队提出RiskPO方法，针对大模型后训练中的“均值陷阱”问题，通过引入风险规避机制与MVaR目标函数，强化对难任务的学习。结合“多问题捆绑”策略，有效缓解熵坍缩与稀疏奖励问题。在数学、代码与多模态任务中全面超越GRPO等基线，AIME24上Pass@32提升近7个百分点，且高k值指标优势显著，验证其在真实推理能力上的突破。
来源：https://mp.weixin.qq.com/s/9TbUIT6ed_wOviVU0GuLqg

		自动登录	找回密码
密码			立即注册

课程导航

北大彭一杰教授课题组提出RiskPO，用风险度量优化重塑大模型后训练