北大彭一杰教授课题组提出RiskPO,用风险度量优化重塑大模型后训练

[复制链接]
周大 发表于 2025-10-15 16:17:03 | 显示全部楼层 |阅读模式
北京大学彭一杰团队提出RiskPO方法,针对大模型后训练中的“均值陷阱”问题,通过引入风险规避机制与MVaR目标函数,强化对难任务的学习。结合“多问题捆绑”策略,有效缓解熵坍缩与稀疏奖励问题。在数学、代码与多模态任务中全面超越GRPO等基线,AIME24上Pass@32提升近7个百分点,且高k值指标优势显著,验证其在真实推理能力上的突破。
来源:https://mp.weixin.qq.com/s/9TbUIT6ed_wOviVU0GuLqg

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-9 15:25 , Processed in 0.297996 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表