SimKO:缓解RLVR训练中的概率过度集中,优化pass@K性能

[复制链接]
周大 发表于 昨天 14:21 | 显示全部楼层 |阅读模式
针对强化学习训练中大型语言模型 pass@K 性能下降的问题,研究团队发现现有 RLVR 方法导致模型概率过度集中于单一推理路径,削弱了探索能力。为此提出 SimKO 算法,通过识别关键节点并实施 top-K 标签平滑与非对称惩罚机制,在多个数学与逻辑推理基准测试中显著提升 pass@K 表现——如在 BBH 上达 92%,同时保持 pass@1 不降,实现了“探索”与“利用”的有效平衡。
来源:https://mp.weixin.qq.com/s/NCAvi6w6JMKlj1AtsJklHw

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-9 03:00 , Processed in 0.335375 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表