英伟达ProRL框架揭示RL Scaling魔力,小模型通过长期训练突破推理极限

[复制链接]
周大 发表于 4 天前 | 显示全部楼层 |阅读模式
NVIDIA 提出的 ProRL 框架通过大幅延长 RL 训练步数(超过 2000 步),显著提升了小模型的推理能力。研究表明,ProRL 不仅能让模型解答原本完全无法完成的任务,还能在数学、代码生成和逻辑推理等任务中分别实现 14.7%、6.5% 和 54.8% 的性能提升。此外,研究揭示 RL 的增益与基础模型初始表现呈负相关,对预训练数据覆盖不足的任务效果更明显。通过多样化奖励机制、改进算法组合以及 KL 正则化等技术,ProRL 实现了更稳定和高效的训练流程,为开发低成本、高性能的小模型提供了新思路。
来源:https://mp.weixin.qq.com/s/RmeTW83hjTQYJLpl435o6A

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-8 17:34 , Processed in 0.299609 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表