RL与LLM结合成重要方向,从后训练到预训练潜力待挖,但道路坎坷

[复制链接]
周大 发表于 前天 14:59 | 显示全部楼层 |阅读模式
LLM 与强化学习(RL)结合正从后训练走向预训练阶段,微软研究院及清华、北大团队提出的 Reinforcement Pre-Training(RPT)方法尝试将强化学习引入预训练过程,通过重构 NTP 任务为推理问题,使模型在部分推理基准中超越更大体量的传统模型。相比依赖大量人工标注数据的监督学习,RL 利用奖励机制降低数据质量要求,但其训练资源消耗大、泛化能力尚待验证仍是主要挑战。当前 RLHF、RLAIF 等后训练技术已较成熟,而预训练阶段的探索仍处于早期,虽具潜力但道路坎坷。
来源:https://mp.weixin.qq.com/s/WvfyaXv4SXFHjAJsu6FXrg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-7-1 16:55 , Processed in 0.269936 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表