合成数据>人工数据,绝对性能暴涨超10个点!仅需任务定义,高效微调大模型

[复制链接]
周大 发表于 昨天 14:35 | 显示全部楼层 |阅读模式
北京大学与MIT等机构联合提出「合成数据强化学习」(Synthetic Data RL)框架,旨在减少大模型对人工标注数据的依赖。该方法通过知识引导生成、难度自适应调整及高潜力样本筛选三阶段流程,自动构建高质量训练数据,并结合强化学习进行微调。实验显示,其在GSM8K数学推理任务中达91.7%准确率,相较基础模型提升近30%,并在MedQA、CFA等专业领域也取得明显进步。在相同数据量下,该方法优于传统监督微调(SFT),并可媲美甚至超越基于人工数据的强化学习(RL)。此外,研究还证实了任务形式掌握的重要性远超实例数量,以及“弱老师”也能训练出“强学生”。该项目已开源代码,为大模型的专业化适配提供高效、低成本的新路径。
来源:https://mp.weixin.qq.com/s/rjNQdHUCZ4YmvRNVveMQ8w

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-25 13:28 , Processed in 0.278721 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表