北京大学与MIT等机构联合提出「合成数据强化学习」(Synthetic Data RL)框架,旨在减少大模型对人工标注数据的依赖。该方法通过知识引导生成、难度自适应调整及高潜力样本筛选三阶段流程,自动构建高质量训练数据,并结合强化学习进行微调。实验显示,其在GSM8K数学推理任务中达91.7%准确率,相较基础模型提升近30%,并在MedQA、CFA等专业领域也取得明显进步。在相同数据量下,该方法优于传统监督微调(SFT),并可媲美甚至超越基于人工数据的强化学习(RL)。此外,研究还证实了任务形式掌握的重要性远超实例数量,以及“弱老师”也能训练出“强学生”。该项目已开源代码,为大模型的专业化适配提供高效、低成本的新路径。
来源:https://mp.weixin.qq.com/s/rjNQdHUCZ4YmvRNVveMQ8w