只要强化学习1/10成本!翁荔的Thinking Machines盯上了Qwen的黑科技

[复制链接]
周大 发表于 2025-10-28 15:17:25 | 显示全部楼层 |阅读模式
Thinking Machines 提出“同策略蒸馏”新方法,结合强化学习的策略相关性与模型蒸馏的数据效率,在 Qwen 模型上的实验显示,该方法仅用强化学习十分之一的成本即在 AIME'24 数学基准上达到74.4%的准确率。相比监督微调,其计算成本可降低9–30倍,且能有效应对灾难性遗忘,支持持续学习与行为恢复。研究还表明,其学习效率较强化学习提升50–100倍,并可在单一提示词上实现高效训练。相关代码已在 Tinker 平台开放,便于复现。
来源:https://mp.weixin.qq.com/s/RZc3qg0KeakTa-kf6c0jVg

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-9 06:22 , Processed in 0.296199 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表