只要强化学习1/10成本！翁荔的Thinking Machines盯上了Qwen的黑科技

周大发表于 2025-10-28 15:17:25

Thinking Machines 提出“同策略蒸馏”新方法，结合强化学习的策略相关性与模型蒸馏的数据效率，在 Qwen 模型上的实验显示，该方法仅用强化学习十分之一的成本即在 AIME'24 数学基准上达到74.4%的准确率。相比监督微调，其计算成本可降低9–30倍，且能有效应对灾难性遗忘，支持持续学习与行为恢复。研究还表明，其学习效率较强化学习提升50–100倍，并可在单一提示词上实现高效训练。相关代码已在 Tinker 平台开放，便于复现。
来源：https://mp.weixin.qq.com/s/RZc3qg0KeakTa-kf6c0jVg

		自动登录	找回密码
密码			立即注册

课程导航

只要强化学习1/10成本！翁荔的Thinking Machines盯上了Qwen的黑科技