Thinking Machine新研究刷屏！结合RL+微调优势，小模型训练更具性价比了

周大发表于 2025-10-28 15:12:39

Thinking Machine提出在线策略蒸馏方法，融合在线探索与离线监督优势，仅用约150步训练便使8B模型数学能力显著提升，计算成本降低7-30倍；同时有效缓解“灾难性遗忘”，在保持新知识学习的同时恢复通用能力，为高效小模型训练与终身学习提供可行路径。
来源：https://mp.weixin.qq.com/s/2-PZBbqpOOcWQzQru4oCjg

		自动登录	找回密码
密码			立即注册

课程导航

Thinking Machine新研究刷屏！结合RL+微调优势，小模型训练更具性价比了