Thinking Machine新研究刷屏!结合RL+微调优势,小模型训练更具性价比了

[复制链接]
周大 发表于 2025-10-28 15:12:39 | 显示全部楼层 |阅读模式
Thinking Machine提出在线策略蒸馏方法,融合在线探索与离线监督优势,仅用约150步训练便使8B模型数学能力显著提升,计算成本降低7-30倍;同时有效缓解“灾难性遗忘”,在保持新知识学习的同时恢复通用能力,为高效小模型训练与终身学习提供可行路径。
来源:https://mp.weixin.qq.com/s/2-PZBbqpOOcWQzQru4oCjg

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-9 06:14 , Processed in 0.267930 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表