腾讯发布超低成本AI训练法!120元效果秒杀70000元微调方案

[复制链接]
周大 发表于 2025-10-15 16:57:14 | 显示全部楼层 |阅读模式
腾讯优图提出无需微调的“无训练GRPO”方法,通过构建外部经验库优化大模型行为。实验显示,该方法在仅用100个样本、成本约18美元的情况下,使DeepSeek-V3.1-Terminus在数学推理任务上最高提升5.4%,网页搜索Pass@1得分提升至68.6%,显著优于传统高成本微调方案,且适用于高能力模型的跨领域性能增强。
来源:https://mp.weixin.qq.com/s/M6AR3py1zTm26QMQq_L3Zg

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-9 15:38 , Processed in 0.286259 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表