大模型微调范式认知再被颠覆?UIUC、Amazon团队最新研究指出SFT灾难性遗忘问题或被误解

[复制链接]
周大 发表于 2025-10-21 14:35:20 | 显示全部楼层 |阅读模式
一项由 UIUC、Amazon 等机构联合开展的研究挑战了“领域 SFT 必然导致大模型遗忘通用能力”的普遍认知。通过对 MedCalc、ESCI 和 MetaMathQA 等多个真实场景数据集(涵盖医疗、电商、数学推理)的系统实验,研究发现采用更小的学习率(如 1e-6 至 5e-6)可在几乎不牺牲领域性能的前提下,显著缓解模型在指令跟随、数学与代码生成等通用任务上的性能退化。理论分析指出,小学习率能限制通用能力下降的上界,而训练目标是否包含推理链也影响学习率容忍度。针对高学习率下的遗忘问题,团队提出 TALR 方法,通过自适应降低低置信度 token 的损失权重,在 Qwen 等多种开源模型上展现出优于 LoRA、L2 正则等方法的平衡能力。研究表明,灾难性遗忘更多源于训练策略而非 SFT 本身,重申了 SFT 作为大模型微调地基的重要性,并为未来领域适配提供了新思路。
来源:https://mp.weixin.qq.com/s/29pDMmX821Z10yFPFZ-5Ng

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-9 12:36 , Processed in 0.289322 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表