模型遗忘不代表记忆抹除！首次系统发现「可逆性遗忘」背后规律

周大发表于 2025-6-14 14:36:18

研究人员发现，大语言模型的遗忘不仅仅是行为上的抑制，而是涉及深层次的结构变化。通过构建表示空间分析工具（如PCA相似度、CKA、Fisher信息矩阵），研究团队首次系统性地区分了可逆遗忘与不可逆遗忘的本质差异。研究表明，当前基于token级别的评估方法无法充分反映模型遗忘的真实情况。实验结果表明，持续遗忘的风险远高于单次操作，部分方法（如GA、RLabel）容易导致灾难性遗忘，而GA+KL、NPO等方法则更具稳定性。此外，研究还揭示了遗忘可能带来隐式增强效果，为未来设计可控、局部、不可逆的安全遗忘机制提供了理论支持。
来源：https://mp.weixin.qq.com/s/V2M5w0ImgIKT5kPmsLjz1Q

		自动登录	找回密码
密码			立即注册

课程导航

模型遗忘不代表记忆抹除！首次系统发现「可逆性遗忘」背后规律