模型遗忘不代表记忆抹除!首次系统发现「可逆性遗忘」背后规律

[复制链接]
周大 发表于 昨天 14:36 | 显示全部楼层 |阅读模式
研究人员发现,大语言模型的遗忘不仅仅是行为上的抑制,而是涉及深层次的结构变化。通过构建表示空间分析工具(如PCA相似度、CKA、Fisher信息矩阵),研究团队首次系统性地区分了可逆遗忘与不可逆遗忘的本质差异。研究表明,当前基于token级别的评估方法无法充分反映模型遗忘的真实情况。实验结果表明,持续遗忘的风险远高于单次操作,部分方法(如GA、RLabel)容易导致灾难性遗忘,而GA+KL、NPO等方法则更具稳定性。此外,研究还揭示了遗忘可能带来隐式增强效果,为未来设计可控、局部、不可逆的安全遗忘机制提供了理论支持。
来源:https://mp.weixin.qq.com/s/V2M5w0ImgIKT5kPmsLjz1Q

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-15 20:01 , Processed in 0.273300 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表