港理工等团队揭示大模型“伪遗忘”:真正遗忘是结构抹除,非行为抑制

[复制链接]
周大 发表于 7 天前 | 显示全部楼层 |阅读模式
研究团队通过构建表示空间诊断工具,揭示大语言模型遗忘现象背后的结构变化规律。实验表明,真正的遗忘需多层网络协同扰动,而轻微更新仅导致可逆遗忘。持续遗忘风险远高于单次操作,部分方法(如GA+KL、NPO)更稳定。此外,遗忘可能带来隐式增强效果,Relearning后模型表现优于初始状态。该研究为实现可控、局部、不可逆的安全遗忘机制提供了新思路。
来源:https://mp.weixin.qq.com/s/85OjG7m1yJmCLTN6TFI-Cg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-8 19:41 , Processed in 0.289890 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表