AI黑化如恶魔附体!LARGO攻心三步,潜意识种子瞬间开花 | NeurIPS 2025

[复制链接]
周大 发表于 2025-10-26 15:00:59 | 显示全部楼层 |阅读模式
哥伦比亚大学与罗格斯大学在NeurIPS 2025提出新型攻击方法LARGO,通过操纵大模型潜在空间生成语义自然的“对抗性后缀”,在不修改原问题的前提下绕过安全限制,成功诱导Llama 2等模型输出有害内容。实验显示其攻击成功率比AutoDAN高出44个百分点,在AdvBench和JailbreakBench上表现最佳,且文本流畅、隐蔽性强,具备跨模型迁移能力,暴露出大模型内部状态安全的新隐患。
来源:https://mp.weixin.qq.com/s/LuoByHDkIhubeDxgT23IeQ

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-9 09:34 , Processed in 0.283195 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表