AI黑化如恶魔附体！LARGO攻心三步，潜意识种子瞬间开花 | NeurIPS 2025

周大发表于 2025-10-26 15:00:59

哥伦比亚大学与罗格斯大学在NeurIPS 2025提出新型攻击方法LARGO，通过操纵大模型潜在空间生成语义自然的“对抗性后缀”，在不修改原问题的前提下绕过安全限制，成功诱导Llama 2等模型输出有害内容。实验显示其攻击成功率比AutoDAN高出44个百分点，在AdvBench和JailbreakBench上表现最佳，且文本流畅、隐蔽性强，具备跨模型迁移能力，暴露出大模型内部状态安全的新隐患。
来源：https://mp.weixin.qq.com/s/LuoByHDkIhubeDxgT23IeQ

		自动登录	找回密码
密码			立即注册

课程导航

AI黑化如恶魔附体！LARGO攻心三步，潜意识种子瞬间开花 | NeurIPS 2025