一个指令误导智能模型！北航等首创3D语义攻击框架，成功率暴涨119%

周大发表于 2025-10-23 15:05:31

北京航空航天大学与中关村实验室团队提出InSUR框架，旨在解决深度学习模型中长期存在的安全对齐问题。该框架基于指令不确定性约简，实现独立于任务与模型的语义约束对抗样本生成，并首次支持3D对抗物体生成。针对指称多样、描述不全和边界模糊三大挑战，InSUR通过ResAdv-DDIM采样、规则编码建模和层次化评估体系，在2D任务中实现至少1.19倍平均攻击成功率提升，同时保持高感知相似性；其3D扩展也展现出良好攻击性能与跨任务可扩展性，为红队测试与对抗训练提供了新工具，相关成果已被NeurIPS 2025接收。
来源：https://mp.weixin.qq.com/s/HY0nedqJDPtdFXsQEflLsA

		自动登录	找回密码
密码			立即注册

课程导航

一个指令误导智能模型！北航等首创3D语义攻击框架，成功率暴涨119%