LLM越狱攻击的威胁被系统性高估? 基于分解式评分的「越狱评估新范式」出炉

[复制链接]
周大 发表于 2025-10-12 15:53:41 | 显示全部楼层 |阅读模式
由CISPA、西安交大与Flexera联合提出的JADES框架,采用分解式评分方法对LLM越狱攻击进行更精准评估。该框架将有害问题拆解为加权子问题,逐项评分后加权汇总,显著提升评估准确性。实验表明,JADES在二元和三元分类中分别达到98.5%和86.3%的人类一致性与准确率。重新评估发现,传统方法严重高估越狱成功率——如LAA攻击的成功率从93%降至69%,且超75%的“成功”案例仅为部分成功,揭示当前威胁被系统性夸大。
来源:https://mp.weixin.qq.com/s/9iC87G7N-pw2t86oSU9N1g

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-9 17:55 , Processed in 0.291434 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表