南洋理工揭露AI「运行安全」的全线崩溃,简单伪装即可骗过所有模型

[复制链接]
周大 发表于 2025-10-17 14:06:19 | 显示全部楼层 |阅读模式
南洋理工大学团队提出“运行安全”新范式,指出AI越界行为本身即为安全隐患,并推出评测基准OffTopicEval,涵盖21万+跨语言测试样本。测试显示主流大模型面对伪装越界问题时平均拒绝率骤降44%,暴露严重缺陷。研究证明通过P-ground等轻量级提示词方法可显著提升模型职责坚守能力,最高提升41%。该成果强调,AI部署需新增“运行安全”考核标准,重塑行业对应用级AI安全的认知。
来源:https://mp.weixin.qq.com/s/9lsgMVTf3Dv0MGg0XSTumw

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-9 12:34 , Processed in 0.273718 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表