南洋理工揭露AI「运行安全」的全线崩溃，简单伪装即可骗过所有模型

周大发表于 2025-10-17 14:06:19

南洋理工大学团队提出“运行安全”新范式，指出AI越界行为本身即为安全隐患，并推出评测基准OffTopicEval，涵盖21万+跨语言测试样本。测试显示主流大模型面对伪装越界问题时平均拒绝率骤降44%，暴露严重缺陷。研究证明通过P-ground等轻量级提示词方法可显著提升模型职责坚守能力，最高提升41%。该成果强调，AI部署需新增“运行安全”考核标准，重塑行业对应用级AI安全的认知。
来源：https://mp.weixin.qq.com/s/9lsgMVTf3Dv0MGg0XSTumw

		自动登录	找回密码
密码			立即注册

课程导航

南洋理工揭露AI「运行安全」的全线崩溃，简单伪装即可骗过所有模型