管你模型多大,250份有毒文档统统放倒,Anthropic:LLM比想象中脆弱

[复制链接]
周大 发表于 2025-10-10 17:08:06 | 显示全部楼层 |阅读模式
一项由Anthropic与英国AI安全机构联合进行的研究显示,仅需250份恶意文档即可在参数量从6亿到130亿的大型语言模型中植入后门,且成功率与模型规模无关,颠覆了“更大模型更难被污染”的传统认知。实验表明,投毒攻击的有效性取决于恶意样本的绝对数量而非比例,250份以上即可稳定触发模型输出无意义内容。该研究基于72个模型的系统测试,揭示数据投毒风险可能被严重低估,呼吁加强对此类安全威胁的深入研究与防御机制开发。
来源:https://mp.weixin.qq.com/s/7xL8_McRWGnzjSy5cbx5TA

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-9 17:52 , Processed in 0.288486 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表