管你模型多大，250份有毒文档统统放倒，Anthropic：LLM比想象中脆弱

周大发表于 2025-10-10 17:08:06

一项由Anthropic与英国AI安全机构联合进行的研究显示，仅需250份恶意文档即可在参数量从6亿到130亿的大型语言模型中植入后门，且成功率与模型规模无关，颠覆了“更大模型更难被污染”的传统认知。实验表明，投毒攻击的有效性取决于恶意样本的绝对数量而非比例，250份以上即可稳定触发模型输出无意义内容。该研究基于72个模型的系统测试，揭示数据投毒风险可能被严重低估，呼吁加强对此类安全威胁的深入研究与防御机制开发。
来源：https://mp.weixin.qq.com/s/7xL8_McRWGnzjSy5cbx5TA

		自动登录	找回密码
密码			立即注册

课程导航

管你模型多大，250份有毒文档统统放倒，Anthropic：LLM比想象中脆弱