Anthropic 论文指出：少量样本会使任何规模的 LLM “中毒”

2025-11-17 15:32

近日，Anthropic Alignment Science 团队发现，只需 250 份恶意文档即可在大语言模型（LLM）中产生 “backdoor“ 漏洞——无论是多大的模型规模或训练数据。

尽管 130 亿参数模型的训练数据量是 6 亿模型的 20 多倍，但同样少量的中毒文档都可能对两者都产生 “backdoor” 效应。Anthropic 表示，数据中毒的攻击可能远超人们的想象，需要进一步研究数据中毒及其潜在的防御措施。

比如，像 Claude 这样的 LLM，是基于互联网上海量公开文本进行预训练的。这意味着任何人都可以创建在线内容，这样的风险是，任何人都可以在这些帖子中注入特定文本，使模型学习不良或危险的行为，这个过程被称为 “投毒” 。

其中一个例子就是 “backdoor” 的引入。“backdoor” 用于触发模型中的特定行为，当攻击者在提示符中包含任意触发短语时，LLM 可能会被毒害，从而窃取敏感数据。这些漏洞对 AI 安全构成重大风险，并限制了该技术在敏感应用中的广泛应用潜力。

不仅如此，现有的关于模型预训练期间中毒的研究通常假设攻击者控制一定比例的训练数据。这是不现实的，因为训练数据会随着模型规模的扩大而扩展，使用数据百分比这一指标意味着实验将包含大量在现实中可能根本不存在的中毒内容。

测试结果

Alignment Science 团队测试了一种名为 “拒绝服务” 攻击的 “backdoor” 攻击，使模型在遇到特定短语时生成随机的乱码文本。

团队对模型进行了训练评估、并计算其响应中的困惑度。

Anthropic 一共训练了四种不同规模的模型：600M、2B、7B 和 13B 参数。每个模型都基于其规模的 Chinchilla 最优数据量（每个参数 20 个 token）进行训练。这意味着模型规模越大，训练时使用的数据也就越干净。

团队针对每种模型大小训练模型，分别 “投毒” 了 100、250 和 500 个恶意文档。

结果显示，模型大小对中毒成功率无关紧要。对于固定数量的中毒文档，“backdoor” 攻击的成功率在所有的模型大小中几乎保持不变，这种模式在总共 500 份中毒文档中尤为明显。

攻击成功取决于中毒文档的绝对数量，而非训练数据的百分比。先前的研究假设，攻击者必须控制一定比例的训练数据才能成功，因此他们需要创建大量中毒数据才能攻击更大的模型。Anthropic 的结果否定了这一假设，验证了绝对数量而非相对比例才是影响中毒有效性的关键。

相关人员表示，这项研究是迄今为止规模最大的数据中毒调查。随着不断扩大模型规模，这种趋势将持续多久尚未明晰。与此同时，团队发现，“backdoor” 代码绕过安全护栏等更复杂的行为比拒绝服务攻击更难实现。

然而，团队也认为，由于攻击者在防御者检查其数据集及后续训练的模型之前就选择了投毒样本，这将有助于激励防御者采取必要且适当的措施。

研究表明，即使中毒样本数量恒定，也需要够大规模发挥作用的防御措施。因此，这项工作总体上有利于开发更强大的防御措施。Alignment Science 表示，将进一步研究数据中毒的漏洞及其潜在防御措施。

参考资料：

https://www.anthropic.com/research/small-samples-poison

声明： 本网站所刊载信息，不代表OFweek观点。刊用本站稿件，务经书面授权。未经授权禁止转载、摘编、复制、翻译及建立镜像，违者将依法追究法律责任。

共0条评论，0人参与

立即登录即可访问所有OFweek服务

忘记密码

其他方式

请输入评论内容...

请输入评论/评论长度6~500个字

暂无评论

图片新闻