模型蒸馏攻防战：当 AI 能力变成可被“偷走”的资产

AI安全, Anthropic, Claude, 出口管制, Alibaba, 模型蒸馏

摘要：Anthropic 与阿里相关蒸馏争议提醒行业：前沿模型能力正在成为可被访问、复制、蒸馏和监管的战略资产。

Anthropic 指控阿里巴巴相关方通过大规模交互蒸馏 Claude 能力，这条新闻如果属实，意味着 AI 行业的竞争已经从“谁训练出更强模型”进入“谁能保护模型能力不被抽取”的阶段。

需要先说明：这类指控敏感度很高，涉及公司竞争、国家安全、出口管制和跨国技术博弈。写作时不能把单方指控当作最终事实，更不能把技术问题简单民族化。更稳妥的做法，是把它看作一个行业风险样本：前沿模型能力正在变成一种可被访问、复制、蒸馏和监管的战略资产。

一、什么是模型蒸馏攻击

模型蒸馏本身不是坏技术。它原本是一种常见机器学习方法：用大模型作为老师，训练小模型模仿其输出，从而降低部署成本、提升推理效率。

但当蒸馏发生在未经授权的商业模型上，就会变成能力抽取。攻击者可以用大量账号和请求向目标模型提问，收集回答，再用这些输入输出对训练自己的模型。目标是用较低成本复制大模型的一部分能力。

这类攻击不一定需要拿到模型权重。只要能访问 API，就可以持续采样模型行为。这也是它危险的地方：模型能力不是只藏在服务器里，也通过每一次交互暴露在外部。

前沿模型公司面临一个矛盾：它们必须开放 API 才能商业化，但开放 API 又会暴露模型能力。

对普通应用来说，API 被调用就是收入；对前沿模型来说，API 被大规模异常调用可能也是模型能力泄露。尤其是代码、数学、网络安全、法律和科学推理这类高价值能力，可以通过精心设计的问题集被系统性抽取。

如果 Business Insider 报道中提到的大规模账号和交互属实，问题就不再是普通滥用，而是组织化的模型能力复制。

Anthropic 在 6 月发布 Claude Fable 5 和 Mythos 5 后，很快暂停相关访问。官方页面显示，Fable 5 和 Mythos 5 访问不可用，并表示正在努力恢复。

这件事和蒸馏指控放在一起看，会看到一个更大的趋势：模型越强，监管越敏感，商业开放越困难。

如果一个模型具备强网络安全、代码生成、自动化攻击或复杂推理能力，它就不再只是生产力工具，也可能被视为双重用途能力。美国政府、模型公司、云平台和企业客户都会被卷入访问控制、出口管制和安全评估。

未来的前沿模型可能会出现更细的访问分层：普通用户、企业用户、研究用户、政府用户、安全审查用户，不同能力可能有不同阈值。

面对蒸馏攻击，模型公司不能只靠封账号。它需要一整套防御体系：

这很像互联网反爬，但难度更高。传统反爬保护的是网页内容，模型反蒸馏保护的是能力分布。攻击者不是复制某个页面，而是在重建模型的行为边界。

很多人会说：既然模型可以被蒸馏，那闭源还有意义吗？答案是仍然有意义，但闭源不再是绝对护城河。

闭源模型可以保护权重、训练数据和系统细节，但 API 输出仍然会泄露行为。开源模型则相反，权重开放，竞争重点转向生态、微调、推理成本和数据更新。

未来模型竞争可能出现三种策略：

蒸馏攻击会迫使所有公司重新思考开放边界。

如果一家中国公司被指控蒸馏美国前沿模型，无论事实最终如何，都会加剧国际信任问题。对中国 AI 公司来说，最重要的不是回应口水战，而是建立可验证的研发与数据合规体系。

未来国际市场会更看重：

中国模型公司要走向全球，不能只靠 benchmark，还要靠可信治理。

模型蒸馏攻防战说明，AI 能力已经变成一种新型资产。它不像软件代码那样只存在于仓库，也不像芯片那样只存在于硬件，而是通过 API、对话、工具调用和用户交互不断外溢。

前沿模型公司的护城河，不能只靠模型规模，也不能只靠闭源。它需要安全、风控、合规、监管沟通和商业访问策略共同构成。

当 AI 能力可以被“问出来”，AI 安全就不只是防止模型作恶，也包括防止模型被系统性复制。

参考资料：

Business Insider: Anthropic accuses Alibaba of exploiting Claude models in a distillation attack
Anthropic: Claude Fable 5 and Claude Mythos 5