模型蒸馏攻防战:当 AI 能力变成可被“偷走”的资产

摘要:Anthropic 与阿里相关蒸馏争议提醒行业:前沿模型能力正在成为可被访问、复制、蒸馏和监管的战略资产。

模型蒸馏攻防战:当 AI 能力变成可被“偷走”的资产

Anthropic 指控阿里巴巴相关方通过大规模交互蒸馏 Claude 能力,这条新闻如果属实,意味着 AI 行业的竞争已经从“谁训练出更强模型”进入“谁能保护模型能力不被抽取”的阶段。

需要先说明:这类指控敏感度很高,涉及公司竞争、国家安全、出口管制和跨国技术博弈。写作时不能把单方指控当作最终事实,更不能把技术问题简单民族化。更稳妥的做法,是把它看作一个行业风险样本:前沿模型能力正在变成一种可被访问、复制、蒸馏和监管的战略资产。

一、什么是模型蒸馏攻击

模型蒸馏本身不是坏技术。它原本是一种常见机器学习方法:用大模型作为老师,训练小模型模仿其输出,从而降低部署成本、提升推理效率。

但当蒸馏发生在未经授权的商业模型上,就会变成能力抽取。攻击者可以用大量账号和请求向目标模型提问,收集回答,再用这些输入输出对训练自己的模型。目标是用较低成本复制大模型的一部分能力。

这类攻击不一定需要拿到模型权重。只要能访问 API,就可以持续采样模型行为。这也是它危险的地方:模型能力不是只藏在服务器里,也通过每一次交互暴露在外部。

二、为什么前沿模型尤其脆弱

前沿模型公司面临一个矛盾:它们必须开放 API 才能商业化,但开放 API 又会暴露模型能力。

对普通应用来说,API 被调用就是收入;对前沿模型来说,API 被大规模异常调用可能也是模型能力泄露。尤其是代码、数学、网络安全、法律和科学推理这类高价值能力,可以通过精心设计的问题集被系统性抽取。

如果 Business Insider 报道中提到的大规模账号和交互属实,问题就不再是普通滥用,而是组织化的模型能力复制。

三、Fable 与 Mythos:能力越强,监管越敏感

Anthropic 在 6 月发布 Claude Fable 5 和 Mythos 5 后,很快暂停相关访问。官方页面显示,Fable 5 和 Mythos 5 访问不可用,并表示正在努力恢复。

这件事和蒸馏指控放在一起看,会看到一个更大的趋势:模型越强,监管越敏感,商业开放越困难。

如果一个模型具备强网络安全、代码生成、自动化攻击或复杂推理能力,它就不再只是生产力工具,也可能被视为双重用途能力。美国政府、模型公司、云平台和企业客户都会被卷入访问控制、出口管制和安全评估。

未来的前沿模型可能会出现更细的访问分层:普通用户、企业用户、研究用户、政府用户、安全审查用户,不同能力可能有不同阈值。

四、模型公司需要新的防御体系

面对蒸馏攻击,模型公司不能只靠封账号。它需要一整套防御体系:

  • 账号和支付行为风控。
  • 请求模式异常检测。
  • 批量采样和自动化查询识别。
  • 高价值能力题库保护。
  • API 速率和能力分级。
  • 水印或行为指纹。
  • 对可疑组织的访问限制。
  • 与云平台和监管机构协同。

这很像互联网反爬,但难度更高。传统反爬保护的是网页内容,模型反蒸馏保护的是能力分布。攻击者不是复制某个页面,而是在重建模型的行为边界。

五、开源模型和闭源模型都会受影响

很多人会说:既然模型可以被蒸馏,那闭源还有意义吗?答案是仍然有意义,但闭源不再是绝对护城河。

闭源模型可以保护权重、训练数据和系统细节,但 API 输出仍然会泄露行为。开源模型则相反,权重开放,竞争重点转向生态、微调、推理成本和数据更新。

未来模型竞争可能出现三种策略:

  • 完全闭源,强访问控制,重点服务高价值企业。
  • 半开放,基础模型开放,高级能力分层授权。
  • 开源生态化,用速度、社区和低成本换取扩散。

蒸馏攻击会迫使所有公司重新思考开放边界。

六、对中国 AI 公司的启示

如果一家中国公司被指控蒸馏美国前沿模型,无论事实最终如何,都会加剧国际信任问题。对中国 AI 公司来说,最重要的不是回应口水战,而是建立可验证的研发与数据合规体系。

未来国际市场会更看重:

  • 模型训练数据来源说明。
  • 是否使用未授权模型输出训练。
  • API 调用和数据治理审计。
  • 与客户签订的数据隔离和合规承诺。
  • 面向海外市场的透明报告。

中国模型公司要走向全球,不能只靠 benchmark,还要靠可信治理。

结语

模型蒸馏攻防战说明,AI 能力已经变成一种新型资产。它不像软件代码那样只存在于仓库,也不像芯片那样只存在于硬件,而是通过 API、对话、工具调用和用户交互不断外溢。

前沿模型公司的护城河,不能只靠模型规模,也不能只靠闭源。它需要安全、风控、合规、监管沟通和商业访问策略共同构成。

当 AI 能力可以被“问出来”,AI 安全就不只是防止模型作恶,也包括防止模型被系统性复制。

参考资料:

  • Business Insider: Anthropic accuses Alibaba of exploiting Claude models in a distillation attack
  • Anthropic: Claude Fable 5 and Claude Mythos 5
分享到