蒸馏攻击

通过大量查询（数百万次），试图复制或绕过AI模型安全护栏的攻击方式。Anthropic官方发布安全威胁报告，警告有实体正在通过模型蒸馏试图绕过Claude的安全护栏，用于开发生物武器或进行网络攻击。

攻击原理

蒸馏攻击为维基中关于模型安全、验证和信任的讨论（如[[大模型不是真理机器-而是论证机器]]、[[别再做大冤种了-你的AI中转API可能是盗版山寨货-性能狂跌47-2026-03-06]]）增加了新的威胁维度。