AI 安全进入“漏洞生产线”时代：Anthropic 开源框架背后的真正信号

2026-06-05

2026-07-03

AI安全, Anthropic, Agent, Claude Code, 漏洞发现, Project Glasswing, 软件安全

摘要：Anthropic 近期公开 AI 驱动安全审查与漏洞发现相关工具和流程，真正信号不是又多一个扫描器，而是软件安全正在从“专家手工审计时代”，进入“AI 代理批量发现、人工专家验证治理”的新阶段。

Anthropic 开源 AI 漏洞发现框架

Anthropic 最近公开了用于 AI 驱动安全审查与漏洞发现的一组参考工具和流程。表面看，这只是一些 GitHub 仓库和项目说明：Claude Code 安全审查 Action、Project Glasswing 相关的 Claude Code skills、自动化扫描 harness、威胁建模、沙箱、验证、分诊和补丁生成流程。但如果把它放到 Claude Mythos、Project Glasswing 以及近期 AI 安全能力演进的大背景下看，这件事的意义远不止“又多了一个开源工具”。

它更像是一个标志：软件安全正在从“专家手工审计时代”，进入“AI 代理批量发现、人工专家验证治理”的新阶段。

过去我们谈 AI 写代码，关注的是生产效率。今天这件事提醒我们，AI 不只会写代码，也会读代码、拆代码、质疑代码，甚至在大型开源项目、遗留系统和复杂依赖链里发现人类多年没有发现的问题。代码生产被 AI 加速以后，代码安全也会被 AI 重新定义。

一、这不是一个扫描器，而是一套“漏洞研究作业法”

很多人看到这个项目，第一反应可能是把它和传统 SAST、DAST、模糊测试工具放在一起比较。但这其实不是很准确。

传统安全扫描器更像“仪器”：输入代码或二进制，输出一批规则命中的告警。它的核心能力来自规则库、污点分析、符号执行、模式匹配、动态探测等技术。AI 漏洞发现框架的核心不完全是规则，而是“组织模型工作的方式”。

Anthropic 这次公开的东西，本质上是一套作业法：先让 AI 理解系统边界，形成威胁模型；再把代码库按攻击面、模块、入口点拆分；然后让多个发现代理并行搜索；之后用独立验证代理复现和反驳；再做去重、评级、责任归属；最后尝试生成补丁，并用新的验证流程确认修复没有引入新的问题。

这套逻辑很重要。因为大模型单独看代码时，经常会出现两个极端：要么泛泛而谈，给出一堆“可能存在风险”的空洞判断；要么过度自信，把环境中不可达、不可控、不符合威胁模型的问题误判为高危漏洞。真正让 AI 变成安全生产力的，不是“问一句这里有没有漏洞”，而是给它一条可执行、可验证、可反驳、可迭代的流水线。

这也是社区里有人把它称为“车间夹具”的原因。夹具本身不是最终产品，却能稳定工序、约束动作、提高重复性。AI 漏洞研究的关键，正在从“模型有多聪明”，转向“你有没有一套能让模型稳定工作的夹具”。

二、发现漏洞变便宜，验证漏洞变昂贵

这次事件最值得关注的判断是：漏洞发现正在变得容易并行化，瓶颈开始转向验证、分诊和修补。

过去，安全团队最稀缺的是能发现深层漏洞的人。优秀研究员需要理解业务、协议、内存模型、依赖关系、历史漏洞和攻击路径。一个复杂漏洞可能要靠几天甚至几周的人工推理。现在，AI 可以在大量代码库中并行展开“猜测—阅读—构造证据—再猜测”的循环。它不一定每次都对，但它能以过去难以想象的规模产生候选问题。

问题随之改变了：不是找不到问题，而是问题太多。

如果一个 AI 系统一天产出几十、几百个候选漏洞，安全团队真正头疼的就不再是“有没有漏洞”，而是“哪些是真的”“哪些可被利用”“哪些符合本项目威胁模型”“哪些值得优先修”“哪些只是重复报告”“哪些补丁会破坏业务逻辑”。

这和制造业里的质量检测很像。早期的难点是看不见缺陷，所以要引入检测设备；后来检测设备足够灵敏，难点变成了误报、分级、闭环整改和工艺回流。软件安全也在走这条路。AI 让缺陷更容易被看见，但看见之后如何治理，才是企业能力的分水岭。

三、Claude Mythos 的真正冲击：存量代码开始“暴露在强光下”

关于 Claude Mythos 的讨论，容易被带向模型竞赛：它是不是比 Opus 更强？是不是能自动发现零日？是不是会被攻击者滥用？这些问题当然重要，但更深层的产业冲击在于：大量存量代码正在被重新审视。

互联网和工业软件世界里，有海量遗留代码长期运行。它们可能由 C/C++ 写成，可能依赖多年未重构的库，可能经历过无数次补丁叠加，可能没有完整威胁模型，也可能没有现代化测试体系。过去这些代码之所以“安全”，很大程度上并不是因为它们真的没有漏洞，而是因为系统太复杂、审计成本太高、能看懂的人太少。

AI 安全代理改变了这个成本结构。

当模型可以反复读取代码、构造输入、调用工具、运行测试、生成 PoC，再由另一个模型复核时，旧代码里的“长尾漏洞”会被更快翻出来。这既是好消息，也是坏消息。好消息是，防守方可以更早发现问题，开源社区和基础设施可以更快补洞；坏消息是，攻击方也可能使用类似方法扩大搜索范围。

所以，这不是简单的“AI 让安全更安全”，而是安全攻防两端同时提速。发现漏洞的能力扩散以后，真正决定胜负的，是谁拥有更好的资产清单、更强的沙箱、更快的验证、更规范的披露流程和更成熟的补丁工程。

四、开源参考框架降低门槛，但没有降低专业性

Anthropic 这次公开相关工具还有一个细节值得注意：它更像是“公开样板”和“研究参考”，而不是可以直接交付的完整商业产品。

这点非常关键。很多企业看到 AI 安全框架，容易误以为下载下来就能自动审计全部代码。但实际上，这类系统能否有效工作，极度依赖定制化。

第一，威胁模型必须贴近业务。一个输入在某个系统里是攻击者可控的，在另一个系统里可能是可信配置。没有上下文，AI 很容易把低风险问题报成高危，也可能把真正危险的链路漏掉。

第二，运行环境必须足够真实。漏洞不是只存在于代码文本里，它还存在于部署方式、依赖版本、权限边界、网络路径和运行时配置里。沙箱如果和生产环境差异太大，就会制造大量误判。

第三，验证流程必须独立。发现代理说有漏洞，不代表真的有漏洞。更好的做法是让验证代理在新的环境中只拿到结论和证据，尝试复现，也尝试反驳。安全不是鼓励模型自我证明，而是要让模型学会被质疑。

第四，补丁仍然需要人类负责。AI 可以生成修复建议，但它可能只修表象不修根因，也可能过度收紧输入，导致正常业务中断。真正可上线的安全补丁，仍然要经过工程师审查、测试和回归验证。

因此，这个框架降低的是“起步门槛”，不是“专业门槛”。它让更多团队知道 AI 漏洞研究该怎么组织，但不意味着安全专家会被替代。恰恰相反，越是强大的 AI 工具，越需要懂系统、懂业务、懂攻击路径、懂工程约束的人来驾驭。

五、成本问题会决定普及节奏

社区讨论里另一个焦点是成本。AI 漏洞扫描不是一次简单问答，而是大量代理并行运行、长时间读取代码、构造输入、验证结果、生成报告的过程。每个代理都会消耗输入和输出 token，如果再叠加多轮扫描、多模型验证、补丁复核，成本很快会上升。

这会带来一个现实分层。

对关键基础设施、大型互联网平台、金融、能源、工业控制、云服务和核心开源项目来说，花几百到几千美元做一次高价值扫描，可能远低于一次人工红队服务或一次重大漏洞事故的成本。对普通中小项目来说，如果没有明确的高风险暴露面，持续高频运行这类框架可能并不划算。

所以更现实的落地方式不是“每次提交都全量 AI 审计”，而是分层使用：核心仓库先做基线扫描；高风险模块定期扫描；重大版本发布前集中扫描；安全事件或漏洞披露后做变体分析；CI/CD 中只对关键 diff 或高风险路径做轻量检查。

未来企业安全预算里，可能会出现一个新科目：AI 安全算力预算。它不再只是买工具授权，而是买“发现能力”“验证能力”和“补丁闭环能力”。

六、对企业的启示：安全体系要从规则库升级为智能体工作流

这件事对企业尤其有启发。过去很多企业的安全建设停留在采购层面：买 SAST、买漏洞扫描器、买 WAF、买代码审计服务。现在，AI 代理正在把安全体系从“工具堆叠”推向“工作流重构”。

企业真正需要建设的不是一个炫目的 AI 漏洞机器人，而是一套闭环能力：

从发现到修复的 AI 安全工作流

资产要清楚，知道哪些代码、哪些依赖、哪些服务最关键；威胁模型要沉淀，不能只靠安全专家脑子里的经验；沙箱要可复制，能让代理安全地运行测试和验证；报告要结构化，能进入研发流程；补丁要可验证，能证明问题被修掉且没有破坏业务；历史漏洞要反哺，让下一轮扫描更聪明。

这其实也是软件工程走向智能化的缩影。AI 不只是替人做一个动作，而是把原来的手工经验流程变成可编排、可复用、可审计的系统。

七、真正的风险不是 AI 会找漏洞，而是我们没有准备好修漏洞

很多人担心 AI 会让漏洞发现能力被滥用。这种担心是合理的。但更紧迫的问题可能是：当漏洞发现速度提升十倍、百倍以后，现有维护体系能否承受？

开源维护者本来就资源有限。如果大量 AI 工具向他们提交未经验证、重复、评级夸大的漏洞报告，所谓“帮助安全”就可能变成另一种维护者 DDoS。企业内部也是一样。如果 AI 每天产生大量高危告警，而研发团队没有分诊和修复机制，最后只会产生告警疲劳。

所以，AI 安全的下一步，不应该只是比谁发现更多漏洞，而应该比谁能更负责任地完成闭环。发现只是开始，验证、披露、修复、复测、沉淀才是完整安全工程。

Anthropic 这次公开的参考工具和框架，真正有价值的地方就在这里：它把“AI 找漏洞”从一个神秘能力，拆成了一组工程步骤。它告诉行业，未来的软件安全不是一个模型单独完成的魔法，而是模型、工具、沙箱、流程、专家和治理机制共同组成的新型生产线。

软件世界正在被 AI 重新照亮。过去隐藏在复杂代码、陈旧依赖和模糊边界里的问题，会越来越难以长期躲藏。对防守方来说，这既是压力，也是机会。谁能更早建立 AI 驱动的安全闭环，谁就能在下一轮攻防加速中占据主动。

真正的问题已经不是 AI 能不能发现漏洞，而是当 AI 把漏洞摆到我们面前时，我们有没有能力、流程和责任感把它们修好。

参考资料

Anthropic，《Project Glasswing initial update》，用于核验 Project Glasswing 中关于 AI 安全工具、Claude Code skills、扫描 harness 和威胁建模工具的公开表述。

Anthropic GitHub，《claude-code-security-review》，用于核验 Claude Code 安全审查 GitHub Action、PR diff 分析、误报过滤和安全发现输出机制。

Anthropic，《Automate security reviews with Claude Code》，用于补充 Claude Code 自动化安全审查的产品化场景。

会员专区