摘要:Anthropic 近期公开 AI 驱动安全审查与漏洞发现相关工具和流程,真正信号不是又多一个扫描器,而是软件安全正在从“专家手工审计时代”,进入“AI 代理批量发现、人工专家验证治理”的新阶段。

Anthropic 最近公开了用于 AI 驱动安全审查与漏洞发现的一组参考工具和流程。表面看,这只是一些 GitHub 仓库和项目说明:Claude Code 安全审查 Action、Project Glasswing 相关的 Claude Code skills、自动化扫描 harness、威胁建模、沙箱、验证、分诊和补丁生成流程。但如果把它放到 Claude Mythos、Project Glasswing 以及近期 AI 安全能力演进的大背景下看,这件事的意义远不止“又多了一个开源工具”。
它更像是一个标志:软件安全正在从“专家手工审计时代”,进入“AI 代理批量发现、人工专家验证治理”的新阶段。
过去我们谈 AI 写代码,关注的是生产效率。今天这件事提醒我们,AI 不只会写代码,也会读代码、拆代码、质疑代码,甚至在大型开源项目、遗留系统和复杂依赖链里发现人类多年没有发现的问题。代码生产被 AI 加速以后,代码安全也会被 AI 重新定义。
一、这不是一个扫描器,而是一套“漏洞研究作业法”
很多人看到这个项目,第一反应可能是把它和传统 SAST、DAST、模糊测试工具放在一起比较。但这其实不是很准确。
传统安全扫描器更像“仪器”:输入代码或二进制,输出一批规则命中的告警。它的核心能力来自规则库、污点分析、符号执行、模式匹配、动态探测等技术。AI 漏洞发现框架的核心不完全是规则,而是“组织模型工作的方式”。
Anthropic 这次公开的东西,本质上是一套作业法:先让 AI 理解系统边界,形成威胁模型;再把代码库按攻击面、模块、入口点拆分;然后让多个发现代理并行搜索;之后用独立验证代理复现和反驳;再做去重、评级、责任归属;最后尝试生成补丁,并用新的验证流程确认修复没有引入新的问题。
这套逻辑很重要。因为大模型单独看代码时,经常会出现两个极端:要么泛泛而谈,给出一堆“可能存在风险”的空洞判断;要么过度自信,把环境中不可达、不可控、不符合威胁模型的问题误判为高危漏洞。真正让 AI 变成安全生产力的,不是“问一句这里有没有漏洞”,而是给它一条可执行、可验证、可反驳、可迭代的流水线。
这也是社区里有人把它称为“车间夹具”的原因。夹具本身不是最终产品,却能稳定工序、约束动作、提高重复性。AI 漏洞研究的关键,正在从“模型有多聪明”,转向“你有没有一套能让模型稳定工作的夹具”。
二、发现漏洞变便宜,验证漏洞变昂贵
这次事件最值得关注的判断是:漏洞发现正在变得容易并行化,瓶颈开始转向验证、分诊和修补。
过去,安全团队最稀缺的是能发现深层漏洞的人。优秀研究员需要理解业务、协议、内存模型、依赖关系、历史漏洞和攻击路径。一个复杂漏洞可能要靠几天甚至几周的人工推理。现在,AI 可以在大量代码库中并行展开“猜测—阅读—构造证据—再猜测”的循环。它不一定每次都对,但它能以过去难以想象的规模产生候选问题。
问题随之改变了:不是找不到问题,而是问题太多。
如果一个 AI 系统一天产出几十、几百个候选漏洞,安全团队真正头疼的就不再是“有没有漏洞”,而是“哪些是真的”“哪些可被利用”“哪些符合本项目威胁模型”“哪些值得优先修”“哪些只是重复报告”“哪些补丁会破坏业务逻辑”。
这和制造业里的质量检测很像。早期的难点是看不见缺陷,所以要引入检测设备;后来检测设备足够灵敏,难点变成了误报、分级、闭环整改和工艺回流。软件安全也在走这条路。AI 让缺陷更容易被看见,但看见之后如何治理,才是企业能力的分水岭。
三、Claude Mythos 的真正冲击:存量代码开始“暴露在强光下”
关于 Claude Mythos 的讨论,容易被带向模型竞赛:它是不是比 Opus 更强?是不是能自动发现零日?是不是会被攻击者滥用?这些问题当然重要,但更深层的产业冲击在于:大量存量代码正在被重新审视。
互联网和工业软件世界里,有海量遗留代码长期运行。它们可能由 C/C++ 写成,可能依赖多年未重构的库,可能经历过无数次补丁叠加,可能没有完整威胁模型,也可能没有现代化测试体系。过去这些代码之所以“安全”,很大程度上并不是因为它们真的没有漏洞,而是因为系统太复杂、审计成本太高、能看懂的人太少。
AI 安全代理改变了这个成本结构。
当模型可以反复读取代码、构造输入、调用工具、运行测试、生成 PoC,再由另一个模型复核时,旧代码里的“长尾漏洞”会被更快翻出来。这既是好消息,也是坏消息。好消息是,防守方可以更早发现问题,开源社区和基础设施可以更快补洞;坏消息是,攻击方也可能使用类似方法扩大搜索范围。
所以,这不是简单的“AI 让安全更安全”,而是安全攻防两端同时提速。发现漏洞的能力扩散以后,真正决定胜负的,是谁拥有更好的资产清单、更强的沙箱、更快的验证、更规范的披露流程和更成熟的补丁工程。
四、开源参考框架降低门槛,但没有降低专业性
Anthropic 这次公开相关工具还有一个细节值得注意:它更像是“公开样板”和“研究参考”,而不是可以直接交付的完整商业产品。
这点非常关键。很多企业看到 AI 安全框架,容易误以为下载下来就能自动审计全部代码。但实际上,这类系统能否有效工作,极度依赖定制化。
第一,威胁模型必须贴近业务。一个输入在某个系统里是攻击者可控的,在另一个系统里可能是可信配置。没有上下文,AI 很容易把低风险问题报成高危,也可能把真正危险的链路漏掉。
第二,运行环境必须足够真实。漏洞不是只存在于代码文本里,它还存在于部署方式、依赖版本、权限边界、网络路径和运行时配置里。沙箱如果和生产环境差异太大,就会制造大量误判。
第三,验证流程必须独立。发现代理说有漏洞,不代表真的有漏洞。更好的做法是让验证代理在新的环境中只拿到结论和证据,尝试复现,也尝试反驳。安全不是鼓励模型自我证明,而是要让模型学会被质疑。
第四,补丁仍然需要人类负责。AI 可以生成修复建议,但它可能只修表象不修根因,也可能过度收紧输入,导致正常业务中断。真正可上线的安全补丁,仍然要经过工程师审查、测试和回归验证。
因此,这个框架降低的是“起步门槛”,不是“专业门槛”。它让更多团队知道 AI 漏洞研究该怎么组织,但不意味着安全专家会被替代。恰恰相反,越是强大的 AI 工具,越需要懂系统、懂业务、懂攻击路径、懂工程约束的人来驾驭。
五、成本问题会决定普及节奏
社区讨论里另一个焦点是成本。AI 漏洞扫描不是一次简单问答,而是大量代理并行运行、长时间读取代码、构造输入、验证结果、生成报告的过程。每个代理都会消耗输入和输出 token,如果再叠加多轮扫描、多模型验证、补丁复核,成本很快会上升。
这会带来一个现实分层。
对关键基础设施、大型互联网平台、金融、能源、工业控制、云服务和核心开源项目来说,花几百到几千美元做一次高价值扫描,可能远低于一次人工红队服务或一次重大漏洞事故的成本。对普通中小项目来说,如果没有明确的高风险暴露面,持续高频运行这类框架可能并不划算。
所以更现实的落地方式不是“每次提交都全量 AI 审计”,而是分层使用:核心仓库先做基线扫描;高风险模块定期扫描;重大版本发布前集中扫描;安全事件或漏洞披露后做变体分析;CI/CD 中只对关键 diff 或高风险路径做轻量检查。
未来企业安全预算里,可能会出现一个新科目:AI 安全算力预算。它不再只是买工具授权,而是买“发现能力”“验证能力”和“补丁闭环能力”。
六、对企业的启示:安全体系要从规则库升级为智能体工作流
这件事对企业尤其有启发。过去很多企业的安全建设停留在采购层面:买 SAST、买漏洞扫描器、买 WAF、买代码审计服务。现在,AI 代理正在把安全体系从“工具堆叠”推向“工作流重构”。
企业真正需要建设的不是一个炫目的 AI 漏洞机器人,而是一套闭环能力:

资产要清楚,知道哪些代码、哪些依赖、哪些服务最关键;威胁模型要沉淀,不能只靠安全专家脑子里的经验;沙箱要可复制,能让代理安全地运行测试和验证;报告要结构化,能进入研发流程;补丁要可验证,能证明问题被修掉且没有破坏业务;历史漏洞要反哺,让下一轮扫描更聪明。
这其实也是软件工程走向智能化的缩影。AI 不只是替人做一个动作,而是把原来的手工经验流程变成可编排、可复用、可审计的系统。
七、真正的风险不是 AI 会找漏洞,而是我们没有准备好修漏洞
很多人担心 AI 会让漏洞发现能力被滥用。这种担心是合理的。但更紧迫的问题可能是:当漏洞发现速度提升十倍、百倍以后,现有维护体系能否承受?
开源维护者本来就资源有限。如果大量 AI 工具向他们提交未经验证、重复、评级夸大的漏洞报告,所谓“帮助安全”就可能变成另一种维护者 DDoS。企业内部也是一样。如果 AI 每天产生大量高危告警,而研发团队没有分诊和修复机制,最后只会产生告警疲劳。
所以,AI 安全的下一步,不应该只是比谁发现更多漏洞,而应该比谁能更负责任地完成闭环。发现只是开始,验证、披露、修复、复测、沉淀才是完整安全工程。
Anthropic 这次公开的参考工具和框架,真正有价值的地方就在这里:它把“AI 找漏洞”从一个神秘能力,拆成了一组工程步骤。它告诉行业,未来的软件安全不是一个模型单独完成的魔法,而是模型、工具、沙箱、流程、专家和治理机制共同组成的新型生产线。
软件世界正在被 AI 重新照亮。过去隐藏在复杂代码、陈旧依赖和模糊边界里的问题,会越来越难以长期躲藏。对防守方来说,这既是压力,也是机会。谁能更早建立 AI 驱动的安全闭环,谁就能在下一轮攻防加速中占据主动。
真正的问题已经不是 AI 能不能发现漏洞,而是当 AI 把漏洞摆到我们面前时,我们有没有能力、流程和责任感把它们修好。
参考资料
Anthropic,《Project Glasswing initial update》,用于核验 Project Glasswing 中关于 AI 安全工具、Claude Code skills、扫描 harness 和威胁建模工具的公开表述。
Anthropic GitHub,《claude-code-security-review》,用于核验 Claude Code 安全审查 GitHub Action、PR diff 分析、误报过滤和安全发现输出机制。
Anthropic,《Automate security reviews with Claude Code》,用于补充 Claude Code 自动化安全审查的产品化场景。