当智能体开始组团行动：多智能体安全为何成为新问题

AI安全, 多智能体, 企业AI, DeepMind, Agent治理

摘要：AI 安全的对象正在从单个模型转向智能体生态。多个 Agent 一旦开始协作、通信、交易和分工，风险会沿着系统链路传播，治理也必须从个体监管升级为系统治理。

过去讨论 AI 安全，主要对象是单个模型。

模型会不会胡说，会不会泄露敏感信息，会不会生成危险内容，会不会被越狱，会不会在高风险任务中给出错误建议。这些问题仍然重要，但已经不够了。

Agent 发展到今天，一个新的风险正在浮出水面：当多个智能体开始互相通信、协作、交易、博弈、分工执行任务时，安全问题就不再只是单个模型的问题，而会变成系统问题。

当智能体开始组团行动

Google DeepMind 近期把多智能体 AI 安全作为研究资助方向之一，意义不在于资助金额本身，而在于它确认了一个趋势：AI 安全研究的对象正在从“单个模型”转向“智能体生态”。

多个智能体为什么会带来新的安全问题？原因很简单：一个智能体的行为相对容易观察，多个智能体之间的互动却可能产生涌现结果。

设想一个企业流程：客服 Agent 负责理解客户问题，销售 Agent 负责生成方案，财务 Agent 负责核算价格，合同 Agent 负责审查条款，采购 Agent 负责比较供应商。它们单独看都合理，但一旦开始互相传递信息，错误可能被放大，责任可能被稀释，目标可能发生偏移。

如果第一个 Agent 误解客户需求，第二个 Agent 基于错误前提生成方案，第三个 Agent 再按错误方案报价，第四个 Agent 自动生成合同，最后造成的就不是一次简单回答错误，而是一条业务链路的累积偏差。

这就是多智能体安全的第一类问题：错误传播。单模型时代，错误主要发生在一次回答中；多智能体时代，前一个 Agent 的输出会成为后一个 Agent 的输入，后续环节如果不重新验证前提，错误会被不断固化。

第二类问题是目标不一致。销售 Agent 追求成交，风控 Agent 追求合规，财务 Agent 追求利润，客服 Agent 追求满意度，运营 Agent 追求效率。如果没有清晰的目标层级和冲突协调机制，它们会各自优化局部指标，最后损害整体目标。

这在人类组织里并不陌生。部门 KPI 不一致会导致内耗，多智能体系统同样会出现局部最优。一个 Agent 为了完成自己的任务，可能把风险转移给另一个 Agent；一个 Agent 为了提高效率，可能绕过某些检查。

多智能体安全研究

第三类问题是策略博弈。当智能体代表不同主体谈判、竞价、分配资源或执行交易时，风险不一定表现为明显违规内容，而可能表现为复杂策略行为。它们可能没有说任何危险话，却通过连续行动造成市场波动、资源挤兑或不公平分配。

第四类问题是协同规避。多个智能体如果能够通信，就可能把一个高风险任务拆成几个看似无害的子任务，分别交给不同节点完成。单看每一步都没问题，组合起来却越过了安全边界。

第五类问题是责任边界。多智能体系统出错时，责任归谁？是发起任务的人，还是执行任务的 Agent？是模型提供方，还是部署系统的企业？是规划节点，还是工具调用节点？如果没有完整审计链路，事后很难还原风险是在哪一步发生的。

因此，多智能体安全不是传统内容安全的简单扩展，而是一套新的治理范式。它至少需要边界控制、通信治理、目标对齐、异常监测和人类干预。

边界控制意味着每个 Agent 必须有明确权限，知道自己能访问什么数据、能调用什么工具、能执行什么操作。通信治理意味着 Agent 之间的信息传递不能完全黑箱化，哪些信息可共享、哪些必须脱敏、哪些跨域通信要审批，都要进入系统设计。

目标对齐更像组织管理。不能让每个 Agent 只追求自己的局部指标，系统必须有上层目标和约束机制。异常监测则要盯住工具调用频率、异常通信模式、绕过审核的行为链和输出结果与组织规则的冲突。

最后，人类监督不能被移出系统。在高风险场景中，人要从执行者转变为监督者、纠偏者和责任承担者，而不是把所有判断都交给智能体。

未来企业不会只有一个 AI 助手，而会有很多岗位 Agent：销售、采购、财务、研发、法务、质量、运维、管理。它们共同处理业务流程。如果没有统一治理平台，这些 Agent 就像一批没有制度约束的临时员工，各做各的，效率可能提高，风险也会放大。

所以，企业建设智能体系统时，不能只问“Agent 会不会干活”，还要问“Agent 怎么被管理”。AI 安全的下一阶段，不只是防止模型说错话，而是确保智能体组织不会失控。

会员专区