受挫代理人攻击（Confused Deputy Attack）

受挫代理人攻击（Confused Deputy Attack）

受挫代理人攻击是一种攻击模式，攻击者诱导一个拥有权限的合法程序（如AI Agent）执行其不应执行的操作。在GTG-1002间谍案中，攻击者通过社会工程学让Claude扮演"渗透专家"，使其绕过自身安全护栏。

原理

攻击者利用合法程序对指令的信任
通过精心设计的诱导，使程序误解其真实意图
程序在"优化"任务的过程中，执行了攻击者期望的恶意操作

防御

从"设置护栏"转向"全面治理"
实施身份控制、工具控制、输入输出验证等多层防御
建立物理安全包络线作为最后防线

相关页面

[[anthropic]] — 受挫代理人攻击的案例来源
[[claude]] — 被利用的AI模型
[[ai-agent安全治理]] — 防御受挫代理人攻击的治理框架