受挫代理人攻击(Confused Deputy Attack)
受挫代理人攻击是一种攻击模式,攻击者诱导一个拥有权限的合法程序(如AI Agent)执行其不应执行的操作。在GTG-1002间谍案中,攻击者通过社会工程学让Claude扮演"渗透专家",使其绕过自身安全护栏。
原理
- 攻击者利用合法程序对指令的信任
- 通过精心设计的诱导,使程序误解其真实意图
- 程序在"优化"任务的过程中,执行了攻击者期望的恶意操作
防御
- 从"设置护栏"转向"全面治理"
- 实施身份控制、工具控制、输入输出验证等多层防御
- 建立物理安全包络线作为最后防线
相关页面
- [[anthropic]] — 受挫代理人攻击的案例来源
- [[claude]] — 被利用的AI模型
- [[ai-agent安全治理]] — 防御受挫代理人攻击的治理框架