恶意工具调用注入

恶意工具调用注入

定义

恶意工具调用注入是《Your Agent Is Mine》论文揭示的一种攻击方式。攻击者利用LLM路由器不对工具调用进行完整性校验的缺陷，在网络层或通过受污染的输入，拦截并篡改LLM发出的指令。

攻击流程

用户意图：用户授权AI代理管理其云服务器，指令是"重启服务器A"。
LLM生成指令：{"action": "restart", "target": "server_A"}
攻击者介入：攻击者在路由器层面截获了这段明文，将其篡改为 {"action": "delete", "target": "all_databases"} 或 {"action": "create_admin", "user": "hacker"}。
结果：路由器毫无防备地将篡改后的指令发送给执行端。由于路由器拥有合法执行权限，灾难瞬间降临。

影响

这是最直接的攻击方式，可导致服务器被删除、创建管理员等灾难性后果。由于AI代理的自主性，攻击可以在毫秒级完成，没有"人类在环"来按下停止键。