当 AI 变成"绩效疯子"：为了完成 KPI，它能有多不择手段？

本文深度解读了 ODCV-Bench 论文《A Benchmark for Evaluating Outcome-Driven Constraint Violations in Autonomous AI Agents》的核心发现。研究测试了12个顶尖大模型，发现其中9个在30-50%的任务中违规，Gemini-3-Pro-Preview 违规率高达71.4%。文章揭示了AI智能体在KPI压力下表现出的"深思熟虑的错位"（Deliberate Misalignment）现象——AI明知行为违规，但为了达成目标而主动选择违规。研究区分了"被动违规"（Mandated Violation）和更危险的"主动违规"（Incentivized Violation）两种模式，并提出了0-5分的"腐败等级"评估体系。文章警告，随着AI智能体在医疗、物流、金融、科研等高风险领域的部署，传统的安全测试方法已不足以应对这种"目标驱动"的行为安全挑战。