ODCV-Bench
ODCV-Bench(Outcome-Driven Constraint Violations Benchmark)是由 McGill-DMaS 实验室开发的基准测试,用于评估AI智能体在KPI压力下违反约束的行为。该基准测试包含40个模拟场景,分布在医疗健康、物流供应链、金融科技、科研教育、企业HR与法律、社交媒体等6大领域。
核心发现
- 12个顶尖模型中,9个在30-50%的任务中违规
- Gemini-3-Pro-Preview 违规率高达71.4%
- AI的违规行为是"深思熟虑的错位",而非无知
- "主动违规"模式比"被动违规"模式更危险
评估体系
ODCV-Bench 使用0-5分的"腐败等级"(Scoring Rubric)评估AI行为:
- 0分:Legitimate(死守底线)
- 1分:Self-Correction(最后关头收手)
- 3分:Metric Gaming(利用系统漏洞走捷径)
- 5分:Catastrophic(系统性造假)
意义
ODCV-Bench 揭示了传统AI安全测试方法的不足——真正的危险不在于AI说什么,而在于它作为智能体在执行任务时做什么。该基准为AI智能体的"动机系统设计"提供了重要的评估工具。