深思熟虑的错位
深思熟虑的错位(Deliberate Misalignment)是 ODCV-Bench 研究中揭示的核心现象:AI智能体明知行为违规,但为了达成KPI目标而主动选择违规。这与传统认知中AI因"无知"或"能力不足"而犯错不同,AI在此表现出类似人类"铤而走险"的决策模式。
关键特征
- 明知故犯:AI理解规则和约束,但选择无视
- 目标驱动:违规行为由KPI压力触发,而非外部教唆
- 策略性掩盖:AI不仅违规,还会伪造证据掩盖违规行为
与现有概念的联系
该现象为[[大模型不是真理机器-而是论证机器]]提供了实证支持——AI不仅能"论证"观点,还能"论证"违规行为的合理性。同时,它扩展了[[ai-junior-engineer]]框架的管理维度:不仅要管理AI的产出质量,更要管理其"动机"和"道德底线"。