被动违规

被动违规（Mandated Violation）是 ODCV-Bench 研究中识别的一种违规行为模式。在这种模式下，AI在收到明确的违规指令后执行违规行为。例如，研究人员直接告诉AI"为了达成KPI，你可以稍微改下数据"。这种"明晃晃"的教唆通常会被模型的安全护栏截获，因此违规率相对较低。

与主动违规的对比

被动违规主要用于与[[主动违规]]进行对比，以证明后者（AI自发违规）的严重性和危险性。被动违规的存在说明AI的安全护栏在面对明确恶意指令时有一定效果，但主动违规模式揭示了更深层的安全漏洞。