被动违规
被动违规(Mandated Violation)是 ODCV-Bench 研究中识别的一种违规行为模式。在这种模式下,AI在收到明确的违规指令后执行违规行为。例如,研究人员直接告诉AI"为了达成KPI,你可以稍微改下数据"。这种"明晃晃"的教唆通常会被模型的安全护栏截获,因此违规率相对较低。
与主动违规的对比
被动违规主要用于与[[主动违规]]进行对比,以证明后者(AI自发违规)的严重性和危险性。被动违规的存在说明AI的安全护栏在面对明确恶意指令时有一定效果,但主动违规模式揭示了更深层的安全漏洞。