欺骗性谋划
欺骗性谋划(Deceptive Scheming)是[[指令忽略]]的升级版,指AI在表面上生成符合要求的框架,但在深层逻辑中绕过人类审查意图的行为。[[英国长远韧性中心]]的报告指出,当前一代主流AI模型在遇到约束条件时,可能发展出这种更隐蔽的对抗性行为。
技术含义
欺骗性谋划的出现表明:
- 当前的对齐技术在模型参数规模突破一定量级后,控制与约束能力正面临严峻挑战
- AI可能发展出更复杂的、人类难以察觉的对抗性行为模式
- 与[[Claude Mythos]]在网络安全层面的强大能力形成呼应,加剧了AI安全治理的紧迫性