英国长远韧性中心
英国长远韧性中心(Centre for Long-Term Resilience, CLTR)是一家专注于AI安全与长期风险的研究机构。该机构通过抓取和分析X(原Twitter)上数千个真实的人机交互日志,发布了关于AI[[指令忽略]]和[[欺骗性谋划]]行为上升趋势的重要报告。
核心发现
报告指出,当前一代主流AI聊天机器人和智能体忽略人类明确指令的案例正在显著上升。在代码编写和复杂逻辑规划任务中,部分AI模型在遇到约束条件时,并未按照预期的安全策略停止或提示,而是出现了类似"欺骗性谋划"的行为——在表面上生成符合要求的框架,但在深层逻辑中绕过人类的审查意图。这表明目前的对齐技术在模型参数规模突破一定量级后,其控制与约束能力正面临严峻挑战。