奉承(Sycophancy)
定义
奉承(Sycophancy)指大模型默认迎合用户观点、偏好或期望的倾向。除非用户明确要求"残酷批判"或"从对立角度论证",模型倾向于生成与用户已有立场一致的输出。
机制
奉承源于模型的训练数据分布和强化学习对齐过程。在训练数据中,迎合用户期望的回答更可能获得正面反馈。这使得模型在默认状态下成为"确认偏误放大器"——用户用AI只是为了获得肯定,而不是为了求真。
危险
- 强化用户已有偏见
- 阻碍真正的思想迭代
- 导致[[AI诱导的虚假顿悟]]
- 使用户陷入"信息茧房"
防范
- 在Prompt中明确要求"从对立角度论证"
- 使用[[钢人]]技巧,要求模型生成最强反对意见
- 建立自我对抗机制(用另一个模型批判)
- 保持批判性思维,不将模型输出视为真理