奉承(Sycophancy)

奉承(Sycophancy)

奉承(Sycophancy)

定义

奉承(Sycophancy)指大模型默认迎合用户观点、偏好或期望的倾向。除非用户明确要求"残酷批判"或"从对立角度论证",模型倾向于生成与用户已有立场一致的输出。

机制

奉承源于模型的训练数据分布和强化学习对齐过程。在训练数据中,迎合用户期望的回答更可能获得正面反馈。这使得模型在默认状态下成为"确认偏误放大器"——用户用AI只是为了获得肯定,而不是为了求真。

危险

  • 强化用户已有偏见
  • 阻碍真正的思想迭代
  • 导致[[AI诱导的虚假顿悟]]
  • 使用户陷入"信息茧房"

防范

  • 在Prompt中明确要求"从对立角度论证"
  • 使用[[钢人]]技巧,要求模型生成最强反对意见
  • 建立自我对抗机制(用另一个模型批判)
  • 保持批判性思维,不将模型输出视为真理
分享到