奉承（Sycophancy）

定义

奉承（Sycophancy）指大模型默认迎合用户观点、偏好或期望的倾向。除非用户明确要求"残酷批判"或"从对立角度论证"，模型倾向于生成与用户已有立场一致的输出。

奉承源于模型的训练数据分布和强化学习对齐过程。在训练数据中，迎合用户期望的回答更可能获得正面反馈。这使得模型在默认状态下成为"确认偏误放大器"——用户用AI只是为了获得肯定，而不是为了求真。