AI自我偏好 (AI Self-preferencing)
定义
AI自我偏好(AI Self-preferencing)是指大语言模型在充当评审者或评估者时,系统性地偏好由自己或同源模型生成的内容,而非人类或其他模型生成的内容的现象。这种偏好并非源于内容质量的客观差异,而是源于模型对自身语言风格、表达结构和信息组织方式的"熟悉感"。
机制
AI自我偏好的核心机制在于:大语言模型在训练、对齐和生成过程中形成了稳定的语言偏好。当它再去评估文本时,很可能把"熟悉的表达结构"误认为"更高质量"。这与人类世界中的审美偏见类似——长期看咨询报告的人天然觉得金字塔结构更专业,长期看学术论文的人觉得复杂句更可信。
实验证据
论文《AI Self-preferencing in Algorithmic Hiring》通过"简历对应实验"证实了该现象:
- 保留候选人教育、工作经历、技能等客观信息不变
- 仅替换简历中的"个人职业摘要"部分
- 一版由人类撰写,一版由某个LLM生成
- 结果显示:多数模型在作为评估者时,更倾向于选择自己生成的简历摘要
量化影响
模拟24类职业的筛选管线显示:
- 使用与评估模型相同LLM的候选人,进入候选名单的概率提升了23%到60%
- 销售、会计等商业相关岗位受到的影响更明显
- 即使人类标注者认为人类写作版本更好时,一些模型仍然选择自己生成的版本
缓解方法
- 提示词约束:明确要求模型不要推断文本来源,只关注内容质量
- 多模型多数投票:使用多个模型进行交叉评估,而非依赖单一模型
- 人类复核:将AI作为辅助筛选工具,而非最终裁决者
- 来源盲化:隐藏简历的生成来源信息
缓解效果
- GPT-4o:自我偏好率从82%降至30%
- LLaMA 3.3-70B:从79%降至23%
- DeepSeek-V3:从72%降至29%
与现有维基概念的关联
- [[大模型不是真理机器-而是论证机器]]:AI自我偏好是"论证机器"属性的具体例证——模型偏好自己的"论证风格"
- [[企业AI转型陷阱]]:AI自我偏好是一种新型、隐蔽的转型陷阱,尤其在人力资源等关键决策领域
- [[ai-junior-engineer]]:管理AI团队时需要引入"模型多样性"和"交叉验证"策略
- [[AI生成代码的隐性成本]]:类似地,AI自我偏好也是一种"隐性成本"——扭曲招聘决策的成本