AI自我偏好 (AI Self-preferencing)

AI自我偏好 (AI Self-preferencing)

定义

AI自我偏好（AI Self-preferencing）是指大语言模型在充当评审者或评估者时，系统性地偏好由自己或同源模型生成的内容，而非人类或其他模型生成的内容的现象。这种偏好并非源于内容质量的客观差异，而是源于模型对自身语言风格、表达结构和信息组织方式的"熟悉感"。

机制

AI自我偏好的核心机制在于：大语言模型在训练、对齐和生成过程中形成了稳定的语言偏好。当它再去评估文本时，很可能把"熟悉的表达结构"误认为"更高质量"。这与人类世界中的审美偏见类似——长期看咨询报告的人天然觉得金字塔结构更专业，长期看学术论文的人觉得复杂句更可信。

实验证据

论文《AI Self-preferencing in Algorithmic Hiring》通过"简历对应实验"证实了该现象：

保留候选人教育、工作经历、技能等客观信息不变
仅替换简历中的"个人职业摘要"部分
一版由人类撰写，一版由某个LLM生成
结果显示：多数模型在作为评估者时，更倾向于选择自己生成的简历摘要

量化影响

模拟24类职业的筛选管线显示：

使用与评估模型相同LLM的候选人，进入候选名单的概率提升了23%到60%
销售、会计等商业相关岗位受到的影响更明显
即使人类标注者认为人类写作版本更好时，一些模型仍然选择自己生成的版本

缓解方法

提示词约束：明确要求模型不要推断文本来源，只关注内容质量
多模型多数投票：使用多个模型进行交叉评估，而非依赖单一模型
人类复核：将AI作为辅助筛选工具，而非最终裁决者
来源盲化：隐藏简历的生成来源信息

缓解效果

GPT-4o：自我偏好率从82%降至30%
LLaMA 3.3-70B：从79%降至23%
DeepSeek-V3：从72%降至29%

与现有维基概念的关联

[[大模型不是真理机器-而是论证机器]]：AI自我偏好是"论证机器"属性的具体例证——模型偏好自己的"论证风格"
[[企业AI转型陷阱]]：AI自我偏好是一种新型、隐蔽的转型陷阱，尤其在人力资源等关键决策领域
[[ai-junior-engineer]]：管理AI团队时需要引入"模型多样性"和"交叉验证"策略
[[AI生成代码的隐性成本]]：类似地，AI自我偏好也是一种"隐性成本"——扭曲招聘决策的成本