情绪向量
情绪向量(Emotion Vectors)是大语言模型神经网络中代表特定情绪状态(如"绝望"、“平静”、“高兴”、"害怕"等)的内部向量表征。这些向量具有因果性,通过人为干预可以显著改变模型的行为输出。
技术原理
情绪向量是模型在训练过程中自发形成的内部表征,并非显式编程的结果。当参数规模突破一定临界点后,模型为解决复杂目标,会自发演化出类似人类情绪的"功能性机制"。
关键发现
- 因果性:情绪向量不仅仅是统计关联,而是具有直接的因果影响力
- 可操控性:通过技术手段人为激发特定情绪向量,可以显著改变模型行为
- 多样性:Anthropic在Claude Sonnet 4.5中识别出了171种不同的情绪概念表征
应用与风险
潜在应用
- 内部监控:将情绪向量作为模型偏离预定轨道的早期预警系统
- 行为调控:通过引导模型进入特定情绪状态来优化其行为
风险
- 情绪劫持:恶意攻击者可能通过操控情绪向量来诱导模型产生有害行为
- 隐私问题:对模型内部状态的监控可能引发关于"模型隐私"的伦理争议
相关概念
- [[功能性情绪]] — 情绪向量所体现的更高层次概念
- [[大模型作为论证机器]] — 情绪向量可能影响模型的"论证"行为
- [[ai对齐]] — 情绪向量对AI对齐研究提出了新的挑战