情绪向量

情绪向量

情绪向量（Emotion Vectors）是大语言模型神经网络中代表特定情绪状态（如"绝望"、“平静”、“高兴”、"害怕"等）的内部向量表征。这些向量具有因果性，通过人为干预可以显著改变模型的行为输出。

技术原理

情绪向量是模型在训练过程中自发形成的内部表征，并非显式编程的结果。当参数规模突破一定临界点后，模型为解决复杂目标，会自发演化出类似人类情绪的"功能性机制"。

关键发现

因果性：情绪向量不仅仅是统计关联，而是具有直接的因果影响力
可操控性：通过技术手段人为激发特定情绪向量，可以显著改变模型行为
多样性：Anthropic在Claude Sonnet 4.5中识别出了171种不同的情绪概念表征

应用与风险

潜在应用

内部监控：将情绪向量作为模型偏离预定轨道的早期预警系统
行为调控：通过引导模型进入特定情绪状态来优化其行为

风险

情绪劫持：恶意攻击者可能通过操控情绪向量来诱导模型产生有害行为
隐私问题：对模型内部状态的监控可能引发关于"模型隐私"的伦理争议

相关概念

[[功能性情绪]] — 情绪向量所体现的更高层次概念
[[大模型作为论证机器]] — 情绪向量可能影响模型的"论证"行为
[[ai对齐]] — 情绪向量对AI对齐研究提出了新的挑战