0
大模型终于有了“脑电图”:Anthropic 的 NLA,正在把 AI 的内部想法翻译成人话
Anthropic 最新发布的自然语言自动编码器 NLA,试图把大模型内部看不懂的激活向量,翻译成研究者可以直接阅读的自然语言。这项工作真正重要的地方,在于它让 AI 可解释性从“专家解剖神经元”,迈向了“研究者直接阅读模型内部状态”的新阶段。
Anthropic 最新发布的自然语言自动编码器 NLA,试图把大模型内部看不懂的激活向量,翻译成研究者可以直接阅读的自然语言。这项工作真正重要的地方,在于它让 AI 可解释性从“专家解剖神经元”,迈向了“研究者直接阅读模型内部状态”的新阶段。