Attention Residuals (注意力残差)
Attention Residuals (AttnRes) 是月之暗面(Moonshot AI)于2026年3月提出的一种新的残差连接方式,旨在解决深层Transformer网络中的"数据稀释"问题。
技术原理
传统的PreNorm残差连接会导致隐层状态随深度增加而出现"不受控增长"和"贡献稀释"。AttnRes将残差连接中的简单加法替换为Softmax注意力机制。每一层不再是被动接收前层数据的累加,而是通过一个学习到的伪查询向量(Pseudo-query Vector),主动从之前所有层中筛选所需信息。
性能提升
- 计算效率:采用Block AttnRes变体的模型,在相同训练损失下,比基准模型节省了25%的算力(1.25x效率提升)。
- 模型性能:在Kimi Linear 48B模型(3B激活参数)的测试中,AttnRes使GPQA-Diamond提升了7.5分,Math提升了3.6分,有效缓解了超深网络中的"预训练稀释"现象。
行业意义
这一进展标志着大模型架构正进入"精细化控制层间流"的新阶段,而非盲目堆叠深度。它为构建更高效、更强大的基础模型提供了新的架构方向。
相关概念
- [[agent-swarms]] — 更高效的模型架构为智能体集群提供更强的基础支撑
- [[月之暗面-moonshot-ai]] — AttnRes的提出者