Transformer（变换器架构）

Transformer（变换器架构）

定义

2017 年由 Google 团队在论文《Attention is All You Need》中提出的深度学习架构。Transformer 是当今所有主流大语言模型（LLM）的底层核心架构基础。

核心创新

自注意力机制（Self-Attention）：允许模型在处理每个 Token 时，关注输入序列中所有其他 Token 的相关性
并行计算：相比 RNN 的序列处理，Transformer 支持并行计算，大幅提升训练效率
位置编码：通过位置编码为模型提供 Token 在序列中的位置信息

历史意义

2017 年：论文发表，Transformer 正式登上历史舞台
后续发展：大规模预训练和产品化能力成熟，推动 AI 世界重新点火
今天的主流模型（ChatGPT、Claude、Gemini）均基于此技术路线

与 LLM 的关系

[[LLM]] 的核心底层架构是 Transformer
Transformer 的"文字接龙"能力是 LLM 智能的基础
理解 Transformer 是理解 LLM 工作原理的起点