Transformer(变换器架构)
定义
2017 年由 Google 团队在论文《Attention is All You Need》中提出的深度学习架构。Transformer 是当今所有主流大语言模型(LLM)的底层核心架构基础。
核心创新
- 自注意力机制(Self-Attention):允许模型在处理每个 Token 时,关注输入序列中所有其他 Token 的相关性
- 并行计算:相比 RNN 的序列处理,Transformer 支持并行计算,大幅提升训练效率
- 位置编码:通过位置编码为模型提供 Token 在序列中的位置信息
历史意义
- 2017 年:论文发表,Transformer 正式登上历史舞台
- 后续发展:大规模预训练和产品化能力成熟,推动 AI 世界重新点火
- 今天的主流模型(ChatGPT、Claude、Gemini)均基于此技术路线
与 LLM 的关系
- [[LLM]] 的核心底层架构是 Transformer
- Transformer 的"文字接龙"能力是 LLM 智能的基础
- 理解 Transformer 是理解 LLM 工作原理的起点