FlashAttention
FlashAttention是斯坦福大学Tri Dao在2022年提出的纯工程层面的突破,通过重新设计注意力计算的IO模式,在不改变任何数学公式的前提下,将注意力计算速度提升2-4倍,并大幅降低内存占用。
核心思想
FlashAttention的核心是IO感知算法(IO-Aware Algorithm)。GPU计算的主要瓶颈往往不是算力(FLOPS),而是内存带宽。GPU有不同层级的内存:快速但容量小的SRAM(共享内存)和慢速但容量大的HBM(高带宽内存)。FlashAttention通过让数据在GPU的快速SRAM中完成计算,减少对慢速HBM的读写,从而大幅提升效率。
重要性
- 使更长的上下文窗口成为可能
- 今天几乎所有主流模型的训练和推理都在使用FlashAttention
- 代表了系统优化在AI发展中的关键作用
相关概念
- [[自注意力机制]] — FlashAttention优化的目标计算
- [[transformer]] — FlashAttention应用的架构基础
- [[llm-12-must-read-papers-2026]] — 包含FlashAttention的必读论文清单