FlashAttention

FlashAttention是斯坦福大学Tri Dao在2022年提出的纯工程层面的突破，通过重新设计注意力计算的IO模式，在不改变任何数学公式的前提下，将注意力计算速度提升2-4倍，并大幅降低内存占用。

核心思想

FlashAttention的核心是IO感知算法（IO-Aware Algorithm）。GPU计算的主要瓶颈往往不是算力（FLOPS），而是内存带宽。GPU有不同层级的内存：快速但容量小的SRAM（共享内存）和慢速但容量大的HBM（高带宽内存）。FlashAttention通过让数据在GPU的快速SRAM中完成计算，减少对慢速HBM的读写，从而大幅提升效率。

重要性

使更长的上下文窗口成为可能
今天几乎所有主流模型的训练和推理都在使用FlashAttention
代表了系统优化在AI发展中的关键作用

FlashAttention

FlashAttention

核心思想

重要性

相关概念