IO感知算法
IO感知算法(IO-Aware Algorithm)是一种通过优化数据在GPU不同层级内存(SRAM vs. HBM)间的读写模式来提升计算效率的算法设计思路。
核心洞察
GPU计算的主要瓶颈往往不是算力(FLOPS),而是内存带宽。GPU有不同层级的内存:
- SRAM(共享内存):快速但容量小
- HBM(高带宽内存):慢速但容量大
IO感知算法的核心是尽可能在快速SRAM中完成计算,减少对慢速HBM的读写操作。
应用
FlashAttention是IO感知算法最著名的应用,通过重新设计注意力计算的IO模式,在不改变数学公式的前提下大幅提升效率。这一思路对后续的GPU计算优化产生了深远影响。