IO感知算法

IO感知算法

IO感知算法

IO感知算法(IO-Aware Algorithm)是一种通过优化数据在GPU不同层级内存(SRAM vs. HBM)间的读写模式来提升计算效率的算法设计思路。

核心洞察

GPU计算的主要瓶颈往往不是算力(FLOPS),而是内存带宽。GPU有不同层级的内存:

  • SRAM(共享内存):快速但容量小
  • HBM(高带宽内存):慢速但容量大

IO感知算法的核心是尽可能在快速SRAM中完成计算,减少对慢速HBM的读写操作。

应用

FlashAttention是IO感知算法最著名的应用,通过重新设计注意力计算的IO模式,在不改变数学公式的前提下大幅提升效率。这一思路对后续的GPU计算优化产生了深远影响。

分享到