脉动阵列
脉动阵列(Systolic Array)是Google TPU的核心架构,是一种专为矩阵乘法优化的计算单元阵列。数据像流水线一样在计算单元间"流动"——权重从一边输入,激活值从另一边输入,部分和在阵列内累加,无需反复访问内存。
工作原理
- 一个128×128或更大的MAC(乘累加)网格。
- 数据像"工厂流水线"一样一波波流过计算单元。
- 中间结果直接传递,避免DRAM瓶颈。
- 编译器静态调度所有数据移动,执行完全确定性。
优势
- 极致能效比:减少片外内存访问,降低功耗。
- 高吞吐量:专为矩阵乘法优化,吞吐量远超同功耗GPU。
- 确定性执行:减少运行时开销。
局限性
- 灵活性低:强绑定TensorFlow/JAX生态,非矩阵任务几乎无法发挥优势。
- 生态封闭:只能在Google Cloud使用。
与维基的连接
脉动阵列是[[ai-hardware-architecture]]中TPU部分的核心技术,也是理解[[memory-wall]]解决方案的关键案例。