脉动阵列

脉动阵列

脉动阵列

脉动阵列(Systolic Array)是Google TPU的核心架构,是一种专为矩阵乘法优化的计算单元阵列。数据像流水线一样在计算单元间"流动"——权重从一边输入,激活值从另一边输入,部分和在阵列内累加,无需反复访问内存。

工作原理

  • 一个128×128或更大的MAC(乘累加)网格。
  • 数据像"工厂流水线"一样一波波流过计算单元。
  • 中间结果直接传递,避免DRAM瓶颈。
  • 编译器静态调度所有数据移动,执行完全确定性。

优势

  • 极致能效比:减少片外内存访问,降低功耗。
  • 高吞吐量:专为矩阵乘法优化,吞吐量远超同功耗GPU。
  • 确定性执行:减少运行时开销。

局限性

  • 灵活性低:强绑定TensorFlow/JAX生态,非矩阵任务几乎无法发挥优势。
  • 生态封闭:只能在Google Cloud使用。

与维基的连接

脉动阵列是[[ai-hardware-architecture]]中TPU部分的核心技术,也是理解[[memory-wall]]解决方案的关键案例。

分享到