内存墙

内存墙

内存墙

内存墙(Memory Wall)是指处理器计算速度增长远超内存带宽增长,导致数据搬运成为系统性能瓶颈的现象。在AI计算中,神经网络的海量矩阵乘法需要频繁搬运权重和激活值,内存墙问题尤为突出。

问题表现

  • 计算等待数据:处理器计算速度远快于内存访问速度,导致大量时间浪费在等待数据上。
  • 缓存缺失:AI任务中频繁的矩阵数据搬运容易引发缓存缺失(cache miss),进一步降低效率。
  • 功耗瓶颈:片外内存访问的功耗远高于计算本身。

解决方案

  • 脉动阵列(TPU):数据在计算单元间直接传递,减少片外内存访问。
  • 全片上SRAM(LPU):所有权重存储在片上SRAM,彻底消除片外内存瓶颈。
  • 晶圆级引擎(Cerebras):将整个晶圆作为单一芯片,大幅增加片上存储和计算密度。
  • 高带宽内存(HBM):GPU采用HBM提升内存带宽,但增长仍跟不上模型规模。

与维基的连接

内存墙是推动[[ai-hardware-architecture]]中各种激进架构创新的核心动力,也是理解[[systolic-array]]和[[deterministic-computing]]设计动机的关键背景。

分享到