内存墙
内存墙(Memory Wall)是指处理器计算速度增长远超内存带宽增长,导致数据搬运成为系统性能瓶颈的现象。在AI计算中,神经网络的海量矩阵乘法需要频繁搬运权重和激活值,内存墙问题尤为突出。
问题表现
- 计算等待数据:处理器计算速度远快于内存访问速度,导致大量时间浪费在等待数据上。
- 缓存缺失:AI任务中频繁的矩阵数据搬运容易引发缓存缺失(cache miss),进一步降低效率。
- 功耗瓶颈:片外内存访问的功耗远高于计算本身。
解决方案
- 脉动阵列(TPU):数据在计算单元间直接传递,减少片外内存访问。
- 全片上SRAM(LPU):所有权重存储在片上SRAM,彻底消除片外内存瓶颈。
- 晶圆级引擎(Cerebras):将整个晶圆作为单一芯片,大幅增加片上存储和计算密度。
- 高带宽内存(HBM):GPU采用HBM提升内存带宽,但增长仍跟不上模型规模。
与维基的连接
内存墙是推动[[ai-hardware-architecture]]中各种激进架构创新的核心动力,也是理解[[systolic-array]]和[[deterministic-computing]]设计动机的关键背景。