内存墙

内存墙

内存墙（Memory Wall）是指处理器计算速度增长远超内存带宽增长，导致数据搬运成为系统性能瓶颈的现象。在AI计算中，神经网络的海量矩阵乘法需要频繁搬运权重和激活值，内存墙问题尤为突出。

问题表现

计算等待数据：处理器计算速度远快于内存访问速度，导致大量时间浪费在等待数据上。
缓存缺失：AI任务中频繁的矩阵数据搬运容易引发缓存缺失（cache miss），进一步降低效率。
功耗瓶颈：片外内存访问的功耗远高于计算本身。

解决方案

脉动阵列（TPU）：数据在计算单元间直接传递，减少片外内存访问。
全片上SRAM（LPU）：所有权重存储在片上SRAM，彻底消除片外内存瓶颈。
晶圆级引擎（Cerebras）：将整个晶圆作为单一芯片，大幅增加片上存储和计算密度。
高带宽内存（HBM）：GPU采用HBM提升内存带宽，但增长仍跟不上模型规模。

与维基的连接

内存墙是推动[[ai-hardware-architecture]]中各种激进架构创新的核心动力，也是理解[[systolic-array]]和[[deterministic-computing]]设计动机的关键背景。