AI硬件架构

AI硬件架构

AI硬件架构

AI硬件架构描述了为人工智能计算任务设计的各种处理器类型,包括CPU、GPU、TPU、NPU和LPU。每种架构代表了在灵活性、并行性和内存访问上的不同权衡,没有"最好"的芯片,只有"最适合"的场景。

五大架构对比

架构 灵活性 并行性 内存访问方式 功耗定位 最佳场景
CPU ★★★★★ ★☆☆☆☆ 多级缓存+DRAM 通用任务、预处理
GPU ★★★☆☆ ★★★★★ HBM高带宽 训练、大规模并行
TPU ★★☆☆☆ ★★★★★ Systolic流水线 云端TensorFlow训练
NPU ★★☆☆☆ ★★★☆☆ SRAM+低功耗内存 极低 边缘推理(手机/PC)
LPU ★☆☆☆☆ ★★★★☆ 全片上SRAM LLM实时推理

核心设计哲学

  • CPU:通用性优先,擅长复杂逻辑和分支判断。
  • GPU:并行性优先,通过数千个核心实现大规模吞吐。
  • TPU:矩阵运算优先,通过脉动阵列实现极致能效。
  • NPU:低功耗优先,专为端侧推理优化。
  • LPU:确定性优先,通过编译器静态调度消除运行时开销。

未来趋势

  • 软硬件协同设计:编译器(XLA、TVM、MLIR)越来越重要。
  • 异构计算:CPU(控制)+ GPU(训练)+ NPU(边缘推理)+ LPU(云端推理)的组合。
  • 内存墙倒逼创新:Cerebras的晶圆级引擎、Groq的全片上SRAM都是绕过内存瓶颈的激进方案。
  • 端云协同:手机NPU跑小模型,云端LPU/GPU跑大模型。

与维基的连接

AI硬件架构是[[physical-ai]]和[[算力下沉]]的物理基础,也是[[nscale]]、[[coreweave]]等AI基础设施公司的技术支撑。理解硬件差异对于[[企业AI转型陷阱]]中的成本管控至关重要。

分享到