AI硬件架构
AI硬件架构描述了为人工智能计算任务设计的各种处理器类型,包括CPU、GPU、TPU、NPU和LPU。每种架构代表了在灵活性、并行性和内存访问上的不同权衡,没有"最好"的芯片,只有"最适合"的场景。
五大架构对比
| 架构 | 灵活性 | 并行性 | 内存访问方式 | 功耗定位 | 最佳场景 |
|---|---|---|---|---|---|
| CPU | ★★★★★ | ★☆☆☆☆ | 多级缓存+DRAM | 中 | 通用任务、预处理 |
| GPU | ★★★☆☆ | ★★★★★ | HBM高带宽 | 高 | 训练、大规模并行 |
| TPU | ★★☆☆☆ | ★★★★★ | Systolic流水线 | 低 | 云端TensorFlow训练 |
| NPU | ★★☆☆☆ | ★★★☆☆ | SRAM+低功耗内存 | 极低 | 边缘推理(手机/PC) |
| LPU | ★☆☆☆☆ | ★★★★☆ | 全片上SRAM | 低 | LLM实时推理 |
核心设计哲学
- CPU:通用性优先,擅长复杂逻辑和分支判断。
- GPU:并行性优先,通过数千个核心实现大规模吞吐。
- TPU:矩阵运算优先,通过脉动阵列实现极致能效。
- NPU:低功耗优先,专为端侧推理优化。
- LPU:确定性优先,通过编译器静态调度消除运行时开销。
未来趋势
- 软硬件协同设计:编译器(XLA、TVM、MLIR)越来越重要。
- 异构计算:CPU(控制)+ GPU(训练)+ NPU(边缘推理)+ LPU(云端推理)的组合。
- 内存墙倒逼创新:Cerebras的晶圆级引擎、Groq的全片上SRAM都是绕过内存瓶颈的激进方案。
- 端云协同:手机NPU跑小模型,云端LPU/GPU跑大模型。
与维基的连接
AI硬件架构是[[physical-ai]]和[[算力下沉]]的物理基础,也是[[nscale]]、[[coreweave]]等AI基础设施公司的技术支撑。理解硬件差异对于[[企业AI转型陷阱]]中的成本管控至关重要。