异构计算
异构计算(Heterogeneous Computing)是指组合多种处理器(CPU、GPU、TPU、NPU、LPU等)协同工作的计算架构。在AI领域,没有单一芯片能通吃所有任务,异构计算成为未来AI系统的必然趋势。
典型架构
- CPU:负责控制、编排和系统任务。
- GPU/TPU:负责大规模训练和批量推理。
- NPU:负责边缘设备上的低功耗推理。
- LPU:负责云端超低延迟LLM推理。
关键挑战
- 统一编程模型:需要像OpenXLA这样的统一软件栈来调度不同硬件。
- 编译器优化:编译器(XLA、TVM、MLIR)负责把模型映射到最优硬件指令。
- 端云协同:手机NPU跑小模型,云端LPU/GPU跑大模型,通过模型压缩和动态卸载实现无缝体验。
与维基的连接
异构计算是[[ai-hardware-architecture]]中描述的未来趋势,也是[[算力下沉]]和[[physical-ai]]的技术基础。理解异构计算对于[[企业AI转型陷阱]]中的硬件选型和成本管控至关重要。