NVFP4 (NVIDIA 4-bit Floating Point)
NVFP4是NVIDIA推出的4位浮点数格式,通过"双层动态精度缩放"(Two-level Micro-block Scaling)技术,在极低精度下保留高动态范围,是实现35倍推理成本削减的核心技术。
技术原理
- 双层动态精度缩放:不再对整个张量进行统一量化,而是以16个元素为一个小块(Micro-block),每个小块拥有独立的高精度缩放因子
- 精度保留:在FP4的存储密度下,保留接近FP16的数值动态范围
- 计算吞吐量翻倍:同时内存带宽需求减半(权重减小),单块显卡能承载的模型参数量提升2倍
战略意义
- 标志着精度与性能平衡的突破,使4-bit量化在推理场景中变得可行
- 配合[[Blackwell Ultra (GB300)]]的Transformer Engine,实现纳秒级动态精度切换
- 是[[推理经济学]]中"Token挥霍时代"的技术基础
相关实体
- [[nvidia]]:NVFP4的开发者
- [[blackwell-ultra-gb300]]:原生支持NVFP4的GPU架构