NVFP4 (NVIDIA 4-bit Floating Point)

NVFP4 (NVIDIA 4-bit Floating Point)

NVFP4 (NVIDIA 4-bit Floating Point)

NVFP4是NVIDIA推出的4位浮点数格式,通过"双层动态精度缩放"(Two-level Micro-block Scaling)技术,在极低精度下保留高动态范围,是实现35倍推理成本削减的核心技术。

技术原理

  • 双层动态精度缩放:不再对整个张量进行统一量化,而是以16个元素为一个小块(Micro-block),每个小块拥有独立的高精度缩放因子
  • 精度保留:在FP4的存储密度下,保留接近FP16的数值动态范围
  • 计算吞吐量翻倍:同时内存带宽需求减半(权重减小),单块显卡能承载的模型参数量提升2倍

战略意义

  • 标志着精度与性能平衡的突破,使4-bit量化在推理场景中变得可行
  • 配合[[Blackwell Ultra (GB300)]]的Transformer Engine,实现纳秒级动态精度切换
  • 是[[推理经济学]]中"Token挥霍时代"的技术基础

相关实体

  • [[nvidia]]:NVFP4的开发者
  • [[blackwell-ultra-gb300]]:原生支持NVFP4的GPU架构
分享到