NVFP4 (NVIDIA 4-bit Floating Point)

NVFP4 (NVIDIA 4-bit Floating Point)

NVFP4是NVIDIA推出的4位浮点数格式，通过"双层动态精度缩放"（Two-level Micro-block Scaling）技术，在极低精度下保留高动态范围，是实现35倍推理成本削减的核心技术。

技术原理

双层动态精度缩放：不再对整个张量进行统一量化，而是以16个元素为一个小块（Micro-block），每个小块拥有独立的高精度缩放因子
精度保留：在FP4的存储密度下，保留接近FP16的数值动态范围
计算吞吐量翻倍：同时内存带宽需求减半（权重减小），单块显卡能承载的模型参数量提升2倍

战略意义

标志着精度与性能平衡的突破，使4-bit量化在推理场景中变得可行
配合[[Blackwell Ultra (GB300)]]的Transformer Engine，实现纳秒级动态精度切换
是[[推理经济学]]中"Token挥霍时代"的技术基础

相关实体

[[nvidia]]：NVFP4的开发者
[[blackwell-ultra-gb300]]：原生支持NVFP4的GPU架构