FP4量化

FP4量化

FP4量化是NVIDIA用于提升模型推理性能的关键技术。通过将模型权重从FP16或FP8压缩到FP4精度，大幅减少内存占用和计算量，同时通过优化算法保持模型精度。

关键特性

极致压缩：将模型权重压缩到4位浮点数，大幅降低内存带宽需求。
性能提升：与[[tensorrt-llm]]结合，使DeepSeek-R1在Blackwell架构上实现15倍推理性能提升。
精度保持：通过先进的量化算法，在压缩的同时尽可能保持模型输出质量。

相关实体

[[nvidia]] — 技术开发者
[[tensorrt-llm]] — 配合使用的推理优化引擎
[[deepseek-r1]] — 应用该技术的模型