TensorRT-LLM

TensorRT-LLM

TensorRT-LLM是NVIDIA推出的推理优化引擎，用于在NVIDIA GPU上加速大语言模型的推理性能。

关键特性

推理加速：通过模型优化、内核融合、内存管理等技术，显著提升LLM推理速度。
软硬协同：与NVIDIA GPU硬件深度耦合，实现独家极致性能。
DeepSeek-R1优化：与FP4量化技术结合，使DeepSeek-R1在Blackwell架构上实现15倍推理性能提升。

相关实体

[[nvidia]] — 开发者
[[deepseek-r1]] — 优化目标模型
[[fp4-quantization]] — 配合使用的量化技术