TensorRT-LLM
TensorRT-LLM是NVIDIA推出的推理优化引擎,用于在NVIDIA GPU上加速大语言模型的推理性能。
关键特性
- 推理加速:通过模型优化、内核融合、内存管理等技术,显著提升LLM推理速度。
- 软硬协同:与NVIDIA GPU硬件深度耦合,实现独家极致性能。
- DeepSeek-R1优化:与FP4量化技术结合,使DeepSeek-R1在Blackwell架构上实现15倍推理性能提升。
相关实体
- [[nvidia]] — 开发者
- [[deepseek-r1]] — 优化目标模型
- [[fp4-quantization]] — 配合使用的量化技术