多Token预测

多Token预测

多Token预测

多Token预测(Multi-Token Prediction, MTP)是一种模型优化技术,让模型在推理时同时预测多个后续Token,而非逐个预测。在[[英伟达]][[B200]] GPU集群上的基准测试表明,传统的张量并行在B200上对中小规模模型的收益开始出现递减,而基于路由优化的MTP技术成为解锁极致算力的关键。

性能表现

在精细调优后,单系统吞吐量成功突破1M tokens/second的惊人关口,且多节点扩展效率高达97.1%。

分享到