推理侧算力扩展定律 (Inference-time Scaling Laws)

推理侧算力扩展定律 (Inference-time Scaling Laws)

推理侧算力扩展定律

模型效能与推理时计算量呈对数线性关系的定律,且尚未观察到平台期。这意味着通过增加推理时的搜索步数(如使用MCTS),即使是较小的模型也能在特定领域超越未经优化的大模型。

数学表达

模型效能 E 与推理时计算量 C_inf 呈现对数线性关系:E ∝ log(C_inf)

意义

  • 解释了为何NVIDIA要专门为推理优化芯片(如Vera Rubin架构和"惊喜芯片")
  • 解释了为何小模型+多步推理能超越大模型
  • 推动算力从云端向边缘侧扩散([[算力下沉]])
  • 为Sub-1-bit LLM等模型压缩技术提供了理论基础

与训练侧扩展定律的区别

训练侧扩展定律关注模型参数规模与训练数据量对模型能力的影响,而推理侧扩展定律关注推理时的计算量对模型输出质量的影响。两者共同构成了AI模型能力提升的双轮驱动。

相关概念

  • [[sub-1-bit-llm]] — 通过算法创新实现极低比特量化
  • [[vera-rubin-vr200]] — 针对推理优化的NVIDIA下一代架构
  • [[算力下沉]] — 推理算力从云端向边缘侧扩散
分享到