推理侧算力扩展定律 (Inference-time Scaling Laws)

推理侧算力扩展定律

模型效能与推理时计算量呈对数线性关系的定律，且尚未观察到平台期。这意味着通过增加推理时的搜索步数（如使用MCTS），即使是较小的模型也能在特定领域超越未经优化的大模型。

数学表达

模型效能 E 与推理时计算量 C_inf 呈现对数线性关系：E ∝ log(C_inf)

意义

解释了为何NVIDIA要专门为推理优化芯片（如Vera Rubin架构和"惊喜芯片"）
解释了为何小模型+多步推理能超越大模型
推动算力从云端向边缘侧扩散（[[算力下沉]]）
为Sub-1-bit LLM等模型压缩技术提供了理论基础

与训练侧扩展定律的区别

训练侧扩展定律关注模型参数规模与训练数据量对模型能力的影响，而推理侧扩展定律关注推理时的计算量对模型输出质量的影响。两者共同构成了AI模型能力提升的双轮驱动。

相关概念

[[sub-1-bit-llm]] — 通过算法创新实现极低比特量化
[[vera-rubin-vr200]] — 针对推理优化的NVIDIA下一代架构
[[算力下沉]] — 推理算力从云端向边缘侧扩散