Scaling Law

Scaling Law

Scaling Law是解释AI研发权力重心从“研究员”向“工程师”转移的根本驱动力。它描述了模型性能与参数量、数据量之间的幂律关系。

基本公式

$$
L(N, D) \approx \frac{A}{N^\alpha} + \frac{B}{D^\beta}
$$

其中：

$L$ 是损失函数
$N$ 是参数量
$D$ 是数据量
$A, B, \alpha, \beta$ 是常数

核心含义

在这个公式里，没有“灵感”这个变量。性能的提升变成了算力、数据与系统吞吐量的函数，而非灵感的函数。

对AI研发范式的影响

从灵感驱动到系统驱动：过去靠天才数学公式带来性能飞跃，现在靠算力、数据和系统工程。
工程能力决定上限：显存压榨、分布式训练稳定性等工程问题直接决定了科学发现的上限。
权力转移：研究员（灵感驱动）的权力向工程师（系统驱动）转移。

与相关概念的关系

[[算法红利枯竭]] — Scaling Law的霸权是算法红利枯竭的直接结果
[[研究工程师]] — Scaling Law催生了兼具工程能力和研究洞察的新物种
[[思维范式瞬时性与持久性]] — Scaling Law要求从瞬时性突破转向持久性稳态
[[flash-attention]] — 算子优化是Scaling Law下工程能力的体现