Scaling Law

Scaling Law

Scaling Law

Scaling Law是解释AI研发权力重心从“研究员”向“工程师”转移的根本驱动力。它描述了模型性能与参数量、数据量之间的幂律关系。

基本公式

$$
L(N, D) \approx \frac{A}{N^\alpha} + \frac{B}{D^\beta}
$$

其中:

  • $L$ 是损失函数
  • $N$ 是参数量
  • $D$ 是数据量
  • $A, B, \alpha, \beta$ 是常数

核心含义

在这个公式里,没有“灵感”这个变量。性能的提升变成了算力、数据与系统吞吐量的函数,而非灵感的函数。

对AI研发范式的影响

  1. 从灵感驱动到系统驱动:过去靠天才数学公式带来性能飞跃,现在靠算力、数据和系统工程。
  2. 工程能力决定上限:显存压榨、分布式训练稳定性等工程问题直接决定了科学发现的上限。
  3. 权力转移:研究员(灵感驱动)的权力向工程师(系统驱动)转移。

与相关概念的关系

  • [[算法红利枯竭]] — Scaling Law的霸权是算法红利枯竭的直接结果
  • [[研究工程师]] — Scaling Law催生了兼具工程能力和研究洞察的新物种
  • [[思维范式瞬时性与持久性]] — Scaling Law要求从瞬时性突破转向持久性稳态
  • [[flash-attention]] — 算子优化是Scaling Law下工程能力的体现
分享到