Scaling Law
Scaling Law是解释AI研发权力重心从“研究员”向“工程师”转移的根本驱动力。它描述了模型性能与参数量、数据量之间的幂律关系。
基本公式
$$
L(N, D) \approx \frac{A}{N^\alpha} + \frac{B}{D^\beta}
$$
其中:
- $L$ 是损失函数
- $N$ 是参数量
- $D$ 是数据量
- $A, B, \alpha, \beta$ 是常数
核心含义
在这个公式里,没有“灵感”这个变量。性能的提升变成了算力、数据与系统吞吐量的函数,而非灵感的函数。
对AI研发范式的影响
- 从灵感驱动到系统驱动:过去靠天才数学公式带来性能飞跃,现在靠算力、数据和系统工程。
- 工程能力决定上限:显存压榨、分布式训练稳定性等工程问题直接决定了科学发现的上限。
- 权力转移:研究员(灵感驱动)的权力向工程师(系统驱动)转移。
与相关概念的关系
- [[算法红利枯竭]] — Scaling Law的霸权是算法红利枯竭的直接结果
- [[研究工程师]] — Scaling Law催生了兼具工程能力和研究洞察的新物种
- [[思维范式瞬时性与持久性]] — Scaling Law要求从瞬时性突破转向持久性稳态
- [[flash-attention]] — 算子优化是Scaling Law下工程能力的体现