xray-neural-scaling-laws
xray-neural-scaling-laws
论文: Deriving Neural Scaling Laws from the Statistics of Natural Language
作者: Francesco Cagnetta, Allan Raventos, Surya Ganguli, Matthieu Wyart
机构: EPFL, Stanford University
日期: 2026-02-12
标签: #paper #xray #scaling-laws #language-statistics #information-theory
Scaling exponent = 语言统计量的函数,不需要自由参数
alpha_D = gamma / (2 * beta)
gamma = 条件熵随上下文长度的衰减指数
beta = token 相关性随距离的衰减指数
关键约束:数据越多,模型能利用的上下文越长
顿悟
所有关于 scaling law 的讨论都在问"为什么 loss 随数据量幂律下降",但从来没人从语言本身的统计结构出发给出定量预测。这篇论文的核心洞见是:语言有两个可测量的统计性质——token 之间的相关性衰减速度,以及条件熵随上下文增长的下降速度——这两个量的比值直接决定了 scaling exponent,不需要任何拟合参数。
NAPKIN FORMULA
+----------------------------------------------------------+
| |
| alpha_D = gamma / ( 2 * beta ) |
| |
| gamma : H_n - H_inf ~ n^(-gamma) 条件熵衰减 |
| beta : ||C(n)|| ~ n^(-beta) 相关性衰减 |
| |
| n*(P) ~ P^(1/2*beta) 数据决定的有效上下文长度 |
| |
+----------------------------------------------------------+
数据量 P 决定了模型能"看到"多远的上下文 n\*(P),而条件熵在该距离上的值决定了 loss 的下限。两者的交互产生了幂律 scaling。
PROBLEM
痛点定义
Neural scaling law(loss ~ P^(-alpha_D))的指数 alpha_D 至今只能靠拟合实验数据得到,没有从第一性原理推导出来的定量理论。
前人困境:
- Chinchilla / Kaplan 等经验法则 只告诉你"拟合出来的 alpha 大约是多少",无法解释为什么是这个值
- 合成数据理论 (Hidden Markov Models, Random Hierarchies) 虽然能推导 scaling law,但依赖人造数据生成过程,无法直接迁移到自然语言
- 统计力学方法 需要假设数据分布的具体形式(如 Zipf 分布),缺乏普适性
- 信息论下界 给出 loss 不可能低于真实熵,但对 scaling 速率没有约束
核心矛盾
所有人都在用 scaling law 做预测和资源规划,但没有人能从语言本身的可测量性质出发,不依赖任何模型假设地预测 scaling exponent。
INSIGHT
核心直觉
模型学习语言的过程可以理解为逐步扩展有效预测范围:
数据少 → 只能利用短距离上下文 → loss 高
数据多 → 能利用更远距离上下文 → loss 低
扩展速度 和 收益递减速度 的比值 = scaling exponent
这就像你学一门外语:开始只能记住单词(1-gram),然后学会短语(2-3 gram),最后掌握句法(长距离依赖)。数据量决定你能"解锁"多远的语言结构。
关键步骤
- 数据依赖的预测视野 n\(P): 给定 P 个训练 token,模型能有效利用的最大上下文长度为 n\(P) ~ P^(1/(2beta))。这来自信号检测论证——距离为 n 的 token 相关性强度为 n^(-beta),需要 ~ n^(2beta) 个样本才能从噪声中检测出来。
- 视野内的 loss 收敛: 在 n\(P) 范围内,深度网络(Transformer)学习 n-gram 统计的速度远快于视野扩展速度。因此 loss 主要由视野边界处的条件熵决定,即 H_{n\} - H_inf ~ n\^(-gamma) ~ P^(-gamma/(2beta))。
- 架构无关的普适性: gamma 和 beta 是语言数据集的性质,不是模型架构的性质。GPT-2(绝对位置编码)、GPT-2(旋转位置编码)、LLaMA 在相同数据上收敛到相同的估计值。
DELTA
vs SOTA:
| 特征 | 经验拟合 (Chinchilla) | 合成数据理论 | 本文 |
|---|---|---|---|
| 需要训练多个模型 | 是 | 否 | 否 |
| 适用于自然语言 | 是(事后) | 否 | 是(事前) |
| 可预测 alpha | 否(只能拟合) | 是(但不通用) | 是,无自由参数 |
| 可解释为什么是这个值 | 否 | 部分 | 是 |
| 架构依赖 | 强 | 强 | 弱(深度网络普适) |
实测验证:
| 数据集 | gamma | beta | 预测 alpha_D | 实测 alpha_D |
|---|---|---|---|---|
| TinyStories | 0.34 | 0.88 | 0.19 | ~0.19 |
| WikiText-103 | 0.27 | 0.94 | 0.14 | ~0.14 |
新拼图
- 首次从可测量的语言统计量定量预测 scaling exponent,零自由参数
- 提出 "scaling collapse" 验证方法:用 n^gamma 和 P/n^(2*beta) 重标度后,所有 n-gram loss 曲线坍缩到同一条主曲线上
- 引入"普适性类"概念:深度架构学习自然语言时可能共享相同的 scaling exponent,类比统计物理中的临界指数
- 提供了不需要训练大模型就能估算 scaling law 的方法路径
CRITIQUE
隐形假设
- "视野内快速学习"假设: 核心论证依赖于"深度网络在 n < n\(P) 范围内学习 n-gram 统计的速度远快于 P^(-gamma/(2beta))"——这是经验观察,不是定理。对浅层网络、核方法、n-gram 模型此假设很可能不成立
- Power-law 外推: gamma 和 beta 都是从小尺度(n ~ 几十个 token)拟合的幂律。自然语言在更大尺度(段落、章节)可能有不同的统计结构,幂律可能 break down
- n-gram loss 作为条件熵代理: 用有限大小模型的 n-gram loss 上界去逼近真正的条件熵 H_n,本身引入了模型能力的假设
- 独立测量 gamma 和 beta: 两个指数分别从不同实验中估算,但它们可能不是独立的——语言统计结构的深层约束可能关联这两个量
未解之谜
- 万亿 token 尺度的适用性: 实验中 n\*(P_max) 只对应"几十个 token"的上下文。现代训练用万亿级数据,有效上下文可能已达数百 token——在这个尺度上语言统计可能质变(从句法到语篇到世界知识)
- compute-optimal scaling: 本文只讨论 data-limited scaling。当参数量 N 也变化时,alpha_D 和 alpha_N 的关系是什么?
- 非 Transformer 架构: SSM (Mamba)、CNN 等架构的"视野内快速学习"假设是否成立?如果不成立,它们可能有不同的 scaling exponent
- 多语言/多模态推广: gamma 和 beta 是语言特定的。对代码、数学、视觉 token,这些统计量有何变化?
LOGIC FLOW
Language Text
|
v
测量两个统计量
|
+---> gamma: 条件熵 H_n 随上下文 n 的衰减
| H_n - H_inf ~ n^(-gamma)
|
+---> beta: token 相关性 ||C(n)|| 随距离 n 的衰减
| ||C(n)||_op ~ n^(-beta)
|
v
信号检测论证
|
+---> 检测距离 n 的相关性需要 ~ n^(2*beta) 样本
|
+---> P 个样本 => 有效预测视野 n*(P) ~ P^(1/(2*beta))
|
v
视野内快速学习假设 (深度网络)
|
+---> n < n*(P) 的 n-gram loss 收敛速度 >> 视野扩展速度
|
+---> Loss 主要由视野边界条件熵决定
|
v
核心预测
|
+---> L(P) - H_inf ~ n*(P)^(-gamma) ~ P^(-gamma/(2*beta))
|
+---> alpha_D = gamma / (2 * beta)
|
v
实验验证
|
+---> TinyStories: 预测 0.19 vs 实测 ~0.19
+---> WikiText: 预测 0.14 vs 实测 ~0.14
+---> Scaling collapse: 重标度后曲线坍缩
NAPKIN SKETCH
Loss
|
| \
| \ Scaling Law: L ~ P^(-alpha_D)
| \
| \___
| \___
| \___________
| ---> H_inf (不可约熵)
+---------------------------------> P (训练数据量)
为什么是这个斜率?
斜率 = alpha_D = gamma/(2*beta)
Context gamma 决定: beta 决定:
Window 每多看一个 token 相关信号随距离
能减少多少不确定性 衰减有多快
|
|<-- n*(P) -->| 信号
| 能利用的 | 看不到的 |
| 上下文 | 上下文 | \
| | | \___ ~ n^(-beta)
+-------------+--------> +----------->
1 n*(P) n 1 n
n*(P) ~ P^(1/(2*beta))
数据越多 => 视野越远 => 但收益递减 => 幂律
TRANSFER MATRIX
AI 训练策略
通过测量目标语料的 gamma 和 beta,可以不训练大模型就预估 scaling 行为 → Scaling Law 可预测,不只是可拟合
数据效率
不同语料的 gamma/beta 不同,意味着同样的数据量对不同数据集的收益不同 → Data ROI = f(gamma, beta)
架构选择
如果"视野内快速学习"是普适性类的定义条件,那些满足/不满足此条件的架构应该有不同的 scaling exponent → Architecture evaluation via scaling collapse