xray-neural-scaling-laws

Deriving Neural Scaling Laws from the Statistics of Natural Language

Francesco Cagnetta, Allan Raventos, Surya Ganguli, Matthieu Wyart

EPFL, Stanford University

2026-02-12

#paper #xray #scaling-laws #language-statistics #information-theory

xray-neural-scaling-laws

论文: Deriving Neural Scaling Laws from the Statistics of Natural Language

作者: Francesco Cagnetta, Allan Raventos, Surya Ganguli, Matthieu Wyart

机构: EPFL, Stanford University

日期: 2026-02-12

标签: #paper #xray #scaling-laws #language-statistics #information-theory

📄 智慧晶核

Scaling exponent = 语言统计量的函数，不需要自由参数

alpha_D = gamma / (2 * beta)

gamma = 条件熵随上下文长度的衰减指数

beta = token 相关性随距离的衰减指数

关键约束：数据越多，模型能利用的上下文越长

顿悟

所有关于 scaling law 的讨论都在问"为什么 loss 随数据量幂律下降"，但从来没人从语言本身的统计结构出发给出定量预测。这篇论文的核心洞见是：语言有两个可测量的统计性质——token 之间的相关性衰减速度，以及条件熵随上下文增长的下降速度——这两个量的比值直接决定了 scaling exponent，不需要任何拟合参数。

NAPKIN FORMULA

+----------------------------------------------------------+
|                                                          |
|   alpha_D  =  gamma  /  ( 2 * beta )                    |
|                                                          |
|   gamma : H_n - H_inf ~ n^(-gamma)   条件熵衰减          |
|   beta  : ||C(n)||    ~ n^(-beta)    相关性衰减           |
|                                                          |
|   n*(P)  ~ P^(1/2*beta)   数据决定的有效上下文长度         |
|                                                          |
+----------------------------------------------------------+

数据量 P 决定了模型能"看到"多远的上下文 n\*(P)，而条件熵在该距离上的值决定了 loss 的下限。两者的交互产生了幂律 scaling。

PROBLEM

痛点定义

Neural scaling law（loss ~ P^(-alpha_D)）的指数 alpha_D 至今只能靠拟合实验数据得到，没有从第一性原理推导出来的定量理论。

前人困境:

Chinchilla / Kaplan 等经验法则 只告诉你"拟合出来的 alpha 大约是多少"，无法解释为什么是这个值
合成数据理论 (Hidden Markov Models, Random Hierarchies) 虽然能推导 scaling law，但依赖人造数据生成过程，无法直接迁移到自然语言
统计力学方法 需要假设数据分布的具体形式（如 Zipf 分布），缺乏普适性
信息论下界 给出 loss 不可能低于真实熵，但对 scaling 速率没有约束

核心矛盾

所有人都在用 scaling law 做预测和资源规划，但没有人能从语言本身的可测量性质出发，不依赖任何模型假设地预测 scaling exponent。

INSIGHT

核心直觉

模型学习语言的过程可以理解为逐步扩展有效预测范围：

数据少 → 只能利用短距离上下文 → loss 高

数据多 → 能利用更远距离上下文 → loss 低

扩展速度和收益递减速度的比值 = scaling exponent

这就像你学一门外语：开始只能记住单词（1-gram），然后学会短语（2-3 gram），最后掌握句法（长距离依赖）。数据量决定你能"解锁"多远的语言结构。

关键步骤

数据依赖的预测视野 n\(P): 给定 P 个训练 token，模型能有效利用的最大上下文长度为 n\(P) ~ P^(1/(2beta))。这来自信号检测论证——距离为 n 的 token 相关性强度为 n^(-beta)，需要 ~ n^(2beta) 个样本才能从噪声中检测出来。

视野内的 loss 收敛: 在 n\(P) 范围内，深度网络（Transformer）学习 n-gram 统计的速度远快于视野扩展速度。因此 loss 主要由视野边界处的条件熵决定，即 H_{n\} - H_inf ~ n\^(-gamma) ~ P^(-gamma/(2beta))。

架构无关的普适性: gamma 和 beta 是语言数据集的性质，不是模型架构的性质。GPT-2（绝对位置编码）、GPT-2（旋转位置编码）、LLaMA 在相同数据上收敛到相同的估计值。

DELTA

vs SOTA:

特征	经验拟合 (Chinchilla)	合成数据理论	本文
需要训练多个模型	是	否	否
适用于自然语言	是(事后)	否	是(事前)
可预测 alpha	否(只能拟合)	是(但不通用)	是，无自由参数
可解释为什么是这个值	否	部分	是
架构依赖	强	强	弱(深度网络普适)

实测验证:

数据集	gamma	beta	预测 alpha_D	实测 alpha_D
TinyStories	0.34	0.88	0.19	~0.19
WikiText-103	0.27	0.94	0.14	~0.14

新拼图

首次从可测量的语言统计量定量预测 scaling exponent，零自由参数
提出 "scaling collapse" 验证方法：用 n^gamma 和 P/n^(2*beta) 重标度后，所有 n-gram loss 曲线坍缩到同一条主曲线上
引入"普适性类"概念：深度架构学习自然语言时可能共享相同的 scaling exponent，类比统计物理中的临界指数
提供了不需要训练大模型就能估算 scaling law 的方法路径

CRITIQUE

隐形假设

"视野内快速学习"假设: 核心论证依赖于"深度网络在 n < n\(P) 范围内学习 n-gram 统计的速度远快于 P^(-gamma/(2beta))"——这是经验观察，不是定理。对浅层网络、核方法、n-gram 模型此假设很可能不成立
Power-law 外推: gamma 和 beta 都是从小尺度（n ~ 几十个 token）拟合的幂律。自然语言在更大尺度（段落、章节）可能有不同的统计结构，幂律可能 break down
n-gram loss 作为条件熵代理: 用有限大小模型的 n-gram loss 上界去逼近真正的条件熵 H_n，本身引入了模型能力的假设
独立测量 gamma 和 beta: 两个指数分别从不同实验中估算，但它们可能不是独立的——语言统计结构的深层约束可能关联这两个量

未解之谜

万亿 token 尺度的适用性: 实验中 n\*(P_max) 只对应"几十个 token"的上下文。现代训练用万亿级数据，有效上下文可能已达数百 token——在这个尺度上语言统计可能质变（从句法到语篇到世界知识）
compute-optimal scaling: 本文只讨论 data-limited scaling。当参数量 N 也变化时，alpha_D 和 alpha_N 的关系是什么？
非 Transformer 架构: SSM (Mamba)、CNN 等架构的"视野内快速学习"假设是否成立？如果不成立，它们可能有不同的 scaling exponent
多语言/多模态推广: gamma 和 beta 是语言特定的。对代码、数学、视觉 token，这些统计量有何变化？

LOGIC FLOW

Language Text
    |
    v
测量两个统计量
    |
    +---> gamma: 条件熵 H_n 随上下文 n 的衰减
    |         H_n - H_inf ~ n^(-gamma)
    |
    +---> beta: token 相关性 ||C(n)|| 随距离 n 的衰减
    |         ||C(n)||_op ~ n^(-beta)
    |
    v
信号检测论证
    |
    +---> 检测距离 n 的相关性需要 ~ n^(2*beta) 样本
    |
    +---> P 个样本 => 有效预测视野 n*(P) ~ P^(1/(2*beta))
    |
    v
视野内快速学习假设 (深度网络)
    |
    +---> n < n*(P) 的 n-gram loss 收敛速度 >> 视野扩展速度
    |
    +---> Loss 主要由视野边界条件熵决定
    |
    v
核心预测
    |
    +---> L(P) - H_inf ~ n*(P)^(-gamma) ~ P^(-gamma/(2*beta))
    |
    +---> alpha_D = gamma / (2 * beta)
    |
    v
实验验证
    |
    +---> TinyStories: 预测 0.19 vs 实测 ~0.19
    +---> WikiText: 预测 0.14 vs 实测 ~0.14
    +---> Scaling collapse: 重标度后曲线坍缩

NAPKIN SKETCH

Loss
  |
  |  \
  |   \        Scaling Law: L ~ P^(-alpha_D)
  |    \
  |     \___
  |         \___
  |             \___________
  |                          ---> H_inf (不可约熵)
  +---------------------------------> P (训练数据量)


            为什么是这个斜率？

            斜率 = alpha_D = gamma/(2*beta)

  Context   gamma 决定:              beta 决定:
  Window    每多看一个 token          相关信号随距离
            能减少多少不确定性        衰减有多快
    |
    |<-- n*(P) -->|                      信号
    |  能利用的   |  看不到的             |
    |  上下文     |  上下文               |  \
    |             |                      |   \___  ~ n^(-beta)
    +-------------+-------->             +----------->
    1         n*(P)     n                1          n

    n*(P) ~ P^(1/(2*beta))

    数据越多 => 视野越远 => 但收益递减 => 幂律

TRANSFER MATRIX

AI 训练策略

通过测量目标语料的 gamma 和 beta，可以不训练大模型就预估 scaling 行为 → Scaling Law 可预测，不只是可拟合

数据效率

不同语料的 gamma/beta 不同，意味着同样的数据量对不同数据集的收益不同 → Data ROI = f(gamma, beta)

架构选择

如果"视野内快速学习"是普适性类的定义条件，那些满足/不满足此条件的架构应该有不同的 scaling exponent → Architecture evaluation via scaling collapse

xray-neural-scaling-laws

xray-neural-scaling-laws

顿悟

NAPKIN FORMULA

PROBLEM

痛点定义

核心矛盾

INSIGHT

核心直觉

关键步骤

DELTA

新拼图

CRITIQUE

隐形假设

未解之谜

LOGIC FLOW

NAPKIN SKETCH

TRANSFER MATRIX

AI 训练策略

数据效率

架构选择

💬 评论