← 返回列表

xray-neural-scaling-laws

Deriving Neural Scaling Laws from the Statistics of Natural Language
Francesco Cagnetta, Allan Raventos, Surya Ganguli, Matthieu Wyart
EPFL, Stanford University
2026-02-12
#paper #xray #scaling-laws #language-statistics #information-theory

xray-neural-scaling-laws

论文: Deriving Neural Scaling Laws from the Statistics of Natural Language

作者: Francesco Cagnetta, Allan Raventos, Surya Ganguli, Matthieu Wyart

机构: EPFL, Stanford University

日期: 2026-02-12

标签: #paper #xray #scaling-laws #language-statistics #information-theory


📄 智慧晶核

Scaling exponent = 语言统计量的函数,不需要自由参数

alpha_D = gamma / (2 * beta)

gamma = 条件熵随上下文长度的衰减指数

beta = token 相关性随距离的衰减指数

关键约束:数据越多,模型能利用的上下文越长

顿悟

所有关于 scaling law 的讨论都在问"为什么 loss 随数据量幂律下降",但从来没人从语言本身的统计结构出发给出定量预测。这篇论文的核心洞见是:语言有两个可测量的统计性质——token 之间的相关性衰减速度,以及条件熵随上下文增长的下降速度——这两个量的比值直接决定了 scaling exponent,不需要任何拟合参数。


NAPKIN FORMULA

+----------------------------------------------------------+
|                                                          |
|   alpha_D  =  gamma  /  ( 2 * beta )                    |
|                                                          |
|   gamma : H_n - H_inf ~ n^(-gamma)   条件熵衰减          |
|   beta  : ||C(n)||    ~ n^(-beta)    相关性衰减           |
|                                                          |
|   n*(P)  ~ P^(1/2*beta)   数据决定的有效上下文长度         |
|                                                          |
+----------------------------------------------------------+

数据量 P 决定了模型能"看到"多远的上下文 n\*(P),而条件熵在该距离上的值决定了 loss 的下限。两者的交互产生了幂律 scaling。


PROBLEM

痛点定义

Neural scaling law(loss ~ P^(-alpha_D))的指数 alpha_D 至今只能靠拟合实验数据得到,没有从第一性原理推导出来的定量理论

前人困境:

  • Chinchilla / Kaplan 等经验法则 只告诉你"拟合出来的 alpha 大约是多少",无法解释为什么是这个值
  • 合成数据理论 (Hidden Markov Models, Random Hierarchies) 虽然能推导 scaling law,但依赖人造数据生成过程,无法直接迁移到自然语言
  • 统计力学方法 需要假设数据分布的具体形式(如 Zipf 分布),缺乏普适性
  • 信息论下界 给出 loss 不可能低于真实熵,但对 scaling 速率没有约束

核心矛盾

所有人都在用 scaling law 做预测和资源规划,但没有人能从语言本身的可测量性质出发,不依赖任何模型假设地预测 scaling exponent。


INSIGHT

核心直觉

模型学习语言的过程可以理解为逐步扩展有效预测范围

数据少 → 只能利用短距离上下文 → loss 高

数据多 → 能利用更远距离上下文 → loss 低

扩展速度 和 收益递减速度 的比值 = scaling exponent

这就像你学一门外语:开始只能记住单词(1-gram),然后学会短语(2-3 gram),最后掌握句法(长距离依赖)。数据量决定你能"解锁"多远的语言结构

关键步骤

  1. 数据依赖的预测视野 n\(P): 给定 P 个训练 token,模型能有效利用的最大上下文长度为 n\(P) ~ P^(1/(2beta))。这来自信号检测论证——距离为 n 的 token 相关性强度为 n^(-beta),需要 ~ n^(2beta) 个样本才能从噪声中检测出来。
  1. 视野内的 loss 收敛: 在 n\(P) 范围内,深度网络(Transformer)学习 n-gram 统计的速度远快于视野扩展速度。因此 loss 主要由视野边界处的条件熵决定,即 H_{n\} - H_inf ~ n\^(-gamma) ~ P^(-gamma/(2beta))。
  1. 架构无关的普适性: gamma 和 beta 是语言数据集的性质,不是模型架构的性质。GPT-2(绝对位置编码)、GPT-2(旋转位置编码)、LLaMA 在相同数据上收敛到相同的估计值。

DELTA

vs SOTA:

特征经验拟合 (Chinchilla)合成数据理论本文
需要训练多个模型
适用于自然语言是(事后)是(事前)
可预测 alpha否(只能拟合)是(但不通用)是,无自由参数
可解释为什么是这个值部分
架构依赖弱(深度网络普适)

实测验证:

数据集gammabeta预测 alpha_D实测 alpha_D
TinyStories0.340.880.19~0.19
WikiText-1030.270.940.14~0.14

新拼图

  • 首次从可测量的语言统计量定量预测 scaling exponent,零自由参数
  • 提出 "scaling collapse" 验证方法:用 n^gamma 和 P/n^(2*beta) 重标度后,所有 n-gram loss 曲线坍缩到同一条主曲线上
  • 引入"普适性类"概念:深度架构学习自然语言时可能共享相同的 scaling exponent,类比统计物理中的临界指数
  • 提供了不需要训练大模型就能估算 scaling law 的方法路径

CRITIQUE

隐形假设

  • "视野内快速学习"假设: 核心论证依赖于"深度网络在 n < n\(P) 范围内学习 n-gram 统计的速度远快于 P^(-gamma/(2beta))"——这是经验观察,不是定理。对浅层网络、核方法、n-gram 模型此假设很可能不成立
  • Power-law 外推: gamma 和 beta 都是从小尺度(n ~ 几十个 token)拟合的幂律。自然语言在更大尺度(段落、章节)可能有不同的统计结构,幂律可能 break down
  • n-gram loss 作为条件熵代理: 用有限大小模型的 n-gram loss 上界去逼近真正的条件熵 H_n,本身引入了模型能力的假设
  • 独立测量 gamma 和 beta: 两个指数分别从不同实验中估算,但它们可能不是独立的——语言统计结构的深层约束可能关联这两个量

未解之谜

  • 万亿 token 尺度的适用性: 实验中 n\*(P_max) 只对应"几十个 token"的上下文。现代训练用万亿级数据,有效上下文可能已达数百 token——在这个尺度上语言统计可能质变(从句法到语篇到世界知识)
  • compute-optimal scaling: 本文只讨论 data-limited scaling。当参数量 N 也变化时,alpha_D 和 alpha_N 的关系是什么?
  • 非 Transformer 架构: SSM (Mamba)、CNN 等架构的"视野内快速学习"假设是否成立?如果不成立,它们可能有不同的 scaling exponent
  • 多语言/多模态推广: gamma 和 beta 是语言特定的。对代码、数学、视觉 token,这些统计量有何变化?

LOGIC FLOW

Language Text
    |
    v
测量两个统计量
    |
    +---> gamma: 条件熵 H_n 随上下文 n 的衰减
    |         H_n - H_inf ~ n^(-gamma)
    |
    +---> beta: token 相关性 ||C(n)|| 随距离 n 的衰减
    |         ||C(n)||_op ~ n^(-beta)
    |
    v
信号检测论证
    |
    +---> 检测距离 n 的相关性需要 ~ n^(2*beta) 样本
    |
    +---> P 个样本 => 有效预测视野 n*(P) ~ P^(1/(2*beta))
    |
    v
视野内快速学习假设 (深度网络)
    |
    +---> n < n*(P) 的 n-gram loss 收敛速度 >> 视野扩展速度
    |
    +---> Loss 主要由视野边界条件熵决定
    |
    v
核心预测
    |
    +---> L(P) - H_inf ~ n*(P)^(-gamma) ~ P^(-gamma/(2*beta))
    |
    +---> alpha_D = gamma / (2 * beta)
    |
    v
实验验证
    |
    +---> TinyStories: 预测 0.19 vs 实测 ~0.19
    +---> WikiText: 预测 0.14 vs 实测 ~0.14
    +---> Scaling collapse: 重标度后曲线坍缩

NAPKIN SKETCH

Loss
  |
  |  \
  |   \        Scaling Law: L ~ P^(-alpha_D)
  |    \
  |     \___
  |         \___
  |             \___________
  |                          ---> H_inf (不可约熵)
  +---------------------------------> P (训练数据量)


            为什么是这个斜率?

            斜率 = alpha_D = gamma/(2*beta)

  Context   gamma 决定:              beta 决定:
  Window    每多看一个 token          相关信号随距离
            能减少多少不确定性        衰减有多快
    |
    |<-- n*(P) -->|                      信号
    |  能利用的   |  看不到的             |
    |  上下文     |  上下文               |  \
    |             |                      |   \___  ~ n^(-beta)
    +-------------+-------->             +----------->
    1         n*(P)     n                1          n

    n*(P) ~ P^(1/(2*beta))

    数据越多 => 视野越远 => 但收益递减 => 幂律

TRANSFER MATRIX

AI 训练策略

通过测量目标语料的 gamma 和 beta,可以不训练大模型就预估 scaling 行为 → Scaling Law 可预测,不只是可拟合

数据效率

不同语料的 gamma/beta 不同,意味着同样的数据量对不同数据集的收益不同 → Data ROI = f(gamma, beta)

架构选择

如果"视野内快速学习"是普适性类的定义条件,那些满足/不满足此条件的架构应该有不同的 scaling exponentArchitecture evaluation via scaling collapse

💬 评论