← 返回列表
From Entropy to Epiplexity: Rethinking Information for Computationally Bounded Intelligence

论文 X 光:Epiplexity — 重新定义"数据的价值"

Marc Finzi · Shikai Qiu · Yiding Jiang · Pavel Izmailov · J. Zico Kolter · Andrew Gordon Wilson
Carnegie Mellon University · New York University
2026-01-06 · arXiv:2601.03220
#information-theory #data-selection #epiplexity #MDL #cryptography

📝 NAPKIN FORMULA

数据 = 结构信息 (Epiplexity) + 随机噪声 (Time-bounded Entropy)

S_T(X) = |P*|            ← 最优模型程序的长度(可学习的 pattern)
H_T(X) = E[log 1/P*(X)]  ← 用最优模型编码后剩余的不可预测性

关键约束:观察者算力有限  T = poly(n)
一句话:经典信息论假设观察者有无限算力,因此区分不出"有用的结构"和"纯粹的噪声"。给观察者戴上算力枷锁后,数据的信息内容自然分裂为两部分——模型能学到的(epiplexity)和学不到的(time-bounded entropy)。

🎯 PROBLEM

痛点定义

Shannon 信息论和 Kolmogorov 复杂度无法衡量"对有限算力的学习者而言,数据中有多少可学习的结构性信息"。

前人困境

  • Shannon 熵 — 只描述随机变量的不确定性,确定性对象"信息量为零"。但 AlphaZero 从确定性规则中学出了超人策略。
  • Kolmogorov 复杂度 — 不可计算,且假设无限时间运行程序。CSPRNG 输出只有 k 位 Kolmogorov 复杂度,但对多项式时间观察者来说与真随机无法区分。
  • Sophistication(算法信息论中的"结构度")— 理论上捕捉结构,但由于不限计算时间,流体混合、元胞自动机等复杂现象全被"压扁"为简单描述。
  • Data Processing Inequality — 似乎禁止合成数据增加信息,直接与 LLM 训练实践矛盾。

核心矛盾

理论说"确定性变换不增加信息",但实践中:合成数据有效、self-play 产生新知、数据顺序影响学习、likelihood 建模能发现比生成过程更复杂的结构。

💡 INSIGHT

核心直觉

信息是观察者相对的。同一个对象,对拥有无限算力的观察者和只有多项式时间的观察者来说,"随机"和"有结构"的边界完全不同。

把密码学的核心洞见(one-way function 让正向计算容易、逆向计算困难)桥接到学习理论:函数 f 和它的逆 f⁻¹ 在有限算力下不对称,这种不对称才是信息被"创造"的根源。

关键步骤

1. Time-bounded MDL 分解

给 MDL(最小描述长度)原则加上算力约束。最优模型程序 P* 最小化 |P| + E[log 1/P(X)](程序长度 + 编码残差),但限制 P 必须在 T(n) 步内运行。程序长度 |P*| 就是 epiplexity,编码残差就是 time-bounded entropy。

2. 三个"悖论"的统一消解

  • 悖论1(信息不可创造)→ f(X) 的 MDL_T 可以大于 X 的 MDL_T,因为即使 f 是确定性的且程序短小,f⁻¹ 可能没有短程序(one-way function)。算力约束下,确定性变换可以增加结构信息
  • 悖论2(顺序无关)→ 对有限算力观察者,P(y|x) 和 P(x|y) 的计算难度可以天差地别。同样的联合分布,不同的分解方向产生不同的 epiplexity。
  • 悖论3(likelihood = 分布匹配)→ 有限算力模型在拟合简单数据生成过程时,会涌现出比生成规则本身更复杂的内部表示(如 Conway's Game of Life 中的 glider 分类器)。

📊 DELTA

vs SOTA

度量Shannon 熵 HKolmogorov KSophisticationEpiplexity S_T
算力假设无限无限无限有限 T(n)
CSPRNG 输出k bitsk+c bits~0~0 ✓
确定性变换不增不增(+常数)不增可增 ✓
顺序敏感
可估算✓ (loss curve)
对应 ML不直接不直接不直接模型权重信息

新拼图

  • 首次给出"数据价值"的形式化度量——不依赖于下游任务
  • 从 model selection 理论翻转为 data selection 理论
  • 实验验证:文本数据的 epiplexity 显著高于图像,解释了为什么文本预训练迁移更广
  • 提供了评估合成数据价值的理论基础

⚠️ CRITIQUE

隐形假设

  • 核心定理依赖于 one-way functions 的存在性——密码学标准假设,但至今未被证明(P≠NP 也未证明)
  • 实际度量用神经网络作为函数类代理,与理论定义中的"所有 T-time 程序"之间存在 gap
  • 假设 prequential coding 与真正的 MDL-optimal 编码差距"不影响排序"——只是经验观察,不是理论保证
  • Theorem 10 只证明了 epiplexity 可以 Ω(log n) 增长——离实际观察到的 power law scaling 差了几个数量级

未解之谜

  • Epiplexity 与 OOD 泛化是相关性不是因果性——高 epiplexity 数据产生的 circuit 不一定对目标任务有用
  • 对于特定模型架构(Transformer vs CNN),epiplexity 度量可能完全不同——承认了但没解决
  • Chain of thought 如何影响有效的算力约束 T?论文暗示 CoT 可以突破固定深度电路限制,但没有形式化
  • 条件 epiplexity S_T(X|m)(给定预训练模型后的增量信息)的实际度量方法缺失——这正是 post-training 数据选择最需要的

🔗 LOGIC FLOW

经典信息论的三个"不可能"
    │
    │  [Shannon]      确定性变换不增加信息
    │  [Kolmogorov]   信息与顺序无关
    │  [Likelihood]   模型不能超越生成过程
    │
    ▼
但 ML 实践中全都被打破了
    │
    │  AlphaZero 从规则中学出超人策略
    │  LLM 对数据顺序敏感
    │  Game of Life 模型涌现高级概念
    │
    ▼
根源: 经典理论假设无限算力观察者
    │
    ▼
┌── 引入算力约束 T(n) ──┐
│                        │
│  借鉴密码学:           │
│  f 和 f⁻¹ 在有限      │
│  算力下不对称          │
│                        │
└────────────────────────┘
    │
    ▼
Time-bounded MDL 分解
    │
    ├──▶ Epiplexity S_T = |P*|       结构信息 = 模型复杂度
    │
    └──▶ TB Entropy H_T = E[-logP*]  随机信息 = 编码残差
    │
    ▼
实操度量
    │
    ├──▶ Prequential: loss curve 下方面积
    └──▶ Requential:  teacher-student KL 累积
    │
    ▼
验证
    │
    ├──▶ 文本 > 图像 epiplexity → 解释迁移能力差异
    ├──▶ 高 epiplexity ↔ 更好 OOD 泛化
    └──▶ 数据选择策略的理论基础

✏️ NAPKIN SKETCH

          数据的信息构成 (有限算力视角)

     ┌─────────────────────────────────┐
     │          Total MDL_T            │
     │                                 │
     │  ┌──────────┐  ┌────────────┐  │
     │  │          │  │            │  │
     │  │ S_T      │  │   H_T     │  │
     │  │ 结构信息  │  │  随机噪声  │  │
     │  │ (模型)   │  │  (残差)    │  │
     │  │          │  │            │  │
     │  │ 可学习   │  │  不可预测  │  │
     │  │ 可迁移   │  │  纯熵     │  │
     │  │          │  │            │  │
     │  └──────────┘  └────────────┘  │
     └─────────────────────────────────┘

     算法代码:    S_T ██████░   H_T ░░
     自然图像:    S_T ████░░░   H_T ███░
     CSPRNG:     S_T ░░░░░░░   H_T ██████
     Config/随机: S_T ░░░░░░░   H_T ██████

     ░ = 低    █ = 高

     增加算力 T ↑ → 更多"随机"变为"结构"
     (CSPRNG 对无限算力观察者: S=0, H=k)
     (CSPRNG 对有限算力观察者: S≈0, H≈n >> k)

🔄 TRANSFER MATRIX

AI 训练数据策略
选高 epiplexity 数据(复杂算法代码 > 配置文件/日志)
Data Value = S_T, not H_T

合成数据理论
确定性变换可以增加对有限算力学习者的结构信息
Synthetic Data ≠ Zero Information Gain

投资/风险管理类比
市场数据也有"结构信息 vs 噪声"的分离——技术分析试图从有限观察中提取 pattern,等价于有限算力观察者的 epiplexity
Signal Extraction ≈ Epiplexity Estimation