From Entropy to Epiplexity: Rethinking Information for Computationally Bounded Intelligence

论文 X 光：Epiplexity — 重新定义"数据的价值"

Marc Finzi · Shikai Qiu · Yiding Jiang · Pavel Izmailov · J. Zico Kolter · Andrew Gordon Wilson

Carnegie Mellon University · New York University

2026-01-06 · arXiv:2601.03220

#information-theory #data-selection #epiplexity #MDL #cryptography

📝 NAPKIN FORMULA

数据 = 结构信息 (Epiplexity) + 随机噪声 (Time-bounded Entropy)

S_T(X) = |P*|            ← 最优模型程序的长度（可学习的 pattern）
H_T(X) = E[log 1/P*(X)]  ← 用最优模型编码后剩余的不可预测性

关键约束：观察者算力有限  T = poly(n)

一句话：经典信息论假设观察者有无限算力，因此区分不出"有用的结构"和"纯粹的噪声"。给观察者戴上算力枷锁后，数据的信息内容自然分裂为两部分——模型能学到的（epiplexity）和学不到的（time-bounded entropy）。

🎯 PROBLEM

痛点定义

Shannon 信息论和 Kolmogorov 复杂度无法衡量"对有限算力的学习者而言，数据中有多少可学习的结构性信息"。

前人困境

Shannon 熵 — 只描述随机变量的不确定性，确定性对象"信息量为零"。但 AlphaZero 从确定性规则中学出了超人策略。
Kolmogorov 复杂度 — 不可计算，且假设无限时间运行程序。CSPRNG 输出只有 k 位 Kolmogorov 复杂度，但对多项式时间观察者来说与真随机无法区分。
Sophistication（算法信息论中的"结构度"）— 理论上捕捉结构，但由于不限计算时间，流体混合、元胞自动机等复杂现象全被"压扁"为简单描述。
Data Processing Inequality — 似乎禁止合成数据增加信息，直接与 LLM 训练实践矛盾。

核心矛盾

理论说"确定性变换不增加信息"，但实践中：合成数据有效、self-play 产生新知、数据顺序影响学习、likelihood 建模能发现比生成过程更复杂的结构。

💡 INSIGHT

核心直觉

信息是观察者相对的。同一个对象，对拥有无限算力的观察者和只有多项式时间的观察者来说，"随机"和"有结构"的边界完全不同。

把密码学的核心洞见（one-way function 让正向计算容易、逆向计算困难）桥接到学习理论：函数 f 和它的逆 f⁻¹ 在有限算力下不对称，这种不对称才是信息被"创造"的根源。

关键步骤

1. Time-bounded MDL 分解

给 MDL（最小描述长度）原则加上算力约束。最优模型程序 P* 最小化 |P| + E[log 1/P(X)]（程序长度 + 编码残差），但限制 P 必须在 T(n) 步内运行。程序长度 |P*| 就是 epiplexity，编码残差就是 time-bounded entropy。

2. 三个"悖论"的统一消解

悖论1（信息不可创造）→ f(X) 的 MDL_T 可以大于 X 的 MDL_T，因为即使 f 是确定性的且程序短小，f⁻¹ 可能没有短程序（one-way function）。算力约束下，确定性变换可以增加结构信息。
悖论2（顺序无关）→ 对有限算力观察者，P(y|x) 和 P(x|y) 的计算难度可以天差地别。同样的联合分布，不同的分解方向产生不同的 epiplexity。
悖论3（likelihood = 分布匹配）→ 有限算力模型在拟合简单数据生成过程时，会涌现出比生成规则本身更复杂的内部表示（如 Conway's Game of Life 中的 glider 分类器）。

📊 DELTA

vs SOTA

度量	Shannon 熵 H	Kolmogorov K	Sophistication	Epiplexity S_T
算力假设	无限	无限	无限	有限 T(n)
CSPRNG 输出	k bits	k+c bits	~0	~0 ✓
确定性变换	不增	不增(+常数)	不增	可增 ✓
顺序敏感	✗	✗	✗	✓
可估算	✓	✗	✗	✓ (loss curve)
对应 ML	不直接	不直接	不直接	模型权重信息

新拼图

首次给出"数据价值"的形式化度量——不依赖于下游任务
从 model selection 理论翻转为 data selection 理论
实验验证：文本数据的 epiplexity 显著高于图像，解释了为什么文本预训练迁移更广
提供了评估合成数据价值的理论基础

⚠️ CRITIQUE

隐形假设

核心定理依赖于 one-way functions 的存在性——密码学标准假设，但至今未被证明（P≠NP 也未证明）
实际度量用神经网络作为函数类代理，与理论定义中的"所有 T-time 程序"之间存在 gap
假设 prequential coding 与真正的 MDL-optimal 编码差距"不影响排序"——只是经验观察，不是理论保证
Theorem 10 只证明了 epiplexity 可以 Ω(log n) 增长——离实际观察到的 power law scaling 差了几个数量级

未解之谜

Epiplexity 与 OOD 泛化是相关性不是因果性——高 epiplexity 数据产生的 circuit 不一定对目标任务有用
对于特定模型架构（Transformer vs CNN），epiplexity 度量可能完全不同——承认了但没解决
Chain of thought 如何影响有效的算力约束 T？论文暗示 CoT 可以突破固定深度电路限制，但没有形式化
条件 epiplexity S_T(X|m)（给定预训练模型后的增量信息）的实际度量方法缺失——这正是 post-training 数据选择最需要的

🔗 LOGIC FLOW

经典信息论的三个"不可能"
    │
    │  [Shannon]      确定性变换不增加信息
    │  [Kolmogorov]   信息与顺序无关
    │  [Likelihood]   模型不能超越生成过程
    │
    ▼
但 ML 实践中全都被打破了
    │
    │  AlphaZero 从规则中学出超人策略
    │  LLM 对数据顺序敏感
    │  Game of Life 模型涌现高级概念
    │
    ▼
根源: 经典理论假设无限算力观察者
    │
    ▼
┌── 引入算力约束 T(n) ──┐
│                        │
│  借鉴密码学:           │
│  f 和 f⁻¹ 在有限      │
│  算力下不对称          │
│                        │
└────────────────────────┘
    │
    ▼
Time-bounded MDL 分解
    │
    ├──▶ Epiplexity S_T = |P*|       结构信息 = 模型复杂度
    │
    └──▶ TB Entropy H_T = E[-logP*]  随机信息 = 编码残差
    │
    ▼
实操度量
    │
    ├──▶ Prequential: loss curve 下方面积
    └──▶ Requential:  teacher-student KL 累积
    │
    ▼
验证
    │
    ├──▶ 文本 > 图像 epiplexity → 解释迁移能力差异
    ├──▶ 高 epiplexity ↔ 更好 OOD 泛化
    └──▶ 数据选择策略的理论基础

✏️ NAPKIN SKETCH

          数据的信息构成 (有限算力视角)

     ┌─────────────────────────────────┐
     │          Total MDL_T            │
     │                                 │
     │  ┌──────────┐  ┌────────────┐  │
     │  │          │  │            │  │
     │  │ S_T      │  │   H_T     │  │
     │  │ 结构信息  │  │  随机噪声  │  │
     │  │ (模型)   │  │  (残差)    │  │
     │  │          │  │            │  │
     │  │ 可学习   │  │  不可预测  │  │
     │  │ 可迁移   │  │  纯熵     │  │
     │  │          │  │            │  │
     │  └──────────┘  └────────────┘  │
     └─────────────────────────────────┘

     算法代码:    S_T ██████░   H_T ░░
     自然图像:    S_T ████░░░   H_T ███░
     CSPRNG:     S_T ░░░░░░░   H_T ██████
     Config/随机: S_T ░░░░░░░   H_T ██████

     ░ = 低    █ = 高

     增加算力 T ↑ → 更多"随机"变为"结构"
     (CSPRNG 对无限算力观察者: S=0, H=k)
     (CSPRNG 对有限算力观察者: S≈0, H≈n >> k)

🔄 TRANSFER MATRIX

AI 训练数据策略
选高 epiplexity 数据（复杂算法代码 > 配置文件/日志）
→ Data Value = S_T, not H_T

合成数据理论
确定性变换可以增加对有限算力学习者的结构信息
→ Synthetic Data ≠ Zero Information Gain

投资/风险管理类比
市场数据也有"结构信息 vs 噪声"的分离——技术分析试图从有限观察中提取 pattern，等价于有限算力观察者的 epiplexity
→ Signal Extraction ≈ Epiplexity Estimation