From Entropy to Epiplexity: Rethinking Information for Computationally Bounded Intelligence
论文 X 光:Epiplexity — 重新定义"数据的价值"
2026-01-06 · arXiv:2601.03220
📝 NAPKIN FORMULA
数据 = 结构信息 (Epiplexity) + 随机噪声 (Time-bounded Entropy)
S_T(X) = |P*| ← 最优模型程序的长度(可学习的 pattern)
H_T(X) = E[log 1/P*(X)] ← 用最优模型编码后剩余的不可预测性
关键约束:观察者算力有限 T = poly(n)
一句话:经典信息论假设观察者有无限算力,因此区分不出"有用的结构"和"纯粹的噪声"。给观察者戴上算力枷锁后,数据的信息内容自然分裂为两部分——模型能学到的(epiplexity)和学不到的(time-bounded entropy)。
🎯 PROBLEM
痛点定义
Shannon 信息论和 Kolmogorov 复杂度无法衡量"对有限算力的学习者而言,数据中有多少可学习的结构性信息"。
前人困境
- Shannon 熵 — 只描述随机变量的不确定性,确定性对象"信息量为零"。但 AlphaZero 从确定性规则中学出了超人策略。
- Kolmogorov 复杂度 — 不可计算,且假设无限时间运行程序。CSPRNG 输出只有 k 位 Kolmogorov 复杂度,但对多项式时间观察者来说与真随机无法区分。
- Sophistication(算法信息论中的"结构度")— 理论上捕捉结构,但由于不限计算时间,流体混合、元胞自动机等复杂现象全被"压扁"为简单描述。
- Data Processing Inequality — 似乎禁止合成数据增加信息,直接与 LLM 训练实践矛盾。
核心矛盾
理论说"确定性变换不增加信息",但实践中:合成数据有效、self-play 产生新知、数据顺序影响学习、likelihood 建模能发现比生成过程更复杂的结构。
💡 INSIGHT
核心直觉
信息是观察者相对的。同一个对象,对拥有无限算力的观察者和只有多项式时间的观察者来说,"随机"和"有结构"的边界完全不同。
把密码学的核心洞见(one-way function 让正向计算容易、逆向计算困难)桥接到学习理论:函数 f 和它的逆 f⁻¹ 在有限算力下不对称,这种不对称才是信息被"创造"的根源。
关键步骤
1. Time-bounded MDL 分解
给 MDL(最小描述长度)原则加上算力约束。最优模型程序 P* 最小化 |P| + E[log 1/P(X)](程序长度 + 编码残差),但限制 P 必须在 T(n) 步内运行。程序长度 |P*| 就是 epiplexity,编码残差就是 time-bounded entropy。
2. 三个"悖论"的统一消解
- 悖论1(信息不可创造)→ f(X) 的 MDL_T 可以大于 X 的 MDL_T,因为即使 f 是确定性的且程序短小,f⁻¹ 可能没有短程序(one-way function)。算力约束下,确定性变换可以增加结构信息。
- 悖论2(顺序无关)→ 对有限算力观察者,P(y|x) 和 P(x|y) 的计算难度可以天差地别。同样的联合分布,不同的分解方向产生不同的 epiplexity。
- 悖论3(likelihood = 分布匹配)→ 有限算力模型在拟合简单数据生成过程时,会涌现出比生成规则本身更复杂的内部表示(如 Conway's Game of Life 中的 glider 分类器)。
📊 DELTA
vs SOTA
| 度量 | Shannon 熵 H | Kolmogorov K | Sophistication | Epiplexity S_T |
|---|---|---|---|---|
| 算力假设 | 无限 | 无限 | 无限 | 有限 T(n) |
| CSPRNG 输出 | k bits | k+c bits | ~0 | ~0 ✓ |
| 确定性变换 | 不增 | 不增(+常数) | 不增 | 可增 ✓ |
| 顺序敏感 | ✗ | ✗ | ✗ | ✓ |
| 可估算 | ✓ | ✗ | ✗ | ✓ (loss curve) |
| 对应 ML | 不直接 | 不直接 | 不直接 | 模型权重信息 |
新拼图
- 首次给出"数据价值"的形式化度量——不依赖于下游任务
- 从 model selection 理论翻转为 data selection 理论
- 实验验证:文本数据的 epiplexity 显著高于图像,解释了为什么文本预训练迁移更广
- 提供了评估合成数据价值的理论基础
⚠️ CRITIQUE
隐形假设
- 核心定理依赖于 one-way functions 的存在性——密码学标准假设,但至今未被证明(P≠NP 也未证明)
- 实际度量用神经网络作为函数类代理,与理论定义中的"所有 T-time 程序"之间存在 gap
- 假设 prequential coding 与真正的 MDL-optimal 编码差距"不影响排序"——只是经验观察,不是理论保证
- Theorem 10 只证明了 epiplexity 可以 Ω(log n) 增长——离实际观察到的 power law scaling 差了几个数量级
未解之谜
- Epiplexity 与 OOD 泛化是相关性不是因果性——高 epiplexity 数据产生的 circuit 不一定对目标任务有用
- 对于特定模型架构(Transformer vs CNN),epiplexity 度量可能完全不同——承认了但没解决
- Chain of thought 如何影响有效的算力约束 T?论文暗示 CoT 可以突破固定深度电路限制,但没有形式化
- 条件 epiplexity S_T(X|m)(给定预训练模型后的增量信息)的实际度量方法缺失——这正是 post-training 数据选择最需要的
🔗 LOGIC FLOW
经典信息论的三个"不可能"
│
│ [Shannon] 确定性变换不增加信息
│ [Kolmogorov] 信息与顺序无关
│ [Likelihood] 模型不能超越生成过程
│
▼
但 ML 实践中全都被打破了
│
│ AlphaZero 从规则中学出超人策略
│ LLM 对数据顺序敏感
│ Game of Life 模型涌现高级概念
│
▼
根源: 经典理论假设无限算力观察者
│
▼
┌── 引入算力约束 T(n) ──┐
│ │
│ 借鉴密码学: │
│ f 和 f⁻¹ 在有限 │
│ 算力下不对称 │
│ │
└────────────────────────┘
│
▼
Time-bounded MDL 分解
│
├──▶ Epiplexity S_T = |P*| 结构信息 = 模型复杂度
│
└──▶ TB Entropy H_T = E[-logP*] 随机信息 = 编码残差
│
▼
实操度量
│
├──▶ Prequential: loss curve 下方面积
└──▶ Requential: teacher-student KL 累积
│
▼
验证
│
├──▶ 文本 > 图像 epiplexity → 解释迁移能力差异
├──▶ 高 epiplexity ↔ 更好 OOD 泛化
└──▶ 数据选择策略的理论基础
✏️ NAPKIN SKETCH
数据的信息构成 (有限算力视角)
┌─────────────────────────────────┐
│ Total MDL_T │
│ │
│ ┌──────────┐ ┌────────────┐ │
│ │ │ │ │ │
│ │ S_T │ │ H_T │ │
│ │ 结构信息 │ │ 随机噪声 │ │
│ │ (模型) │ │ (残差) │ │
│ │ │ │ │ │
│ │ 可学习 │ │ 不可预测 │ │
│ │ 可迁移 │ │ 纯熵 │ │
│ │ │ │ │ │
│ └──────────┘ └────────────┘ │
└─────────────────────────────────┘
算法代码: S_T ██████░ H_T ░░
自然图像: S_T ████░░░ H_T ███░
CSPRNG: S_T ░░░░░░░ H_T ██████
Config/随机: S_T ░░░░░░░ H_T ██████
░ = 低 █ = 高
增加算力 T ↑ → 更多"随机"变为"结构"
(CSPRNG 对无限算力观察者: S=0, H=k)
(CSPRNG 对有限算力观察者: S≈0, H≈n >> k)
🔄 TRANSFER MATRIX
AI 训练数据策略
选高 epiplexity 数据(复杂算法代码 > 配置文件/日志)
→ Data Value = S_T, not H_T
合成数据理论
确定性变换可以增加对有限算力学习者的结构信息
→ Synthetic Data ≠ Zero Information Gain
投资/风险管理类比
市场数据也有"结构信息 vs 噪声"的分离——技术分析试图从有限观察中提取 pattern,等价于有限算力观察者的 epiplexity
→ Signal Extraction ≈ Epiplexity Estimation