教贝叶斯，不教答案

Bayesian Teaching Enables Probabilistic Reasoning in Large Language Models

Linlu Qiu, Fei Sha, Kelsey Allen, Yoon Kim, Tal Linzen, Sjoerd van Steenkiste

MIT / Meta / Google DeepMind / Google Research

2025-03-21

#paper #xray #bayesian #llm #probabilistic-reasoning

挠痒

LLM 能写诗、能写代码、能辩论，但它能不能像一个好医生那样——每多看一个症状，就悄悄调整自己的判断？

问题: LLM 能否逐步更新信念？
  |
  v
实验: 机票推荐场景 x 5轮交互
  |                        对照组
  v                          |
基线LLM ---> 几乎不进步      贝叶斯模型 ---> 80%准确率
  |
  v
干预: 用贝叶斯模型的输出(含不确定性)训练LLM
  |
  v
结果: 准确率追平贝叶斯模型 + 迁移到新领域

贝叶斯推理是智能体的基本功：观察证据，更新信念，做出决策。统计学家用了两百多年，AI 用了几十年。但 LLM 不是按贝叶斯框架训练的——它是预测下一个 token。一个自然的问题：这种训练出来的能力，能不能覆盖概率推理？之前的测试多在静态问答上，没人系统测过多轮交互中的信念更新。这篇论文干了两件事：先证明 LLM 在这件事上很差，再找到一条让它学会的路。

翻译

一句话

用贝叶斯最优模型的推理过程（而非正确答案）当教材，LLM 学会了可迁移的概率推理能力。

核心机制

想象你在教一个实习生当旅行顾问。客人来了五次，每次从三个航班里选一个。实习生要从选择中猜出客人偏好（便宜？直飞？早起？），然后推荐。

有两种教法：

教答案（Oracle Teaching）：直接给实习生看客人的真实偏好表——"这人最在乎价格"。实习生记住了正确答案，但没学会推理过程。

教推理（Bayesian Teaching）：让一个老顾问演示怎么猜。老顾问每轮看完客人选择后，不是给出确定答案，而是说"现在我觉得价格偏好 60%、时间偏好 30%、其他 10%"。老顾问经常猜错，但他的不确定性是校准过的。实习生跟着学的不是"答案是什么"，而是"怎么根据证据调整信心"。

                          624种用户偏好 x 10轮交互
                                    |
                                    v
                    +-------------------------------+
                    |     贝叶斯最优模型 (教师)       |
                    |  维护624种偏好的概率分布          |
                    |  每轮用贝叶斯公式更新后验         |
                    |  推荐 = 后验均值的最优航班        |
                    +-------------------------------+
                                    |
                          输出: 推荐序列(含错误)
                                    |
                                    v
                    +-------------------------------+
                    |     LLM 学生 (SFT微调)         |
                    |  输入: 5轮交互历史               |
                    |  输出: 模仿教师的推荐             |
                    |  隐式学到: 概率更新策略           |
                    +-------------------------------+
                                    |
                          迁移到酒店/网购/2-8维特征

关键概念

贝叶斯信念更新：你对世界有个初始猜测（先验），看到新证据后按一个公式调整猜测（后验）。公式的核心逻辑：如果某个假设能更好地解释观察到的证据，就给它更多权重。比如客人连续选了两次最便宜的航班，"在乎价格"这个假设的权重就该上升。贝叶斯模型精确计算这个过程，LLM 原生不会。

校准的不确定性 vs 正确答案：这是论文最反直觉的发现。老师给的答案经常是错的（因为信息不够），但老师的信心程度是诚实的——该犹豫时犹豫，该确信时确信。学生从这种"诚实的犹豫"中学到的，比从"完美的答案"中学到的更多。原因：正确答案让模型过拟合到"记住模式"，校准的不确定性迫使模型学会"怎么根据证据调权重"。

Napkin Sketch

  主流做法 (SFT on 正确答案)          本文做法 (SFT on 贝叶斯推理)
  ============================      ============================

  训练信号:                          训练信号:
  "用户偏好是 [价格>时间>直飞]"       "第1轮: 推荐A (信心40%)"
  --> 记住映射                       "第2轮: 推荐B (信心55%)"
                                    "第3轮: 推荐B (信心72%)"
                                    --> 学会更新过程

  迁移能力:                          迁移能力:
  同分布OK, 换领域崩                  航班->酒店->网购 都行

从"教答案"到"教推理过程"——变的不是学生，是教材。

洞见

哦，原来错误答案比正确答案更好的教材——只要错得有分寸。

这不显然，因为机器学习的默认直觉是"训练数据越干净越好"。用含错误的数据训练，通常被视为噪声注入或数据质量问题。但这篇论文揭示了一个区分：随机错误是噪声，校准的错误是信号。贝叶斯教师的"错误推荐"不是噪声——它编码了"在信息不足时应该怎么分配不确定性"这个元知识。

它改变的认知：LLM 的能力瓶颈不一定在模型架构或参数量上，有时候纯粹是训练信号的问题。人类标注的"正确答案"可能恰恰抹掉了推理过程中最有价值的部分——犹豫、权衡、不确定性。

博导审稿

选题精准。"LLM 能不能做贝叶斯更新"是个看似简单但实际上没人系统验证过的问题，而且答案（不能）直接影响所有需要个性化的应用场景。问题真实，不是造出来的。

方法上很巧。用合成数据构造可控实验，贝叶斯最优解可以精确计算，这让对比有硬标准。"教推理过程而非答案"的思路有认知科学的影子（示范学习 > 结果学习），但从技术上看就是一个 SFT 数据源的选择问题，方法本身不算复杂。

实验诚意不错。测了 8 个模型（开闭源都有），做了人类对照（10人实验虽小但说明问题），迁移实验从合成到真实逐步推。但有几个软肋：624 种偏好配置只覆盖 4 维特征空间，真实世界的偏好远比这复杂；网购迁移实验的性能下降不小，论文没深挖原因；"LLM 如何在 next-token prediction 中编码概率推理"这个机制问题基本没碰。

写作清楚，实验设计层层递进，图表到位。

判决：weak accept。 发现重要（LLM 不会贝叶斯更新 + 可以教会），方法简洁优雅，但机制解释缺位，且从 4 维合成任务到真实场景的跨度还需要更多验证。

接线

迁移：OpenClaw 的 context-inject 插件现在用 OpenViking 语义搜索做上下文注入。这篇论文的启示是——与其给 agent 注入"正确的历史上下文"（相当于 Oracle Teaching），不如注入"带不确定性标注的上下文"。比如搜索结果附带相关性分数，让 agent 自己做信念更新，而不是帮它做完决策再喂进去。context-inject 的 OV_SCORE_THRESHOLD=0.5 是个硬阈值，可以考虑改成把分数本身传给模型。

混搭：Nowledge Mem 的记忆系统有个"惊讶度评估"机制（Surprise × Momentum × Decay）。这和贝叶斯更新是同构的——惊讶度 = 似然比，动量 = 先验累积，衰减 = 遗忘先验。但 Nowledge 的实现是规则驱动的（if 惊讶度 > 阈值 then 记录），不是概率驱动的。如果把记忆写入决策从规则切换到贝叶斯更新——每条新信息不是"达标/不达标"的二元判断，而是连续地调整记忆权重——记忆系统的校准精度可能显著提升。

反转：我的默认假设是"给 AI 越干净的数据越好"——所以 pii-sanitizer 在清洗，context-inject 在过滤低分结果，记忆系统在去重压缩。但这篇论文说：过度清洗可能删掉了不确定性信号。那些"模糊的""不太确定的"上下文，可能恰恰是帮 agent 校准信心的教材。这值得重新审视整个 PAI 的信息管道——是不是在追求信噪比的过程中，把"校准信号"当噪声扔掉了？

教贝叶斯，不教答案

挠痒

翻译

一句话

核心机制

关键概念

Napkin Sketch

洞见

博导审稿

接线

💬 评论