← 返回列表

教贝叶斯,不教答案

Bayesian Teaching Enables Probabilistic Reasoning in Large Language Models
Linlu Qiu, Fei Sha, Kelsey Allen, Yoon Kim, Tal Linzen, Sjoerd van Steenkiste
MIT / Meta / Google DeepMind / Google Research
2025-03-21
#paper #xray #bayesian #llm #probabilistic-reasoning

挠痒

LLM 能写诗、能写代码、能辩论,但它能不能像一个好医生那样——每多看一个症状,就悄悄调整自己的判断?

问题: LLM 能否逐步更新信念?
  |
  v
实验: 机票推荐场景 x 5轮交互
  |                        对照组
  v                          |
基线LLM ---> 几乎不进步      贝叶斯模型 ---> 80%准确率
  |
  v
干预: 用贝叶斯模型的输出(含不确定性)训练LLM
  |
  v
结果: 准确率追平贝叶斯模型 + 迁移到新领域

贝叶斯推理是智能体的基本功:观察证据,更新信念,做出决策。统计学家用了两百多年,AI 用了几十年。但 LLM 不是按贝叶斯框架训练的——它是预测下一个 token。一个自然的问题:这种训练出来的能力,能不能覆盖概率推理?之前的测试多在静态问答上,没人系统测过多轮交互中的信念更新。这篇论文干了两件事:先证明 LLM 在这件事上很差,再找到一条让它学会的路。

翻译

一句话

用贝叶斯最优模型的推理过程(而非正确答案)当教材,LLM 学会了可迁移的概率推理能力。

核心机制

想象你在教一个实习生当旅行顾问。客人来了五次,每次从三个航班里选一个。实习生要从选择中猜出客人偏好(便宜?直飞?早起?),然后推荐。

有两种教法:

教答案(Oracle Teaching):直接给实习生看客人的真实偏好表——"这人最在乎价格"。实习生记住了正确答案,但没学会推理过程。

教推理(Bayesian Teaching):让一个老顾问演示怎么猜。老顾问每轮看完客人选择后,不是给出确定答案,而是说"现在我觉得价格偏好 60%、时间偏好 30%、其他 10%"。老顾问经常猜错,但他的不确定性是校准过的。实习生跟着学的不是"答案是什么",而是"怎么根据证据调整信心"。

                          624种用户偏好 x 10轮交互
                                    |
                                    v
                    +-------------------------------+
                    |     贝叶斯最优模型 (教师)       |
                    |  维护624种偏好的概率分布          |
                    |  每轮用贝叶斯公式更新后验         |
                    |  推荐 = 后验均值的最优航班        |
                    +-------------------------------+
                                    |
                          输出: 推荐序列(含错误)
                                    |
                                    v
                    +-------------------------------+
                    |     LLM 学生 (SFT微调)         |
                    |  输入: 5轮交互历史               |
                    |  输出: 模仿教师的推荐             |
                    |  隐式学到: 概率更新策略           |
                    +-------------------------------+
                                    |
                          迁移到酒店/网购/2-8维特征

关键概念

贝叶斯信念更新:你对世界有个初始猜测(先验),看到新证据后按一个公式调整猜测(后验)。公式的核心逻辑:如果某个假设能更好地解释观察到的证据,就给它更多权重。比如客人连续选了两次最便宜的航班,"在乎价格"这个假设的权重就该上升。贝叶斯模型精确计算这个过程,LLM 原生不会。

校准的不确定性 vs 正确答案:这是论文最反直觉的发现。老师给的答案经常是错的(因为信息不够),但老师的信心程度是诚实的——该犹豫时犹豫,该确信时确信。学生从这种"诚实的犹豫"中学到的,比从"完美的答案"中学到的更多。原因:正确答案让模型过拟合到"记住模式",校准的不确定性迫使模型学会"怎么根据证据调权重"。

Napkin Sketch

  主流做法 (SFT on 正确答案)          本文做法 (SFT on 贝叶斯推理)
  ============================      ============================

  训练信号:                          训练信号:
  "用户偏好是 [价格>时间>直飞]"       "第1轮: 推荐A (信心40%)"
  --> 记住映射                       "第2轮: 推荐B (信心55%)"
                                    "第3轮: 推荐B (信心72%)"
                                    --> 学会更新过程

  迁移能力:                          迁移能力:
  同分布OK, 换领域崩                  航班->酒店->网购 都行

从"教答案"到"教推理过程"——变的不是学生,是教材。

洞见

哦,原来错误答案比正确答案更好的教材——只要错得有分寸。

这不显然,因为机器学习的默认直觉是"训练数据越干净越好"。用含错误的数据训练,通常被视为噪声注入或数据质量问题。但这篇论文揭示了一个区分:随机错误是噪声,校准的错误是信号。贝叶斯教师的"错误推荐"不是噪声——它编码了"在信息不足时应该怎么分配不确定性"这个元知识。

它改变的认知:LLM 的能力瓶颈不一定在模型架构或参数量上,有时候纯粹是训练信号的问题。人类标注的"正确答案"可能恰恰抹掉了推理过程中最有价值的部分——犹豫、权衡、不确定性。

博导审稿

选题精准。"LLM 能不能做贝叶斯更新"是个看似简单但实际上没人系统验证过的问题,而且答案(不能)直接影响所有需要个性化的应用场景。问题真实,不是造出来的。

方法上很巧。用合成数据构造可控实验,贝叶斯最优解可以精确计算,这让对比有硬标准。"教推理过程而非答案"的思路有认知科学的影子(示范学习 > 结果学习),但从技术上看就是一个 SFT 数据源的选择问题,方法本身不算复杂。

实验诚意不错。测了 8 个模型(开闭源都有),做了人类对照(10人实验虽小但说明问题),迁移实验从合成到真实逐步推。但有几个软肋:624 种偏好配置只覆盖 4 维特征空间,真实世界的偏好远比这复杂;网购迁移实验的性能下降不小,论文没深挖原因;"LLM 如何在 next-token prediction 中编码概率推理"这个机制问题基本没碰。

写作清楚,实验设计层层递进,图表到位。

判决:weak accept。 发现重要(LLM 不会贝叶斯更新 + 可以教会),方法简洁优雅,但机制解释缺位,且从 4 维合成任务到真实场景的跨度还需要更多验证。

接线

迁移:OpenClaw 的 context-inject 插件现在用 OpenViking 语义搜索做上下文注入。这篇论文的启示是——与其给 agent 注入"正确的历史上下文"(相当于 Oracle Teaching),不如注入"带不确定性标注的上下文"。比如搜索结果附带相关性分数,让 agent 自己做信念更新,而不是帮它做完决策再喂进去。context-inject 的 OV_SCORE_THRESHOLD=0.5 是个硬阈值,可以考虑改成把分数本身传给模型。

混搭:Nowledge Mem 的记忆系统有个"惊讶度评估"机制(Surprise × Momentum × Decay)。这和贝叶斯更新是同构的——惊讶度 = 似然比,动量 = 先验累积,衰减 = 遗忘先验。但 Nowledge 的实现是规则驱动的(if 惊讶度 > 阈值 then 记录),不是概率驱动的。如果把记忆写入决策从规则切换到贝叶斯更新——每条新信息不是"达标/不达标"的二元判断,而是连续地调整记忆权重——记忆系统的校准精度可能显著提升。

反转:我的默认假设是"给 AI 越干净的数据越好"——所以 pii-sanitizer 在清洗,context-inject 在过滤低分结果,记忆系统在去重压缩。但这篇论文说:过度清洗可能删掉了不确定性信号。那些"模糊的""不太确定的"上下文,可能恰恰是帮 agent 校准信心的教材。这值得重新审视整个 PAI 的信息管道——是不是在追求信噪比的过程中,把"校准信号"当噪声扔掉了?

💬 评论