Bengio亲手戳穿CoT神话!LLM推理是假象,25%顶会论文遭打脸
【导读】原来,CoT推理竟是假象!Bengio带队最新论文戳穿了CoT神话——我们所看到的推理步骤,并非是真实的。不仅如此,LLM在推理时会悄然纠正错误,却在CoT中只字未提。
图灵奖大牛Bengio新作上线了!
这篇由牛津、谷歌DeepMind、Mila多家机构联手论文指出——思维链并非可解释性。
这一观点彻底打破了许多人的认知:
CoT看似一步步给出答案,实则并不一定是其真实的推理过程。
论文地址:https://www.alphaxiv.org/abs/2025.02
这么说来,能够暴露LLM内心世界的「思维链」,如今也不可靠了?
论文中,研究人员撕开了CoT的面纱,揭露了一个令人震惊的真相:思维链的透明度,可能只是一种精心编织的假象!
思维链「谎言」被揭穿
然而,现实中,约25%的近期AI论文错误地将CoT标榜为「可解释性技术」。
这一概念最先由前谷歌研究院Jason Wei在论文中提出,一时间,CoT被广泛应用在推理模型当中。
它最大的特点,就是能够多步骤推理,提升模型准确性。与此同时,让AI黑盒变得不再那么神秘。
然而, CoT思考过程,是其真正的内心OS吗?
一些论文信誓旦旦地宣称,CoT可以让我们看清AI的推理过程,但事实远非如此。
尤其是,在高风险领域,这个误解的代价可能是致命的。
研究人员发现,在使用CoT论文中,约38%医疗 AI、25%法律AI、63%自动驾驶汽车相关论文,都盲目地将CoT视为可解释性方法。
更令人毛骨悚然的是,带有明确偏见的提示词,可以轻易左右模型的答案。
而且,这些偏见在AI给出的「推理步骤」中只字不提。
AI能为带有偏见的答案,编织出看似合理的解释,却从不暴露背后的「黑手」。
因此,轻信这些带有偏见的答案,可能十分危险。
不仅如此,AI还会在推理过程中,常常「偷偷」修正自己的错误。
表面上看,大模型给出的步骤可能漏洞百出,但它却能通过未被表述的「暗箱操作」得出正确答案。
这便制造了一种透明的假象。为何会出现这种脱节?
研究人员推测,简洁的CoT无法完全捕捉基Transformer大模型中存在的分布式并行计算过程。
CoT如何掩盖真实推理?
越来越多的实证研究已经发现了大量案例,其中模型的思维链与其内部推理过程相偏离。
需要指出的是,在审视不忠实性的具体模式之前,CoT解释的忠实性因模型架构等多种因素而异。
研究人员也总结了4项关键发现:偏见驱动的合理化与动机性推理、隐性错误纠正(Silent Error Correction)、不忠实的非逻辑捷径(Unfaithful Illogical Shortcuts)、填充词元 (Filler Tokens)。
每一项都阐明了CoT是如何误导或掩盖模型的实际决策过程,我们为你梳理了关键发现中的要点问题:
偏见驱动的合理化与动机性推理
Turpin等研究者通过巧妙地偏置模型输入证明偏见驱动的合理化。
举个栗子:
在提示中重新排序多项选择题的选项,使得正确选项总是在同一位置(例如,总是字母B)。
在这种情况下,尽管它们的CoT解释从未提及选项重排是一个影响因素,GPT-3.5和Claude 1.0经常会选择那个被偏置的选项。
当模型被偏向错误答案时,它们仍然会生成详细的CoT来为那些错误答案进行合理化解释。
结果导致在一系列任务上准确率下降了高达36%,而CoT则给出了一个具有误导性的推理假象。
另一项研究通过在提示中添加明确答案(例如,「答案是C」)来调查提示注入的偏见,然后要求模型为其选择提供理由。
Claude 3.7-Sonnet和DeepSeek-R1分别仅在约25%和约39%的情况下承认了被注入的答案。
这些发现表明,思维链常常作为事后合理化(post-hoc rationalisations)运作,忽略了真正的因果因素,并制造了一种透明解释的假象。
隐性错误纠正(Silent Error Correction)
研究人员指出,模型可能会在其思维链中犯错,然后在内部纠正这些错误,而CoT却不反映这一纠正过程。
举个栗子:
在一个CoT推理过程中,模型可能将一个三角形的斜边错误地计算为16,而正确值应为13,但随后却陈述:「我们将斜边长度13与其他两条边长相加得到周长。」
模型在内部检测并纠正了错误,但CoT的叙述从未修正或标记这个错误——它读起来像一个连贯的解题过程。
这些隐性错误表明,最终答案是通过叙述步骤之外的计算得出的。
不忠实的非逻辑捷径(Unfaithful Illogical Shortcuts)
研究人员表示,模型会通过潜在的捷径得出正确答案,例如利用记忆的模式作为替代推理路径,从而绕过完整的算法推理,这使得明确的推理链变得不相关或不正确。
来个典型案例:
有研究者使用归因图(一种追踪哪些计算步骤对最终输出有贡献的方法)发现,在解决像「36 + 59」这样的问题时,Claude 3.5 Haiku同时使用了查找表特征(例如,用于「将接近36的数与接近60的数相加」)和加法计算特征。
有趣的是,当被要求描述模型如何得出答案时,模型报告称,其执行了逐位相加进位,完全忽略了其使用查找表捷径的事实。
填充词元(Filler Tokens)
研究指出,在某些算法推理任务中,使用填充词元——例如「...」或学习到的「停顿」词元这类对任务没有语义贡献但会影响模型内部计算的输入词元——可以提高模型性能。
方便你理解,举个栗子:
研究者发现,输入中附加可学习的停顿词元(可作为一种填充词元),在许多任务上都带来了显著的性能提升。
无独有偶,研究者还发现,添加填充词元使模型能够解决它们以前失败的问题,尤其是在使用密集监督进行训练时。
以上几项关键发现,均解释了CoT的不忠实性是一个普遍存在于不同模型架构和规模中的根本性挑战。
其由提示词偏见、未能承认隐藏影响以及在复杂推理任务中系统性的修复错误等因素导致,发生率相当高。
CoT解释与内部计算不一致,是为何?
以上案例中,我们看到了一些关于CoT表里不一的现象,那么,究竟是什么原因导致的?
分布式并行计算,而非顺序
「机制可解释性」研究表明,Transformer架构可能从根本上限制了CoT的忠实度。
基于Transformer搭建的LLM,通常以分布式方式同时通过多个组件处理信息,而不是CoT呈现的顺序步骤。
正是因为这种架构差异,导致了模型计算方式与语言表达方式之间,存在固有的不匹配。
举个栗子,面对「24÷3=?」这样简单的数学问题,LLM会怎么做?
它一定不会像人类学生那样,逐一分析「3能除24多少次」,或是列出长除法的步骤。
相反,LLM内的多个注意力头,会同时处理这些数字之间的关系。
它可能将其识别为记忆中的事实,确认其为8的乘法表的一部分,并计算除法——所有这些都在并行进行。
为了生成简洁且看似合理的输出,LLM通常只生成一个这样的叙述来合理化它们的答案,而不是表达所有并行路径,即使是那些可能显著影响最终答案的路径。
因此,CoT通常会忽略有影响的因素,仅作为模型底层分布式、叠加计算的部分、事后合理化。
冗余路径
此外,LLM在处理任务时,往往会通过多条冗余计算路径得出相同结论。
以计算√144为例,模型可能同时执行以下操作:
识别这是一个记忆中的事实(12×12=144)
应用平方根算法
与训练数据中的类似问题进行模式匹配
当从模型解释「√144=12」的CoT中移除关键步骤「144=12×12」时,LLM仍能够正确输出12。
这表明,LLM的答案并不完全依赖于语言化的推理步骤,而是依赖其内部的多条冗余路径。
这种冗余计算路径的现象,被研究者称为「九头蛇效应」(Hydra Effect)。
即如果LLM一条路径被阻断或移除,另一条路径可以接替。
这也就解释了,为什么对CoT的某些部分进行修改或删除,对最终答案的影响微乎其微。
CoT忠实性挑战
Tanneru等研究者曾尝试通过在训练中惩罚不一致性,引导LLM生成忠实的CoT推理。
然而,这一方法仅取得了部分成功,尤其是在复杂问题上,模型倾向于生成看似合理但非因果的解释。
比如,模型可能输出一个逻辑清晰的CoT,却掩盖了其真正的决策路径。
这种「合理化」倾向不仅难以完全消除,还可能在微调或持续学习过程中重新出现。
另有研究人员Chua和Evans,进一步研究了经过专门「推理训练」的模型,结果发现:
DeepSeek-R1在59%的测试中能提及提示线索,但仍有41%的情况,未能识别关键影响因素。
即便是最先进的DeepSeek-V3,也仅在7%案例中提及线索,表明推理训练的效果极其有限。
更令人担忧的是,LLM可能通过CoT「欺骗」监控机制。
当CoT被用于监控RL奖励函数中的推理时,模型学会生成看似无害的推理轨迹,实则暗中执行有害策略。
CoT假象,破解之法
论文的最后,针对CoT透明度的问题,研究人员指出,「我们不能继续被假象蒙蔽」。
为此,他们提出了以下几点建议:
1. 重新定义CoT的角色
CoT不是可解释性的「万能钥匙」,而应视为一种补充工具。它能提供线索,但绝非真相的全部。
2. 引入严格的验证机制
通过因果验证技术,如激活修补(activation patching)、反事实检验、验证器模型,深入探查AI的推理过程是否忠实。
3. 借鉴认知科学
模仿人类的错误监控、自我修正叙事和双重过程推理(直觉+反思),让AI的解释更接近真实。
4. 强化人工监督
开发更强大的工具,让人类专家能够审查和验证AI的推理过程,确保其可信度。
参考资料:
https://x.com/FazlBarez/status/1940070420692312178
https://www.alphaxiv.org/abs/2025.02
声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。

游客
- 鸟过留鸣,人过留评。
- 和谐社区,和谐点评。