多模态幻觉的病因「高熵节点」找到了!全基准幻觉率下降
【导读】多模态大推理模型的幻觉,很多时候并非「没看见」,而是在最不确定的推理阶段想偏了。最新研究发现,模型在生成because、however、wait等transition words时,往往处于高熵关键节点,更容易脱离图像证据、转向语言脑补。LEAD在高熵阶段不急于输出单一离散token,而是先在潜在语义空间保留多种候选推理方向,并通过视觉锚点持续拉回图像证据,显著缓解幻觉。
在多模态大模型的浪潮中,具备显式长链思考能力的MLRMs正在快速成为焦点。它们看起来更会「想」,也更善于在复杂任务中展开多步推理。
可问题是,想得更长,真的就更可靠吗?
来自Monash University、Georgia Tech、Cornell University等机构的研究者给出了一个很有意思的答案:未必。
模型的问题并不总是出在「看错图」,而常常出在推理链进入不确定转折点之后,开始顺着语言惯性一路想偏。

论文链接:https://arxiv.org/pdf/2603.13366
研究者进一步指出,这种偏航并不是随机噪声,而是和token级别的不确定性紧密相关。尤其当模型生成because、however、wait这类带有转折、反思和因果意味的过渡词时,往往对应着更高的token entropy,也意味着模型正在多个潜在推理路径之间摇摆。一旦此时被迫过早选定一个离散token,后续整条reasoning trajectory都可能被带歪。
幻觉不只是「看错」,而且是在转折词之后「想偏」
这篇论文首先抓住了一个非常有传播力、也很有解释力的现象:多模态幻觉经常出现在transition words之后。 论文统计发现,在MLRMs中,hallucination更容易在transition words后出现,而且这类case在全部幻觉中占了相当大比例。
换句话说,模型不是无缘无故地乱说,而是常常在「因此」「但是」「等等」这些看似高阶推理信号出现之后,开始脱离图像,进入语言主导的脑补状态。

更关键的是,论文没有停留在现象层面,而是把这个问题和token entropy 联系起来。
作者发现,这些 transition words 往往对应更高的熵值,也就是模型最不确定、最容易在多个语义分支之间摇摆的时刻。
于是,问题就不再只是「模型会不会幻觉」,而变成了:模型在最不确定的时候,为什么还要被迫立刻做出一个离散决策?
为什么高熵token 最危险?
为了验证高熵节点到底有多关键,作者做了进一步的token masking分析。结果很直接:mask掉高熵token,比mask掉其他token对最终性能的伤害更大。 这说明高熵token虽然「不确定」,却恰恰是推理过程里的关键决策点。更有意思的是,这种影响在推理链前段尤其明显——越早出现的高熵智元(token),越可能决定后续整条reasoningpath 的走向。
论文还发现,和hallucination相关的高熵token,通常拥有更低的视觉注意力比例。这意味着一旦模型进入高不确定状态,它对视觉证据的依赖反而可能下降,开始更多依赖语言上下文继续往下编。也就是说,多模态幻觉的关键,不只是模型没看图,而是它在不确定时逐渐不再看图。
LEAD怎么做
基于这一观察,作者提出了 LEAD(Latent Entropy-Aware Decoding)。
它的核心思想很直观:当模型处于高熵状态时,不再强迫它立刻从概率分布里采样出一个单独token,而是使用概率加权的连续 embedding,在潜在语义空间中同时保留多个候选推理方向;而当熵值下降后,再自然切回常规的离散token解码,实现从「探索」到「收敛」的自适应过渡。

这篇工作的另一个亮点,是它没有只做「latent decoding」,还进一步加入了 visual anchor injection。
作者观察到,高熵阶段往往也是视觉信息最容易被弱化的阶段,因此LEAD在这一阶段注入来自预训练视觉表示的 guidance vector,把模型持续往图像证据上拉,避免它在「想」的过程中越走越偏。
这个设计让 LEAD 和一般的 decoding trick 不太一样:它不只是重排token分数,而是在关键推理节点直接改变模型的表征与决策方式。
不只减少幻觉
实验部分是这篇论文很扎实的一点。
作者在多组通用理解与hallucination benchmark上测试了LEAD,结果显示它在不同backbone上都能带来稳定增益。
以R1-Onevision-7B 为例,加入LEAD后,VStar从66.5提升到71.2,RealWorldQA从62.5提升到66.4,MMEval-Pro从69.4提升到73.9,MMHalu和Bingo也分别提升到3.80和3.84。
类似增益也出现在Vision-R1、VL-Rethinker、VL-Cogito和OpenVLThinker等模型上。
在数学与科学视觉推理任务上,LEAD同样有效。比如在R1-Onevision-7B上,MathVision 从 29.9 提升到 32.4,Geometry3K 从 57.9 提升到 61.2,MMK12-Bio从40.8提升到44.8;在Vision-R1-7B上,MathVision 从 27.2 提升到 29.7,MathVerse 从 52.4 提升到54.5。也就是说,LEAD 带来的不是某个单点 benchmark 的偶然提升,而是跨通用理解、数学和科学推理的整体增益。

消融实验
这套方法不是「玄学调参」。论文显示,动态 entropy threshold 策略优于始终离散或始终潜在的极端设置;而 persistence window 也存在一个合适区间,太短会导致频繁切换,太长又会退回传统 CoT 的行为模式。视觉锚点强度也不是越大越好,适中的视觉注入最能兼顾图像grounding和语言上下文。

定性结果
论文展示了LEAD在具体样例中的视觉注意力分配与token-level概率分布:相比baseline和MemVR,LEAD 会把更多注意力放在与问题真正相关的图像区域上;同时,在 latent reasoning 阶段,token分布更分散、熵更高,而进入 discrete reasoning 阶段后,分布会逐步收敛到更确定的输出。这种「先保留多种可能,再在证据约束下收敛」的过程,正是它缓解幻觉的关键。

更有意思的是,LEAD不只是更准,还更「省」。论文在MathVision上发现,LEAD在保持最高准确率的同时,平reasoning length反而更短;在Pass@k实验中,它也能在更小的k上更快达到峰值,说明它拥有更好的 sample efficiency。换句话说,LEAD并不是靠「想得更长」取胜,而是靠在关键的不确定节点少走弯路。

最后,作者还用PPL以及GPT-5评估了输出文本的 grammar、fluency 和 naturalness。
结果显示,LEAD 在缓解幻觉的同时,并没有牺牲文本质量,反而在多个维度上保持了更优或更稳的表现。也就是说,这种方法不是靠「保守回答」换来的提升,而是在 reasoning reliability 和生成质量之间取得了更好的平衡。
总的来看,这篇工作的启发很明确:多模态模型的问题,未必是不会推理,而是在最不确定的时候,过早把自己锁死在了一个可能错误的token 上。
LEAD的价值,就在于把「高熵阶段」识别成真正的危险区,并让模型在这里先保留语义多样性、再回到确定输出,同时用视觉锚点把推理重新拽回图像证据。对多模态大推理模型来说,这可能比单纯「多想一点」更重要。
参考资料:
https://arxiv.org/pdf/2603.13366
声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。
AI 中文社