網易首頁 > 網易號 > 正文申請入駐

多模態幻覺的病因「高熵節點」找到了！全基準幻覺率下降

2026-04-10 09:46:18　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRST

【新智元導讀】多模態大推理模型的幻覺，很多時候并非「沒看見」，而是在最不確定的推理階段想偏了。最新研究發現，模型在生成because、however、wait等transition words時，往往處于高熵關鍵節點，更容易脫離圖像證據、轉向語言腦補。LEAD在高熵階段不急于輸出單一離散token，而是先在潛在語義空間保留多種候選推理方向，并通過視覺錨點持續拉回圖像證據，顯著緩解幻覺。

在多模態大模型的浪潮中，具備顯式長鏈思考能力的MLRMs正在快速成為焦點。它們看起來更會「想」，也更善于在復雜任務中展開多步推理。

可問題是，想得更長，真的就更可靠嗎？

來自Monash University、Georgia Tech、Cornell University等機構的研究者給出了一個很有意思的答案：未必。

模型的問題并不總是出在「看錯圖」，而常常出在推理鏈進入不確定轉折點之后，開始順著語言慣性一路想偏。

論文鏈接：https://arxiv.org/pdf/2603.13366

研究者進一步指出，這種偏航并不是隨機噪聲，而是和token級別的不確定性緊密相關。尤其當模型生成because、however、wait這類帶有轉折、反思和因果意味的過渡詞時，往往對應著更高的token entropy，也意味著模型正在多個潛在推理路徑之間搖擺。一旦此時被迫過早選定一個離散token，后續整條reasoning trajectory都可能被帶歪。

幻覺不只是「看錯」，而且是在轉折詞之后「想偏」

這篇論文首先抓住了一個非常有傳播力、也很有解釋力的現象：多模態幻覺經常出現在transition words之后。論文統計發現，在MLRMs中，hallucination更容易在transition words后出現，而且這類case在全部幻覺中占了相當大比例。

換句話說，模型不是無緣無故地亂說，而是常常在「因此」「但是」「等等」這些看似高階推理信號出現之后，開始脫離圖像，進入語言主導的腦補狀態。

更關鍵的是，論文沒有停留在現象層面，而是把這個問題和token entropy 聯系起來。

作者發現，這些 transition words 往往對應更高的熵值，也就是模型最不確定、最容易在多個語義分支之間搖擺的時刻。

于是，問題就不再只是「模型會不會幻覺」，而變成了：模型在最不確定的時候，為什么還要被迫立刻做出一個離散決策？

為什么高熵token 最危險？

為了驗證高熵節點到底有多關鍵，作者做了進一步的token masking分析。結果很直接：mask掉高熵token，比mask掉其他token對最終性能的傷害更大。這說明高熵token雖然「不確定」，卻恰恰是推理過程里的關鍵決策點。更有意思的是，這種影響在推理鏈前段尤其明顯——越早出現的高熵智元（token），越可能決定后續整條reasoningpath 的走向。

論文還發現，和hallucination相關的高熵token，通常擁有更低的視覺注意力比例。這意味著一旦模型進入高不確定狀態，它對視覺證據的依賴反而可能下降，開始更多依賴語言上下文繼續往下編。也就是說，多模態幻覺的關鍵，不只是模型沒看圖，而是它在不確定時逐漸不再看圖。

LEAD怎么做

基于這一觀察，作者提出了 LEAD（Latent Entropy-Aware Decoding）。

它的核心思想很直觀：當模型處于高熵狀態時，不再強迫它立刻從概率分布里采樣出一個單獨token，而是使用概率加權的連續 embedding，在潛在語義空間中同時保留多個候選推理方向；而當熵值下降后，再自然切回常規的離散token解碼，實現從「探索」到「收斂」的自適應過渡。

這篇工作的另一個亮點，是它沒有只做「latent decoding」，還進一步加入了 visual anchor injection。

作者觀察到，高熵階段往往也是視覺信息最容易被弱化的階段，因此LEAD在這一階段注入來自預訓練視覺表示的 guidance vector，把模型持續往圖像證據上拉，避免它在「想」的過程中越走越偏。

這個設計讓 LEAD 和一般的 decoding trick 不太一樣：它不只是重排token分數，而是在關鍵推理節點直接改變模型的表征與決策方式。

不只減少幻覺

實驗部分是這篇論文很扎實的一點。

作者在多組通用理解與hallucination benchmark上測試了LEAD，結果顯示它在不同backbone上都能帶來穩定增益。

以R1-Onevision-7B 為例，加入LEAD后，VStar從66.5提升到71.2，RealWorldQA從62.5提升到66.4，MMEval-Pro從69.4提升到73.9，MMHalu和Bingo也分別提升到3.80和3.84。

類似增益也出現在Vision-R1、VL-Rethinker、VL-Cogito和OpenVLThinker等模型上。

在數學與科學視覺推理任務上，LEAD同樣有效。比如在R1-Onevision-7B上，MathVision 從 29.9 提升到 32.4，Geometry3K 從 57.9 提升到 61.2，MMK12-Bio從40.8提升到44.8；在Vision-R1-7B上，MathVision 從 27.2 提升到 29.7，MathVerse 從 52.4 提升到54.5。也就是說，LEAD 帶來的不是某個單點 benchmark 的偶然提升，而是跨通用理解、數學和科學推理的整體增益。

消融實驗

這套方法不是「玄學調參」。論文顯示，動態 entropy threshold 策略優于始終離散或始終潛在的極端設置；而 persistence window 也存在一個合適區間，太短會導致頻繁切換，太長又會退回傳統 CoT 的行為模式。視覺錨點強度也不是越大越好，適中的視覺注入最能兼顧圖像grounding和語言上下文。

定性結果

論文展示了LEAD在具體樣例中的視覺注意力分配與token-level概率分布：相比baseline和MemVR，LEAD 會把更多注意力放在與問題真正相關的圖像區域上；同時，在 latent reasoning 階段，token分布更分散、熵更高，而進入 discrete reasoning 階段后，分布會逐步收斂到更確定的輸出。這種「先保留多種可能，再在證據約束下收斂」的過程，正是它緩解幻覺的關鍵。

更有意思的是，LEAD不只是更準，還更「省」。論文在MathVision上發現，LEAD在保持最高準確率的同時，平reasoning length反而更短；在Pass@k實驗中，它也能在更小的k上更快達到峰值，說明它擁有更好的 sample efficiency。換句話說，LEAD并不是靠「想得更長」取勝，而是靠在關鍵的不確定節點少走彎路。

最后，作者還用PPL以及GPT-5評估了輸出文本的 grammar、fluency 和 naturalness。

結果顯示，LEAD 在緩解幻覺的同時，并沒有犧牲文本質量，反而在多個維度上保持了更優或更穩的表現。也就是說，這種方法不是靠「保守回答」換來的提升，而是在 reasoning reliability 和生成質量之間取得了更好的平衡。

總的來看，這篇工作的啟發很明確：多模態模型的問題，未必是不會推理，而是在最不確定的時候，過早把自己鎖死在了一個可能錯誤的token 上。

LEAD的價值，就在于把「高熵階段」識別成真正的危險區，并讓模型在這里先保留語義多樣性、再回到確定輸出，同時用視覺錨點把推理重新拽回圖像證據。對多模態大推理模型來說，這可能比單純「多想一點」更重要。

參考資料：

https://arxiv.org/pdf/2603.13366

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.