網易首頁 > 網易號 > 正文申請入駐

ICLR 2026 Oral | Revela：用語言建模重新定義稠密檢索器訓練

2026-03-27 10:33:36　來源: 機器之心Pro

河北舉報

分享至

在檢索增強生成（RAG）系統中，稠密檢索器（Dense Retriever）負責從海量文檔庫中快速找出與查詢語義最相關的段落，是整個系統的核心基礎組件。

然而，訓練一個高質量的稠密檢索器并不容易。對比學習（Contrastive Learning）長期以來是這一領域的主流范式，但存在幾個根本性局限：

嚴重依賴人工標注數據：需要精心構造查詢 - 文檔正負樣本對，在代碼、法律等專業領域標注成本極高；
難負樣本的困境：隨機負樣本信號太弱，難負樣本挖掘又引入額外復雜性；
與語言模型預訓練目標割裂：對比損失與主流大模型的預訓練范式（下一詞預測）天然不兼容，難以充分復用預訓練知識。

這些問題在專業領域和推理密集型檢索場景下尤為突出。能否找到一條更自然、更統一的檢索器訓練路徑？來自德國達姆施塔特工業大學（TU Darmstadt）的蔡豐宇及其來自華盛頓大學、卡內基梅隆大學、微軟和騰訊 AI 實驗室的合作者給出了一個優雅的答案 -Revela：Dense Retriever Learning via Language Modeling，并憑借這一回答斬獲ICLR 2026 Oral（約 1.1% 錄取率）和FrontierIR @ AAAI 2026 最佳論文獎

論文鏈接：https://openreview.net/forum?id=e7pAjJZJWb
代碼鏈接：https://github.com/TRUMANCFY/Revela
模型鏈接：https://huggingface.co/trumancai/Revela-3b

核心思路：讓檢索「像語言模型一樣學習」

Revela 的核心洞察在于：將稠密檢索器的訓練目標統一到語言建模框架之下。

語言模型（LM）通過 "預測下一個 token" 來建模 token 之間的依賴關系。Revela 將這一思路類比到檢索：如果說 LM 建模的是 token 之間的依賴，那么檢索器建模的就是文本塊（chunk）之間的依賴

具體而言，Revela 引入了一種批內注意力機制（In-batch Attention）：在語言建模時，一個序列的下一詞預測不僅條件于自身上文，還通過檢索器計算的相似度權重，動態地參考批次中其他相關文檔。如圖 1 中，紅色文本塊在預測下一詞時 "參考" 了語義相近的紫色文本塊，這一過程反過來驅動檢索器提高兩者之間的相似度分數。檢索器的相似度分數就此直接嵌入語言建模的優化目標，實現檢索器與語言模型的聯合端到端訓練，無需任何人工標注的查詢 - 文檔對

圖 1：Revela 訓練框架。檢索器相似度分數作為批內注意力權重，與語言模型聯合端到端訓練。紅、紫序列中高亮片段展示了檢索器如何學會關聯語義相近的文本塊。

這一設計帶來了三個關鍵優勢：

訓練目標與預訓練高度一致：語言建模正是大模型預訓練所采用的目標，Revela 與之天然對齊，能充分激活預訓練模型中已有的語義理解能力。
完全自監督，無需標注：原始文本自身的上下文關系即構成訓練信號，大幅降低對人工標注的依賴，使方法在數據稀缺的專業領域具備天然優勢。
可擴展性強：實驗表明，隨著檢索器規模（從 135M 到 3B）、語言模型規模和批大小的增大，性能持續穩定提升，展現出良好的 Scaling 特性。

方法架構

Revela 的整體架構由兩部分組成：負責編碼文本，計算相似度的檢索器，以及提供語言建模訓練信號的語言模型，二者在訓練過程中聯合優化。

圖 2：Revela 的 Transformer Block 架構。

核心創新集中在 LM 的 Transformer Block 內部（圖 2）。每一層同時運行兩條并行的注意力路徑：標準自注意力處理單條序列內部的上下文依賴，輸出 ei；批內注意力則在此基礎上引入跨文檔維度：先對序列自身做自注意力得到 si，再以檢索器輸出的相似度分數為權重，對批次內其他文檔的自注意力輸出 ej做交叉注意力并加權聚合得到 bi，最終輸出 hi= si+ bi。其中，檢索器將批次內所有文檔編碼為向量，通過兩兩余弦相似度并經 softmax 歸一化，得到文檔間的相似度權重矩陣，直接作為批內注意力的聚合權重。

值得注意的是，跨文檔注意力的 Key 和 Value 均來自其他文檔的 ej，而非 hj，這一設計使批內注意力能夠使用只含有序列內部信息的自注意力。兩路路徑對應圖 2 注意力圖中左上與右下兩個區域，最終輸出相加后送入前饋層，共同驅動下一詞預測目標。這一設計使檢索器的相似度分數直接參與 LM 的反向傳播，檢索器由此得以被端到端優化。

在訓練數據構建上，Revela 將文檔切分為 chunk 并分批，確保每個 batch 內包含語義相關的片段，使語言建模信號天然對應有意義的跨文本依賴。訓練數據方面，通用檢索使用約 34 萬篇維基百科文檔，代碼檢索使用 StackOverflow 帖子、技術教程和庫文檔，均無需任何人工標注的查詢-文檔對。

實驗效果：無標注數據，超越商業 API

Revela 在三大權威基準上進行了系統評估，分別覆蓋代碼檢索（CoIR）推理密集型檢索（BRIGHT）通用信息檢索（BEIR）三個維度。

表 1：CoIR 代碼檢索基準上各模型的檢索性能（nDCG@10，%）。

代碼檢索（CoIR）： Revela-3B 在 10 項任務平均 nDCG@10 達到 60.1，在無需任何查詢 - 文檔標注對的前提下，超越了使用海量標注數據訓練的 7B 參數有監督模型 E5-Mistral-7b-Instruct（57.3）以及 OpenAI Ada-002（45.6）、Voyage-Code-002（56.3）兩個商業 API。在 0.5B 參數規模下，Revela 即超越了同樣覆蓋代碼語料、用 2.7 億標注對訓練的 E5-PT，領先約 10 個百分點。

圖 3：BRIGHT（左）與 BEIR（右）基準上的檢索性能對比（nDCG@10，%）。

推理密集檢索（BRIGHT）： Revela-3B 平均 nDCG@10 達到 20.1，僅憑維基百科文本訓練，便超越了 E5-Mistral-7b-Instruct（17.9）以及 text-embedding-3-large（OpenAI，17.9）、voyage-large-2-instruct（Voyage，17.9）、cohere-embed-english-v3.0（Cohere，16.6）等主流商業 API，充分體現了語言建模目標對深層語義推理能力的激活效果。

通用檢索（BEIR）： Revela-3B 與弱監督基線 E5-PT 持平（均為 45.6），但所用訓練數據約為其 1/1000，使用計算資源僅為其 1/10，極大降低了訓練成本。

意義與展望

Revela 將稠密檢索器的訓練與語言建模范式統一，打開了多個值得探索的方向：

動態索引構建：Revela 目前通過文檔分塊來保證 batch 內的語義相關性，更理想的做法是用模型的實時表示對 chunk 動態分組，但這意味著需要在訓練過程中持續更新索引，計算成本是亟待解決的挑戰。模型與數據的進一步擴展：實驗已驗證 Revela 在模型規模和 batch 大小上具備良好的 Scaling 特性，擴大訓練語料覆蓋范圍、引入更高效的注意力機制，有望帶來進一步的性能提升。反哺語言模型訓練：Revela 目前將 LM 視為輔助的訓練信號來源，但檢索器所學到的文本間語義關聯，同樣可以反過來用于指導 LM 的 batch 構建，探索對語言模型本身的改善潛力。

該成果已以 Oral 形式發表于頂級 AI 會議 ICLR 2026。本屆 ICLR 共收到近兩萬篇投稿，Oral 僅兩百余篇，錄取率約 1.1%，是對 Revela 在自監督檢索學習領域創新價值的高度認可。

作者介紹

蔡豐宇，德國達姆施塔特工業大學（TU Darmstadt）四年級博士，師從 ACL fellow，前 ACL 主席 Iryna Gurevych 教授及 Heinz Koeppl 教授。他研究方向涵蓋稠密檢索、RAG 及 AI for science，在 ICLR，ACL， EMNLP，CVPR 等會議上發表論文十余篇。本碩分別畢業于香港科技大學（HKUST）與洛桑聯邦理工學院（EPFL）。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.