網易首頁 > 網易號 > 正文申請入駐

韓國高麗大學研究團隊揭開多語言搜索引擎的"英語偏心"秘密

2026-04-16 20:28:43　來源: 科技行者

北京舉報

分享至

這項由韓國高麗大學計算機科學與工程系主導的研究，于2026年發表在國際機器學習頂級會議ICLR 2026（International Conference on Learning Representations）上，論文編號為arXiv:2604.05684。研究聚焦于跨語言信息檢索領域一個長期被忽視卻至關重要的問題：當搜索引擎面對多語言混合文檔庫時，為什么它總是莫名其妙地"偏愛"英文內容？

假設你是一位泰語母語者，想在網上搜索關于"氣候變化"的文章。文檔庫里既有一篇非常切題的泰語文章，也有大量不那么相關的英語文章。理論上，一個優秀的多語言搜索引擎應該把那篇泰語文章排在最前面。然而現實卻往往相反——搜索引擎會把那些內容并不對口的英語文章推到更靠前的位置，讓真正有用的泰語文章石沉大海。這就是該研究團隊發現并著力解決的核心問題。

研究團隊不僅精確地描述了這個問題的存在，還設計了一套新的測量工具來量化這種偏差，并提出了一種僅需2800個訓練樣本就能顯著改善現狀的訓練方法。這個數字相當精妙——在動輒需要百萬級數據的深度學習領域，用不到三千條數據就能讓模型發生實質性改變，頗有"四兩撥千斤"的意味。

一、搜索引擎的語言翻譯官是怎么工作的

要理解這項研究，首先得明白現代搜索引擎的核心機制。當你輸入一個搜索詞，搜索引擎并不是逐字逐句去比對文檔里有沒有相同的詞，而是把你的問題和每篇文檔分別"翻譯"成一串數字——專業上叫做"嵌入向量"（embedding）。這個數字串就像是文本內容的數字指紋，意思越相近的兩段文字，它們的數字指紋在數學空間里就越接近。

這個把文字變成數字指紋的過程，是由經過大規模訓練的語言模型完成的。好的多語言模型，應該能把不同語言中意思相同的句子轉化為非常相近的數字指紋。比如"蘋果是水果"的中文版本和英文版本"Apple is a fruit"，在理想的多語言模型中，兩者的數字指紋應該幾乎一模一樣，就像是同一張臉在不同語言的鏡子里照出來的像。

然而研究團隊發現，目前主流的多語言模型并沒有做到這一點。英文文本的數字指紋往往比其他語言的數字指紋"更有優勢"——即便是與查詢內容完全不相關的英文文檔，它的數字指紋也常常比內容高度相關的非英文文檔更接近用戶的查詢內容。這就好比一臺本該公平比較各國菜肴味道的機器，卻天生對西餐的味道更敏感，結果總是把西餐排在前面，哪怕用戶明明想找的是一碗正宗的東北豬肉燉粉條。

二、現有評測方式為何發現不了這個問題

弄清楚問題的存在之后，研究團隊面臨的第二個挑戰是：為什么學術界長期以來沒有發現這個嚴重的偏差？答案在于現有的評測方式本身存在盲點。

傳統的跨語言信息檢索評測，通常是這樣設計的：文檔庫里全是英文文章，用戶用另一種語言（比如中文）提問，考察系統能不能把相關的英文文章找出來。在這種純英文文檔庫的設定下，系統對英語的天然偏好反而成了一種優勢——因為所有候選文檔都是英文的，偏好英文不會造成任何問題。

還有一種叫做多語言信息檢索的評測，文檔庫里包含三種以上的語言，任務是從這個混合庫里檢索相關內容。但這種評測往往只關注"能不能找到"，而不深入分析"為什么找到了"或者"有沒有因為語言偏見而錯過了什么"。

研究團隊意識到，要真正發現英語偏心問題，需要一種特殊的實驗設置：文檔庫里同時包含英文文檔和另一種語言的文檔，而且這些文檔是一一對應的翻譯版本，意思完全相同。在這種設置下，如果用非英文語言提問，一個真正公平的系統應該同樣容易找到對應的非英文文檔，就像一個真正公平的裁判應該不管選手的國籍，只看表現一樣。

三、用一把新尺子來量清楚問題有多嚴重

為了在這種新的實驗設置下衡量系統表現，研究團隊發明了一個叫做"Max@R"的新評測指標。這個指標的設計思路相當直覺化：當文檔庫里存在兩個意思相同、語言不同的正確答案時，系統必須把這兩個答案都找出來才算成功。Max@R記錄的，就是系統找到所有正確答案時需要翻看多少篇文檔——翻看的文檔越少，說明系統越高效、越公平。

用一個生活化的場景來理解：假設你委托助理幫你在一個書架上找兩本書，一本中文版、一本英文版，內容完全相同。助理從書架最前面開始找，如果他第15本找到了中文版，第300本才找到英文版，那么Max@R就是300。這說明助理對中文書的敏感度比英文書差得多——盡管兩本書內容一樣，他就是更容易"看見"英文書。

研究團隊還配套設計了兩個輔助指標。一個叫Complete@K，意思是"在前K個結果里，兩個正確答案是否都出現了"，類似于考核助理在找前10本書時能不能把兩本都找到，結果以百分比表示。另一個叫Max@Rnorm，是對Max@R的標準化版本，方便在不同規模的文檔庫之間進行橫向比較，因為1000本書的庫和100萬本書的庫里，"翻到第300本"的難度截然不同。

四、四大主流系統在新測試下的真實表現

研究團隊用這套新的評測體系，對四個當前最主流的多語言文本嵌入模型進行了測試，分別是multilingual-E5-base、gte-multilingual-base、jina-embeddings-v3和bge-M3。測試語言覆蓋了阿拉伯語、中文、西班牙語、泰語和越南語，以及另外五種語言（德語、希臘語、印地語、羅馬尼亞語、土耳其語），使用的測試數據集是XQuAD和Belebele——兩個經過專業人工翻譯、質量有保障的多語言問答基準集。

測試結果相當觸目驚心。以multilingual-E5-base模型為例，在傳統的單語言文檔庫測試中，用英文提問和用中文提問的性能差距并不明顯，Max@R的差值僅在個位數左右。但在新的雙語文檔庫測試中，用中文提問時的Max@R值高達650.95，而用英文提問時只有53.04，差值接近600。這意味著，如果一個中文用戶用這個系統搜索，系統需要翻閱大約650篇文檔才能同時找到中文和英文的正確答案，而英文用戶只需翻閱53篇。換句話說，中文用戶需要付出英文用戶十二倍以上的"搜索代價"，才能獲得同等質量的服務。

即便是相對表現較好的bge-M3模型，差異同樣存在，只是幅度較小。在西班牙語的測試中，該模型表現最為穩定，但在阿拉伯語和泰語上的表現明顯較差，說明不同語言之間的對齊質量并不均勻——有些語言被"照顧"得好一些，有些語言則持續被冷落。

研究團隊還觀察到第三個問題：在雙語文檔庫的場景下，幾乎所有模型的Max@R值都高得離譜，在實際應用中完全不可用。如果一個搜索引擎要讓用戶翻閱數百篇文檔才能找到所需信息，那它基本上就失去了搜索引擎存在的意義。

五、兩步走的修復方案：讓數字指紋真正說同一種語言

發現問題之后，研究團隊設計了一套訓練策略來修復這些模型。這套策略的核心思路是：既然問題出在不同語言的數字指紋不夠接近，那就直接讓它們在數學層面上更接近。

修復方案分成兩個相輔相成的部分。第一部分解決的是"指紋不像"的問題。研究團隊引入了一種叫做"詹森-香農散度"（Jensen-Shannon Divergence，JSD）的數學工具。這個工具的作用，可以用調色板來理解：如果說英文版文檔的數字指紋是一種顏色，非英文版文檔的數字指紋是另一種顏色，JSD就是衡量這兩種顏色差異大小的尺子。訓練時，系統會被要求盡可能讓這兩種顏色變得一致——也就是說，意思相同的文章，不管用什么語言寫成，它們的數字指紋應該在數學空間里高度重合。

這種做法的精妙之處在于，它直接操作的是嵌入向量的"分布形狀"，而不只是表面上的相似度分數。就像兩幅畫的整體顏色分布可以完全不同，即便你從兩幅畫里各取一個像素，這兩個像素的顏色可能剛好相同——單看一個點是騙人的，看整體分布才是真的。研究團隊在論文中也通過圖示展示了這一點：用傳統方法訓練的模型，兩種語言的嵌入向量在整體分布上差異高達18.61，而用新方法訓練后，差異縮小到7.98，即便兩種方法得到的余弦相似度同樣是0.99。

第二部分解決的是"檢索能力本身"的問題。研究團隊使用了一種叫做InfoNCE的對比學習損失函數。這個部分的訓練邏輯可以用"認親游戲"來理解：系統被訓練成能夠在一堆人里認出"親戚"——當給定一個英文查詢，系統必須在一批候選文檔里認出對應的非英文文檔，并把它與其他不相關的文檔區分開。通過反復練習這種"認親游戲"，系統對跨語言語義相似度的感知能力會顯著提升。

訓練所用的數據格式是三元組：一個英文查詢、一個對應的英文文檔、以及這個英文文檔的目標語言譯版。訓練數據來自MIRACL數據集的英文訓練集，共2800個英文查詢-文檔對，然后用GPT-4o將英文文檔翻譯成各目標語言，從而得到訓練所需的三元組。整個訓練過程在兩張NVIDIA A100 GPU上完成，每個模型只訓練一個輪次，計算成本相對較低。

六、修復之后效果如何

經過這套方法微調之后，四個模型在各項指標上都取得了顯著改善。以jina-embeddings-v3模型在中文場景下的表現為例，在XQuAD數據集上，英文查詢和中文查詢之間的性能差距從6.89個百分點驟降至1.77個百分點；在Belebele數據集上，這個差距從4.45個百分點縮小到幾乎可以忽略不計的0.12個百分點。兩種語言的用戶終于站在了幾乎相同的起跑線上。

在Max@R這個全召回排名指標上，改善同樣驚人。multilingual-E5-base模型在中文查詢下的Max@R從650.95降至23.10，意味著系統需要翻閱的文檔數量從650多篇減少到23篇左右。這種量級的改變，已經足以讓系統從"不可用"變為"實用"。

研究團隊還專門設計了一個更嚴苛的測試場景，叫做Multi-1：在雙語文檔庫里，故意把與查詢語言相同的那個正確答案藏起來，只保留另一種語言的正確答案。這相當于要求系統必須跨越語言壁壘去找到那個"異國版本"的正確答案。在這個測試中，經過新方法微調的模型表現同樣有明顯提升，在所有語言對和兩個數據集上都能看到NDCG@1指標的一致改善。

另一個重要的驗證維度是：新方法有沒有"拆東墻補西墻"，在改善跨語言表現的同時破壞單語言場景的性能？測試結果顯示，在單語言同語言檢索（Mono-Same）的場景下，新方法基本保持了原模型的水平，甚至在部分語言上略有提升。在單語言跨語言檢索（Mono-Cross，即傳統CLIR）場景下，新方法同樣超越了基線模型。這說明提升跨語言對齊能力不僅沒有傷害原有性能，反而對所有檢索場景都有正向的遷移效應。

七、消融實驗：兩個組件缺一不可

研究團隊還做了一組"拆零件"實驗——分別去掉JSD損失和InfoNCE損失，看看少了哪個零件系統會如何表現。結果證明兩個組件確實缺一不可，功能上高度互補。

單獨去掉JSD損失之后，系統的跨語言語義對齊能力明顯下降，說明InfoNCE單打獨斗時只能提升檢索層面的表現，而無法從根本上解決嵌入向量分布不對齊的問題。單獨去掉InfoNCE損失之后，系統的檢索能力大幅下滑——即便兩種語言的嵌入向量在數學上對齊得很好，如果系統不知道怎么利用這種對齊來進行檢索，對齊本身也是白費功夫。

研究團隊還比較了另一種替代方案：僅用InfoNCE來拉近英文文檔和目標語言文檔之間的相似度（記作LNCEpsg），而不是用來拉近查詢和文檔之間的相似度。這種方案確實比純基線模型有所改善，但與完整方法相比仍有明顯差距。這個對比揭示了新方法的核心優勢：它不是簡單地讓兩個文檔"看起來更像"，而是從根本上調整了嵌入空間的分布結構，讓查詢能夠更有效地找到跨語言的相關文檔。

八、研究的邊界與未來

坦率地說，這項研究也有一些自認的局限。首先，所有實驗都以英文為中心，研究的是英文與其他語言之間的偏差。現實世界中還有大量不涉及英文的語言對——比如中文和日文之間、阿拉伯語和波斯語之間——這些情況是否同樣存在類似的偏差，目前還沒有系統性的研究。

其次，實驗場景主要局限于兩種語言混合的文檔庫。真實的多語言搜索環境可能同時包含十幾種語言，那種場景下問題會更復雜，現有方案是否同樣有效，還有待驗證。

第三，訓練數據的翻譯依賴GPT-4o進行機器翻譯。機器翻譯雖然質量較高，但相比人工翻譯仍可能存在細微的文化語境失真，這可能在某些語言對上引入細小的系統性偏差。

說到底，這項研究做的事情，是給那些天生說"英文偏心話"的多語言搜索系統補上了一節"語言公平教育課"。現實中的信息檢索場景遠比學術評測復雜，但如果連最基本的"意思相同就應該得到相同排名"這條原則都難以保證，那多語言搜索的價值就要大打折扣。

歸根結底，語言應該是獲取信息的橋梁，而不是設置門檻的壁壘。一個泰語用戶搜到的信息質量，不應該比英文用戶差十二倍。這道理聽起來再簡單不過，但讓機器真正理解并做到，仍然需要這樣系統性的研究工作來一步一步推進。

對這個方向感興趣的讀者，可以通過論文編號arXiv:2604.05684查閱完整原文，深入了解技術細節和實驗數據。

Q&A

Q1：Max@R這個新指標和傳統的NDCG、MRR有什么區別？

A：傳統指標如NDCG和MRR主要衡量"第一個正確答案排在第幾位"，適合每個問題只有一個標準答案的場景。而Max@R針對的是每個問題有多個正確答案（比如同一內容的多語言版本）的情況，它記錄的是"找到所有正確答案需要翻閱多少文檔"，也就是最后一個正確答案出現的位置。這個數字越小，說明系統對不同語言的文檔都能公平對待。傳統指標在單語言文檔庫里根本發現不了英語偏心問題，但Max@R在雙語文檔庫下能直接把這個差距數字化地展示出來。

Q2：跨語言信息檢索訓練只用了2800條數據，為什么這么少的數據也能有效果？

A：這套方法有效的關鍵不在于數據量，而在于訓練目標的設計。JSD損失直接優化的是嵌入向量在數學空間中的分布形狀，讓不同語言的向量在整體結構上趨于一致，這是一種比較"深層"的調整，不需要大量數據就能讓模型的內部表示發生實質性變化。InfoNCE損失則通過對比學習告訴模型"什么是跨語言的正確匹配"，這種明確的監督信號效率很高。此外，底層的多語言模型本身已經經過大規模預訓練，具備相當的多語言理解能力，2800條高質量的微調數據足以引導它朝正確方向調整。

Q3：多語言嵌入模型的英語偏心問題是怎么產生的？

A：這個問題主要源于訓練數據的不均衡。英文是互聯網上數據量最大的語言，大多數多語言模型在預訓練階段接觸的英文文本遠遠多于其他語言。模型見過更多英文數據，自然對英文的語義理解更精準、嵌入向量也更穩定。相比之下，泰語、阿拉伯語等語言的訓練數據少，嵌入向量的質量相對較低，與英文向量之間的對齊也就不夠緊密。這就像一個從小只吃川菜的廚師，突然讓他評價日料和法餐的味道，他的判斷難免帶有偏差，因為他的味覺標準本身就是按川菜校準的。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.