![]()
作者 | Sergio De Simone
譯者 | 明知山
為提升 Dropbox Dash 生成回復的相關性,Dropbox 工程師開始 采用大語言模型輔助人工標注,這一做法在識別用于生成回復的文檔方面發揮了關鍵作用。他們的方案也為各類基于檢索增強生成(RAG)的系統提供了極具價值的參考。
正如 Dropbox 首席工程師 Dmitriy Meyerzon 所言,文檔檢索質量是 RAG 系統的瓶頸——這類系統需要從海量文檔庫中篩選出相關內容,再將其輸入給大語言模型。
企業搜索索引中存在數百萬份文檔,超大型企業更是多達數十億份,因此 Dash 只能將檢索到的極少部分文檔傳給大語言模型。這使得搜索排序質量——以及用于訓練排序的相關性標注數據——對最終答案的效果至關重要。
這意味著搜索排序模型的質量直接影響最終生成答案的質量。Dash 采用監督學習技術訓練排序模型,會根據文檔滿足查詢需求的程度,對查詢 - 文檔對進行標注。這種方法的主要難點,在于如何生成大量高質量的相關性標注數據。
為解決純人工標注的局限(成本高、速度慢、一致性差),Dropbox 引入了一種補充方案:利用大語言模型大規模生成相關性判斷。這種方法成本更低、一致性更強,且能輕松擴展到大型文檔集。但大語言模型并非完美的評估者,因此在使用其判斷結果進行訓練前,必須先對其效果進行評估。
在實際應用中,利用大語言模型進行相關性評估需要一套自動化與人工監督相結合的標準化流程。
這種被稱為“人工校準的大語言模型標注”的方法十分簡潔:先由人工標注一小批高質量數據集,用于校準大語言模型評估器;再由大語言模型生成數十萬乃至數百萬條標注,將人工工作量放大約 100 倍。需要注意的是,大語言模型并不會取代排序系統——若在查詢時直接用其進行排序,速度過慢且會受上下文長度限制。
評估步驟包括:將大語言模型生成的相關性評分與人工判斷進行對比,測試對象為訓練集中未出現的查詢 - 文檔對子集。評估還重點關注最難修正的錯誤——即大語言模型判斷與用戶行為不一致的情況,例如用戶點擊了模型評分較低的文檔或跳過了模型評分較高的文檔,這類錯誤能提供最強的學習信號。
還有一個重要的考量:上下文往往是判斷相關性的關鍵。例如在 Dropbox 內部,“diet sprite”指的是一款內部性能工具,而非飲料。為解決這一問題,研究人員讓大語言模型進行額外檢索、獲取上下文并理解內部術語,這顯著提升了標注的準確性。
根據在 Dropbox Dash 上的實踐經驗,Meyerzon 表示,這種方法能夠讓大語言模型在大規模場景下持續放大人工判斷,成為優化 RAG 系統的有效手段。
https://www.infoq.com/news/2026/03/dropbox-scaling-human-judgement/
聲明:本文為 InfoQ 翻譯,未經許可禁止轉載。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.