337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

Milvus開源語義高亮模型:砍掉80%檢索上下文

0
分享至


始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區,始終堅持“中立、開放、共建、共創、合作”五項基本原則,歡迎加入共同成長。

RAG與agent用到深水區,一定會遇到這個問題:明明架構很完美,私有數據也做了接入,但項目上線三天,不但token賬單爆了,模型輸出結果也似乎總差點意思。原因在于,針對大模型的RAG、agent架構,其檢索模塊,本質上可視為傳統搜索做的衍生變體。

這就導致了一個問題,傳統搜索系統,比如搜索引擎、推薦系統等,需要飽和式輸出,保證用戶能夠收到關于檢索結果所有召回信息,然后人類會自動在其中選擇適合的信息消化吸收。但這一思路,遷移到RAG上,一次query,就能召回10段文檔給LLM,然后每篇文檔幾千字,這就導致一個query就要消耗幾萬個token。但問題是,這10篇文檔里,真正有用的句子可能只有幾十句,而剩下的,全是噪音。大量的噪音灌入,不僅浪費token,也分散了LLM注意力。


那么,怎么解決RAG召回上下文太長的問題?

不妨借鑒傳統搜索中的重點內容Highlight高亮能力,來為大模型做精準的上下文剪枝。歡迎體驗zilliz最新開源的中英文雙語語義高亮模型Semantic Highlight!模型已經發布在始智AI wisemodel社區:


模型地址

https://wisemodel.cn/models/zilliz/semantic-highlight-bilingual-v1

01

SOTA模型Semantic Highlight

要解決RAG召回上下文太長的問題,一個最簡單的辦法就是,把召回文檔里真正與query語義相關的句子高亮出來,只把高亮的句子發給LLM。這樣,不僅token數量能直接減少70-80%,LLM不再被噪音干擾,也能直觀看到這個文檔的重點;并且,在RAG狀態不理想時,也能直接復盤是檢索策略的問題,還是chunking策略的問題。


目前,市面上也已經出現了一些能夠初步解決這些問題的模型,但它們要么只支持英文,要么上下文窗口太小(512 token),要么協議不友好(不允許商業使用)。沒有一個能同時滿足:中英文都強、窗口夠大、泛化能力好、協議友好。所以,zilliz開源了內部最新的Semantic Highlight(語義高亮)模型。

作為一款支持中英文雙語處理的輕量級模型,它不僅能快速在生產環境完成部署,幫助用戶更好的理解高亮核心內容,裁掉無關上下文,大幅降低RAG成本。與此同時,由于Semantic Highlight 和 Context Pruning 上下文剪枝本質是同一技術的一體兩面。因此,這款模型也能用于 Context Pruning 場景,在 Agent 應用中對上下文做精準裁剪,降低大模型的 token 成本。目前模型權重已經開源,MIT協議,歡迎使用~

從數據上看,在中英文數據集上的評測,模型都達到了SOTA水平。


這是out-of-domain測試。也就是說,測試數據和訓練數據的分布完全不同。模型在所有四個數據集上都是第一。同時,這是唯一一個在中英文數據集上都表現優秀的模型。其他模型要么只支持英文,要么在中文上明顯下降。比如XProvence系列,在中文wikitext2上只有0.45-0.47,Semantic Highlight 是0.60。

02

Semantic Highlight工作原理

Semantic Highlight的推理過程其實很簡單。

  1. 將輸入拼接為 [BOS] + Query + Context

  2. 對上下文中的每個 token 打分(0 到 1 之間)

  3. 將每個句子內的 token 分數平均,得到句子分數

  4. 高亮高分句子,移除低分句子



這套思路,借鑒了來自Provence的輕量Encoder-Only模型思路,把修剪上下文當成一個給每個token打分的任務來做。(Provence是一個專門做Context Pruning的模型,由Naver在ICLR 2025發表。)


Encoder-Only雖然是上古時代的架構,但它用0.6B上下的參數就能完成token打分任務,其速度和效率,比現在的LLM快得多。現在主流的大模型(Decoder-Only架構),通常是一個一個token地吐詞,緩慢輸出。而Encoder-Only是并行處理,一次性給所有位置打分。而基于Encoder-Only的打分結果,再將每個句子的token得分聚合成句子得分,就可以得到每個句子的相關性分數,高于閾值的句子即為highlight句子。具體的模型選擇上,選擇了BGE-M3 Reranker v2作為基礎模型。因為它是Encoder架構,更適配token/句子打分;多語言方面,中英文都是重點優化語言。并且其上下文窗口能做到8192 tokens,適合RAG里更長的文檔。0.6B的參數量,在保證效率的同時,也確保基礎模型本身有足夠好的世界知識。而且BGE-M3 Reranker v2本身就是針對Reranking需求訓練出來的,用于做token打分這種相似性任務時,遷移學習更省力。

03

訓練數據準備

模型架構選好之后,需要思考的下一步是訓練數據從哪里來?參考了Open Provence里的數據構造和組織形式,并對其進行改進優化(Open Provence是Provence的開源復現項目)。Open Provence好的一點是,它的數據來自公開的問答數據集,然后使用了一個小的LLM,對句子相關度進行標注,并生成 silver label(銀標簽)。但其不足在于,直接讓LLM直接生成標注結果,輸出結果會變得不穩定且難以后期優化;但傳統人工標注,又會成本、時間雙雙失控。因此,讓LLM在輸出標簽的時候,把推理過程也寫出來。也就是說,每條訓練樣本除了Query、Context、Sentence Spans等字段,還有一個很重要的字段:Think process(思考過程),從而讓標注更準確,因為寫推理過程相當于自檢一遍,可以保證更低的錯誤率。具體來說,讓模型帶上思考過程,會帶來了三個更多的優勢:可觀測(模型為什么選這句的原因)、可調試(能快速知道標錯的內容,是prompt問題還是知識問題)、可復用(后續即使換模型重標注,也有現成參考答案。)標注流程如下:


這里用于標注數據的模型,用的是本地部署的Qwen3 8B。它有天然的思考模式,可以用輸出推理過程,成本也相對可控。最終,構造了500萬+雙語訓練樣本,中英文各一半。英文數據來自MS MARCO、Natural Questions、GooAQ,中文數據來自DuReader、Wikipedia中文、mmarco_chinese。 其中,一部分數據是來自 Open Provence 等模型訓練數據的重新標注,另一部分使用原始語料生成query和context,再進行標注。全部標注好的訓練數據也開源在HuggingFace上了,方便大家二次開發或參考訓練。https://huggingface.co/zilliz/datasets


準備好了模型架構和數據集,接下來,在8張A100上訓練了3個epoch,約9小時,Semantic Highlight終于成功出爐。目前,Semantic Highlight模型已經開源,MIT協議,可以放心用在商業項目中,也歡迎大家基于這個模型的二次開發和改進,讓開源的力量薪火相傳。另外,在Zilliz Cloud云服務上,也即將上線Semantic Highlight的在線推理服務,主打開箱即用。

04

致謝

Semantic Highlight模型的訓練,離不開前人的工作,參考了Provence的理論基礎。它提出了用輕量級Encoder模型做上下文修剪的思路,這個思路非常優雅。也使用了Open Provence的代碼框架(開源協議),它把訓練流程、數據管道、模型都實現好了,不用重復造輪子,只需要做少量的調整。在這些基礎上,加入了自己的創新:用帶思考過程的LLM標注提升數據質量;創建了500萬+雙語訓練樣本,覆蓋中英文場景,更符合實際業務需求;選擇了更適合RAG場景的基礎模型(BGE-M3 Reranker v2)。只訓練Pruning Head,專注在Semantic Highlight任務上,沒有訓練Rerank Head。在此,向Provence團隊和Open Provence項目的貢獻者們致以誠摯的感謝。

05

  • Open Provence 項目:hotchpotch/open_provence

  • Provence 論文:arXiv:2501.16214

  • Provence 官方介紹文章:Provence: efficient and robust context pruning for retrieval-augmented generation

  • Milvus:milvus.io

  • Zilliz Cloud:zilliz.com

作者介紹


張晨

Zilliz Algorithm Engineer

----- END -----

wisemodel相關:

系列模型:


關于wisemodel更多


1

歡迎持續關注和支持

開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發布到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續關注wisemodel.cn開源社區動態。

2

歡迎加盟wisemodel開源社區

3

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關于wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。

向上滑動查看

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
7旬男子陪老伴住院,醫生看了他一眼發現其面部有猝死先兆,將其從死亡邊緣拉回

7旬男子陪老伴住院,醫生看了他一眼發現其面部有猝死先兆,將其從死亡邊緣拉回

觀威海
2026-03-26 09:55:04
特朗普助普京一臂之力,澤連斯基驚覺:四面八方的俄軍開始猛攻

特朗普助普京一臂之力,澤連斯基驚覺:四面八方的俄軍開始猛攻

一家說
2026-03-27 08:24:20
睡覺時總在凌晨3、4點醒來,醫生直言:一般提示3大疾病,別忽視

睡覺時總在凌晨3、4點醒來,醫生直言:一般提示3大疾病,別忽視

健康之光
2026-03-27 08:56:41
廣東93-96被北京絕殺 球員評價:3人優秀,2人及格,6人低迷

廣東93-96被北京絕殺 球員評價:3人優秀,2人及格,6人低迷

籃球資訊達人
2026-03-27 21:30:59
重磅!湖南中小學實施春秋假制度

重磅!湖南中小學實施春秋假制度

瀟湘晨報
2026-03-27 18:16:20
意外強援!烏干達總司令放話:以色列要是輸了,我們直接出兵

意外強援!烏干達總司令放話:以色列要是輸了,我們直接出兵

滄海旅行家
2026-03-27 17:07:25
出大事了,40分鐘連挨4輪導彈!美航母被炸?英法德俄集體失聲

出大事了,40分鐘連挨4輪導彈!美航母被炸?英法德俄集體失聲

觀察者小海風
2026-03-27 03:17:34
日本官媒NHK闖大禍!殃及內、外部3.2萬人...

日本官媒NHK闖大禍!殃及內、外部3.2萬人...

今日日本
2026-03-27 15:52:15
南方暴雨、大暴雨,要來了

南方暴雨、大暴雨,要來了

澎湃新聞
2026-03-27 16:08:07
網友曝張雪峰搶救細節:倒地30分鐘才被發現,用ECMO全力搶救無效

網友曝張雪峰搶救細節:倒地30分鐘才被發現,用ECMO全力搶救無效

半窗疏影
2026-03-26 20:17:36
終于知道采購吃回扣是怎么被發現的了,網友分享真實,太開眼了

終于知道采購吃回扣是怎么被發現的了,網友分享真實,太開眼了

夜深愛雜談
2026-03-13 22:02:43
外界擔憂中東地區軍事沖突升級觸發核災難,國防部:中方將繼續為緩和局勢,恢復和平作出積極努力

外界擔憂中東地區軍事沖突升級觸發核災難,國防部:中方將繼續為緩和局勢,恢復和平作出積極努力

環球網資訊
2026-03-26 16:51:09
娛記揭郭嘉文李澤楷分手真相!非催婚惹怒男方,網友:好人家誰娶她

娛記揭郭嘉文李澤楷分手真相!非催婚惹怒男方,網友:好人家誰娶她

東方不敗然多多
2026-03-27 02:01:11
你有什么至今想起都后怕的事?網友:戲多的要死,直接報警

你有什么至今想起都后怕的事?網友:戲多的要死,直接報警

帶你感受人間冷暖
2026-02-13 00:05:11
小鵬汽車官宣改名!

小鵬汽車官宣改名!

新浪財經
2026-03-27 20:40:35
張雪峰二婚妻子年輕貌美,剛生一子,照片流出:原配怒火全寫臉上

張雪峰二婚妻子年輕貌美,剛生一子,照片流出:原配怒火全寫臉上

博士觀察
2026-03-27 22:13:21
暴雨、雷暴大風、冰雹來襲 這些地區需警惕

暴雨、雷暴大風、冰雹來襲 這些地區需警惕

新華社
2026-03-27 20:48:08
恒大蛀蟲劉永灼,他揮霍敗家的瘋狂堪比許家印

恒大蛀蟲劉永灼,他揮霍敗家的瘋狂堪比許家印

探史
2026-03-27 06:05:23
女生主動起來有多黏人?網友:這些女的太開放了

女生主動起來有多黏人?網友:這些女的太開放了

帶你感受人間冷暖
2026-01-27 00:20:06
烏媒:烏克蘭外長稱終止116項國際協議

烏媒:烏克蘭外長稱終止116項國際協議

財聯社
2026-03-26 20:24:11
2026-03-28 06:16:49
wisemodel開源社區 incentive-icons
wisemodel開源社區
始智AI wisemodel.cn開源社區,打造中國版“huggingface”
466文章數 14關注度
往期回顧 全部

科技要聞

楊植麟張鵬夏立雪羅福莉,聊龍蝦、聊漲價

頭條要聞

伊朗:正制定戰爭結束條件 美以將被迫接受現實

頭條要聞

伊朗:正制定戰爭結束條件 美以將被迫接受現實

體育要聞

邵佳一:足球就像一場馬拉松

娛樂要聞

范瑋琪加盟,官宣《浪姐7》遭全網抵制

財經要聞

我在小吃培訓機構學習“科技與狠活”

汽車要聞

與眾08,金標大眾不能輸的一戰

態度原創

旅游
家居
教育
公開課
軍事航空

旅游要聞

日照嵐山“打飛的”賞春成新時尚

家居要聞

曲線華爾茲 現代簡約

教育要聞

985保衛處招聘要求碩士及以上,學校回應

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗:已組織超100萬人為地面戰斗做準備

無障礙瀏覽 進入關懷版