337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

國(guó)產(chǎn)模型紫東太初:多模態(tài)RAG全新發(fā)布,準(zhǔn)確率提升33%(端到端

0
分享至





在產(chǎn)業(yè)智能化進(jìn)程中,如何高效融合企業(yè)專有知識(shí)資產(chǎn),構(gòu)建領(lǐng)域?qū)僬J(rèn)知引擎,是企業(yè)邁向智能決策與高效運(yùn)營(yíng)的關(guān)鍵。然而,傳統(tǒng)檢索增強(qiáng)生成(RAG)技術(shù)受限于語(yǔ)言單模態(tài)處理能力,僅能實(shí)現(xiàn)文本知識(shí)庫(kù)與文本查詢之間的淺層理解,難以滿足復(fù)雜業(yè)務(wù)場(chǎng)景的需求,在實(shí)際應(yīng)用中暴露出兩大缺陷:

信息表征缺失:忽略知識(shí)庫(kù)中多模態(tài)富文檔的視覺語(yǔ)義信息,如版面結(jié)構(gòu)、圖表關(guān)系、公式特征等;

模態(tài)交互受限:無(wú)法支持圖文混合查詢、跨模態(tài)關(guān)聯(lián)檢索等多樣化需求。

針對(duì)以上痛點(diǎn),我們發(fā)布了紫東太初多模態(tài)檢索增強(qiáng)生成框架—Taichu-mRAG。該框架基于統(tǒng)一多模態(tài)細(xì)粒度檢索引擎和紫東太初多模態(tài)大模型,旨在提升內(nèi)容理解與生成質(zhì)量,實(shí)現(xiàn)對(duì)多模態(tài)信息的協(xié)同感知、精準(zhǔn)檢索與深度推理問答。



Taichu-mRAG 在多模態(tài)富文檔理解、多模態(tài)細(xì)粒度實(shí)體屬性問答兩大權(quán)威基準(zhǔn)上取得突破性進(jìn)展:



  • 在 M3DocVQA 數(shù)據(jù)集上端到端問答準(zhǔn)確率比開源SOTA M3DocRAG相對(duì)提升33%,多模態(tài)檢索召回率相對(duì)提升12%;
  • 在 E-VQA 數(shù)據(jù)集上端到端問答準(zhǔn)確率比開源SOTA EchoSight相對(duì)提升9%,多模態(tài)檢索召回率相對(duì)提升9%。



3.1 Taichu-mRAG整體架構(gòu)

面向新一代智能問答場(chǎng)景,Taichu-mRAG 整體架構(gòu)包含四大核心模塊:Query理解模塊、多模態(tài)混合索引召回模塊、多模態(tài)精排模塊、多模態(tài)增強(qiáng)答案生成模塊。



Query理解模塊

該模塊根據(jù)用戶Query 及對(duì)話上下文深度挖掘用戶需求,判斷是否需要觸發(fā)全文理解,并結(jié)合對(duì)話歷史對(duì)用戶 Query 進(jìn)行智能擴(kuò)展、改寫,使得改寫后的 Query 可以更精準(zhǔn)地檢索到相關(guān)知識(shí)。

多模態(tài)混合索引與召回模塊

該模塊包含特征抽取、索引建庫(kù)及多路召回。在知識(shí)庫(kù)構(gòu)建過程中,我們先對(duì)富文檔進(jìn)行多維度理解、分塊,抽取出子級(jí)檢索單元塊;包括基于版面識(shí)別的區(qū)域級(jí)分塊、基于純視覺信息的頁(yè)面級(jí)分塊、基于文本語(yǔ)義的滑窗分塊;之后,通過多模態(tài)Embedding模型抽取這些檢索分塊的語(yǔ)義特征,在統(tǒng)一語(yǔ)義空間內(nèi)進(jìn)行 ANN 索引建庫(kù)。當(dāng)收到改寫的 Query 后,我們采用多路召回,并行執(zhí)行四路檢索:跨模態(tài)索引、關(guān)鍵Term倒排索引、基礎(chǔ)語(yǔ)義索引、知識(shí)擴(kuò)展語(yǔ)義索引,高效召回和用戶需求最相關(guān)的 TopN 知識(shí)片段。

多模態(tài)精排模塊

多模態(tài)精排模塊負(fù)責(zé)對(duì)召回的 TopN 知識(shí)片段進(jìn)行精細(xì)化排序,更加關(guān)注細(xì)粒度語(yǔ)義信息,有利于處理高難度場(chǎng)景,從而進(jìn)一步提升多模態(tài)大模型的問答精準(zhǔn)度。該模塊采用單塔結(jié)構(gòu),深度融合Query、文本、圖像、布局特征等信息,確保排序結(jié)果更加精準(zhǔn)穩(wěn)定。

多模態(tài)答案生成模塊

答案生成模塊根據(jù)前序模塊給出的相關(guān)參考知識(shí)和用戶原始Query,聯(lián)合生成最終的答案,并給出答案的參考片段,便于用戶進(jìn)行答案溯源。當(dāng)候選片段無(wú)法覆蓋答案時(shí),多模態(tài)大模型會(huì)根據(jù)用戶自定義配置選擇拒答或者依賴多模態(tài)大模型自身知識(shí)進(jìn)行開放式回答。這一模塊不僅生成準(zhǔn)確的答案,還提供了答案的來源和依據(jù),增強(qiáng)了答案的可信度和可解釋性。

3.2 Taichu-mRAG多模態(tài)檢索

Taichu-mRAG 的多模態(tài)檢索引擎采用了雙層級(jí)父子關(guān)聯(lián)索引機(jī)制和多路異構(gòu)特征聯(lián)合檢索技術(shù):

雙層級(jí)父子關(guān)聯(lián)索引機(jī)制

基于多模態(tài)結(jié)構(gòu)感知的層級(jí)式分塊技術(shù)可有效解決多模態(tài)數(shù)據(jù)檢索中的粒度適配與上下文整合難題。雙層級(jí)父子索引技術(shù)核心是父級(jí)語(yǔ)義單元、子級(jí)檢索單元的智能分塊和關(guān)聯(lián)策略。

子級(jí)檢索單元為基礎(chǔ)單元,核心價(jià)值在于根據(jù)用戶 Query精準(zhǔn)召回語(yǔ)義最相關(guān)的細(xì)粒度語(yǔ)義片段,確保召回的精準(zhǔn)性;子級(jí)檢索單元可包含多種單元形式,如基于滑動(dòng)窗口的文本片段單元、 圖像單元、表格單元、圖文混合單元等。父級(jí)語(yǔ)義單元為跨模態(tài)知識(shí)容器,核心價(jià)值是為關(guān)聯(lián)的子級(jí)檢索單元提供完整的上下文信息輸入給大模型,提升大模型的回答精度和完整度。

父、子語(yǔ)義單元的切分及關(guān)聯(lián)映射核心在于對(duì)以下多種策略的靈活組合: (1)語(yǔ)義理解分塊:基于句子、段落、圖像、圖表多模態(tài) Embedding 計(jì)算相似度,當(dāng)連續(xù)內(nèi)容相似度低于特定閾值時(shí)則進(jìn)行切割。(2)結(jié)構(gòu)化分塊:基于布局分析技術(shù),對(duì)PDF、PPT、Markdown 等文檔按章節(jié)、標(biāo)題或頁(yè)面、語(yǔ)義塊邊界進(jìn)行切割。(3)滑動(dòng)窗口分塊 :設(shè)置字符重疊范圍及滑動(dòng)窗口大小,通過滑動(dòng)窗口對(duì)文檔內(nèi)容進(jìn)行切割。

多路異構(gòu)特征聯(lián)合檢索

Taichu-mRAG 檢索引擎采用多路異構(gòu)特征聯(lián)合索引的召回機(jī)制,在多模態(tài)、復(fù)雜富文檔理解場(chǎng)景下形成互補(bǔ)增強(qiáng)的檢索矩陣,保證了檢索系統(tǒng)的精準(zhǔn)性和產(chǎn)業(yè)落地可行性,多路異構(gòu)特征索引概況如下:



其中,多模態(tài)Embedding模型充分利用多模態(tài)大模型的語(yǔ)義理解能力,經(jīng)過多粒度多階段學(xué)習(xí),實(shí)現(xiàn)多種模態(tài)在統(tǒng)一空間的語(yǔ)義表征,支持文本、圖像、圖表、公式等多種混合形式。模型有效緩解了模態(tài)偏差問題,同時(shí)也具備出色的單模態(tài)語(yǔ)義表征能力。

3.3 紫東太初多模態(tài)大模型

紫東太初多模態(tài)大模型(Taichu-MLLM)具備強(qiáng)大的視覺理解能力和若干特性,支持動(dòng)態(tài)分辨率、圖文及多語(yǔ)言輸入、圖文混排模式等。同時(shí)為了更好促進(jìn)Taichu-mRAG的產(chǎn)業(yè)落地應(yīng)用,針對(duì)落地應(yīng)用過程中的重點(diǎn)需求,我們對(duì)Taichu-MLLM 特定能力進(jìn)行了重點(diǎn)優(yōu)化:

  • 擴(kuò)展上下文長(zhǎng)度到128k,支持超長(zhǎng)文本和多張高清圖片輸入;
  • 優(yōu)化拒答指令遵循能力,提升拒答精度,具備準(zhǔn)確、穩(wěn)定的拒答能力;
  • 優(yōu)化溯源能力,模型同時(shí)生成答案和引用來源,便于用戶溯源查證,提高答案可解釋性。







聲明:個(gè)人原創(chuàng),僅供參考

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
騎張雪機(jī)車的人:七天騎完6400公里,我就是來看看張雪是不是吹牛

騎張雪機(jī)車的人:七天騎完6400公里,我就是來看看張雪是不是吹牛

鳳凰網(wǎng)財(cái)經(jīng)
2026-04-03 19:44:47
民進(jìn)黨分化策略落空!鄭麗文大陸行前夕藍(lán)軍實(shí)現(xiàn)大團(tuán)結(jié)

民進(jìn)黨分化策略落空!鄭麗文大陸行前夕藍(lán)軍實(shí)現(xiàn)大團(tuán)結(jié)

海峽導(dǎo)報(bào)社
2026-04-04 07:41:02
美國(guó)舊金山國(guó)際機(jī)場(chǎng)發(fā)生火災(zāi)

美國(guó)舊金山國(guó)際機(jī)場(chǎng)發(fā)生火災(zāi)

環(huán)球網(wǎng)資訊
2026-04-04 11:12:03
地球?qū)⒃?026年8月12日“失重7秒”死4000萬(wàn)人?謠言!!!

地球?qū)⒃?026年8月12日“失重7秒”死4000萬(wàn)人?謠言!!!

大道微言
2026-04-03 12:22:13
恩德里克,里昂的禮物:皇馬將因租借收到的錢

恩德里克,里昂的禮物:皇馬將因租借收到的錢

綠茵情報(bào)局
2026-04-03 21:29:04
獨(dú)生子女證真沒用了?2026年最新政策:這幾類家庭千萬(wàn)別丟!

獨(dú)生子女證真沒用了?2026年最新政策:這幾類家庭千萬(wàn)別丟!

復(fù)轉(zhuǎn)這些年
2026-04-04 07:50:35
以色列噩耗降臨,特朗普認(rèn)輸了,伊朗讓美國(guó)認(rèn)清5大現(xiàn)實(shí)

以色列噩耗降臨,特朗普認(rèn)輸了,伊朗讓美國(guó)認(rèn)清5大現(xiàn)實(shí)

南宗歷史
2026-04-04 17:15:33
“反內(nèi)卷先反卷王”

“反內(nèi)卷先反卷王”

阿亮評(píng)論
2026-04-03 15:31:06
49歲李維嘉:不知道遺產(chǎn)傳給誰(shuí)

49歲李維嘉:不知道遺產(chǎn)傳給誰(shuí)

大象新聞
2026-04-03 17:17:36
從美國(guó)戰(zhàn)機(jī)被擊落看美國(guó)的新聞自由

從美國(guó)戰(zhàn)機(jī)被擊落看美國(guó)的新聞自由

名人茍或
2026-04-04 14:05:22
張雪820RR供應(yīng)鏈國(guó)產(chǎn)化清單曝光:華為助力車機(jī)互聯(lián)

張雪820RR供應(yīng)鏈國(guó)產(chǎn)化清單曝光:華為助力車機(jī)互聯(lián)

CNMO科技
2026-04-03 16:26:05
金地集團(tuán)裁員1.14萬(wàn)人

金地集團(tuán)裁員1.14萬(wàn)人

地產(chǎn)微資訊
2026-04-04 16:30:12
伊朗發(fā)出最后通牒!俄通告全球?qū)?zhàn),法國(guó)上將:中估計(jì)也要到了

伊朗發(fā)出最后通牒!俄通告全球?qū)?zhàn),法國(guó)上將:中估計(jì)也要到了

明天見灌裝冰塊
2026-04-04 08:27:48
美國(guó)防部:365名美軍人員在對(duì)伊朗軍事行動(dòng)中受傷

美國(guó)防部:365名美軍人員在對(duì)伊朗軍事行動(dòng)中受傷

財(cái)聯(lián)社
2026-04-04 08:20:05
盧卡常規(guī)賽報(bào)銷:如果就此結(jié)束本季?

盧卡常規(guī)賽報(bào)銷:如果就此結(jié)束本季?

張佳瑋寫字的地方
2026-04-04 17:24:38
突發(fā)!日本澀谷十字路口縱火,男子高喊“日本被奪走”!日媒罕見標(biāo)出犯人國(guó)籍!

突發(fā)!日本澀谷十字路口縱火,男子高喊“日本被奪走”!日媒罕見標(biāo)出犯人國(guó)籍!

東京新青年
2026-04-04 17:36:16
庫(kù)存積壓嚴(yán)重!特斯拉最新銷量公布

庫(kù)存積壓嚴(yán)重!特斯拉最新銷量公布

新浪財(cái)經(jīng)
2026-04-04 00:57:30
連輸?shù)聡?guó)5場(chǎng)!國(guó)乒男單3大主力慘敗,王藝迪被橫掃,馬琳拖后腿

連輸?shù)聡?guó)5場(chǎng)!國(guó)乒男單3大主力慘敗,王藝迪被橫掃,馬琳拖后腿

曉焎科普
2026-04-04 15:46:44
馬刺11連勝轟動(dòng)全聯(lián)盟!帕金斯放話:季后賽沒人能防住文班亞馬!

馬刺11連勝轟動(dòng)全聯(lián)盟!帕金斯放話:季后賽沒人能防住文班亞馬!

仰臥撐FTUer
2026-04-03 20:39:02
律政俏佳人上線!阿邁勒?克魯尼全黑造型高級(jí)感拉滿

律政俏佳人上線!阿邁勒?克魯尼全黑造型高級(jí)感拉滿

述家娛記
2026-04-03 15:07:43
2026-04-04 18:15:00
親愛的數(shù)據(jù) incentive-icons
親愛的數(shù)據(jù)
《我看見了風(fēng)暴:人工智能基建革命》一書作者
693文章數(shù) 219913關(guān)注度
往期回顧 全部

科技要聞

內(nèi)存一年漲四倍!國(guó)產(chǎn)手機(jī)廠商集體漲價(jià)

頭條要聞

媒體:失蹤飛行員已成最大危機(jī) 特朗普恐無(wú)法體面退場(chǎng)

頭條要聞

媒體:失蹤飛行員已成最大危機(jī) 特朗普恐無(wú)法體面退場(chǎng)

體育要聞

剎不住的泰格·伍茲,口袋里的兩粒藥丸

娛樂要聞

闞清子口碑贏了!全開麥跑調(diào)拒絕重唱

財(cái)經(jīng)要聞

中微董事長(zhǎng),給半導(dǎo)體潑點(diǎn)冷水

汽車要聞

17萬(wàn)級(jí)海豹07EV 不僅續(xù)航長(zhǎng)還有9分鐘滿電的快樂

態(tài)度原創(chuàng)

教育
手機(jī)
健康
公開課
軍事航空

教育要聞

重磅!13位校長(zhǎng)入選!北京市中小學(xué)卓越校長(zhǎng)最新名單來了

手機(jī)要聞

三星Galaxy Z Wide Fold曝光!4:3橫屏零黑邊:把手機(jī)變平板

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美軍又一架戰(zhàn)機(jī)墜毀 此前F-15E被擊落

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版