337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

小模型讀書大模型思考:上海AI Lab提出新知識推理解耦方法DRIFT

0
分享至



本文主要完成單位為上海人工智能實驗室,主要作者謝文軒、譚鑫、陸超超、胡俠等,通訊作者為實驗室青年研究員汪旭鴻。

當長上下文成為負擔:我們是否真的需要「把一切都塞進推理模型」?

當前,隨著大家對大模型推理能力要求的提升,輸入上下文也在不斷變長,1M tokens 及以上的上下文窗口正逐漸成為現實,但「讀得更長」一定會帶來推理提升嗎?

在現實應用中,情況往往并不理想。當推理模型直接處理超長原始文本時,瓶頸往往不再來自「不會推理」,而是來自讀不完、讀不動、讀不準:

  • 推理模型需要處理大量與任務無關的冗余信息;
  • 計算成本與延遲隨 token 數快速上升;
  • 關鍵信息容易被淹沒在長文本中;
  • 原始長文本中可能藏匿惡意內容,增加模型安全風險。

這也引出了一個更本質的問題:知識獲取(reading)與邏輯推理(reasoning),是否真的必須由同一個模型完成?

復雜推理或許需要大模型,但從海量信息中獲取知識未必如此。

為解決這一問題,來自上海人工智能實驗室與復旦大學的研究團隊提出了 DRIFT:一種將知識獲取推理明確解耦的長上下文推理框架。

DRIFT 采用雙模型架構:輕量知識模型負責讀取超長文檔,并將與當前任務強相關的關鍵信息壓縮成高密度隱空間表示;推理模型直接利用這些表示進行推理,無需處理龐雜原文。

實驗結果表明:DRIFT 顯著提升推理效率,并在高壓縮比設置下仍保持甚至提升任務性能,展示了 reading–reasoning 解耦的實際價值。

更有意思的是,即使沒有任何安全訓練,由于推理模型不再直接接觸原始文本,該結構在多種安全基準上表現出更強的魯棒性。



  • 論文鏈接:https://arxiv.org/abs/2602.10021
  • 開源主頁:https://github.com/Lancelot-Xie/DRIFT

現有方法:壓縮、檢索與記憶,問題出在「誰來讀」「怎么讀」

為應對超長上下文帶來的計算和推理壓力,現有工作從三個方向入手:壓縮輸入、引入檢索,或參數化存儲知識。

壓縮的方法有兩類,一類方法通過硬壓縮直接刪除「低重要性」token ,但依賴局部、靜態的重要性估計,容易誤刪關鍵信息;另一類工作采用軟壓縮,將文本映射為 latent 表示,但本質仍是靜態壓縮,壓縮結果與任務無關,容易保留冗余信息而忽視有用信息。

此外,一些方法依賴 RAG 從外部語料中檢索相關內容,但整體效果受限于檢索器性能,對檢索策略較為敏感。也有工作通過參數化記憶模塊存儲知識,推理效率較高,但通常依賴預訓練,難以支持即時注入的超長新知識。

此外,DeepSeek 的 Engram 通過條件化參數記憶,將可復用的知識模式從 Transformer 主干中分離出來,在架構層面實現了知識存儲與推理計算的解耦,從而提升效率與性能。不過,Engram 的記憶主要面向靜態長期知識,更適合對已知信息的高效調用;對于即時注入的新知識,其適配性仍然有限。

本文核心貢獻:

  • 提出 reading–reasoning 解耦的結構性視角:將知識獲取與邏輯推理顯式分離,打破推理模型必須直接處理原始上下文的傳統范式;
  • 重構知識輸入模態:由小模型從超長文檔中抽取與任務相關的高密度知識表示,不再以冗余的原始文本作為推理模型輸入;
  • 構建并驗證高效的雙模型框架:在多個長上下文推理基準上表明,該架構在顯著壓縮上下文規模的同時,仍能保持甚至提升復雜推理性能,并大幅降低推理延遲。

DRIFT 的核心:將 reading 與 reasoning 明確解耦

DRIFT 的核心思想并不是「如何壓得更狠」,而是重新定義知識進入推理模型的方式:推理模型不再直接處理冗長的自然語言文本,而是接收一種由小模型從原文中提煉出的、為推理而設計的高密度知識表示。這種表示可以被視為獨立于文本形式的「知識輸入模態」。

基于這一視角,DRIFT 關注的不是改進文本處理流程,而是回答一個更根本的問題:讀取知識與執行推理,是否本就應由不同模塊承擔?

在 DRIFT 中,小模型負責「讀文檔」并抽取與當前問題相關的關鍵信息,將其轉化為緊湊的內部知識表示;推理模型則直接以這一模態作為輸入,而無需再重新閱讀和解析原始文本。

基于這種思想,DRIFT 的架構如圖所示:



DRIFT 整體框架圖

Knowledge Model(小模型)

  • 處理超長文檔輸入;
  • 并行讀取文本塊并提取 query-relevant 信息,壓縮為隱空間知識表示。

Reasoning Model(大模型)

  • 不再接觸原始長文本;
  • 僅基于隱空間中的高密度事實表示執行推理。

Implicit Fact Tokens:一種中間知識表示

Implicit Fact Tokens 并不是:

  • 句子級摘要
  • 檢索得到的文本片段

而是一種:

  • 基于問題生成的隱空間表示
  • 高信息密度的知識表示
  • 專門為推理設計的輸入模態

三階段訓練:教模型「怎么讀,也怎么想」

DRIFT 采用三階段訓練策略:

  • LFRP:重建任務,讓知識模型學會壓縮信息;
  • QAFT-DC:動態壓縮任務,讓知識模型學會基于 query 壓縮相關信息;
  • QAFT-QA:QA 任務,讓推理模型學會基于 latent facts 推理。



實驗結果:壓得更狠,反而想得更清楚

在 LongBench-v2、LoCoMo、BAMBOO、L-Eval 等基準上進行了測試,涵蓋長文本問答、多文檔摘要、多輪對話長程記憶等等場景,模型采用了知識模型 3B 和推理模型 7B 的組合:

  • 32× 壓縮:性能整體接近甚至超過 Full-context;
  • 64× / 128×:穩定優于 ICAE / COCOM /xRAG 等壓縮方法;
  • 推理延遲:在各上下文長度下保持最低或接近最低。





種種實驗說明:當閱讀和推理被清晰拆分后,模型反而能更高效地工作。

推理能力并未被削弱:通用語言理解依然在線

一個自然的問題是:脫離原文閱讀后,推理模型是否會失去通用能力?

實驗表明并非如此,訓練后的推理模型仍能處理復雜推理、知識問答、代碼生成和指令遵循等通用任務。



解耦架構帶來的安全收益



實驗還發現,在Flames、SaladBench、AutoDAN、PAIR等安全基準上,DRIFT 的安全魯棒性也顯著優于原始模型。

更有意思的是,這一提升并未經過任何安全相關的訓練。研究者認為這可能源于 DRIFT 的結構:推理模型不再直接暴露于攻擊 prompt,而是基于中間知識表示進行推理,從而天然降低了越獄攻擊或安全誘導的影響。

知識解耦的典型應用 —— 蛋白質理解任務

DRIFT 提供的是一種結構性視角:讓小模型「讀」,讓大模型「想」。

與其讓推理模型承擔所有職責,不如讓它專注于最擅長的推理能力。這一思路在AGI for Science中同樣成立。以蛋白質任務為例,我們的另一項工作「BioBridge: Bridging Proteins and Language for Enhanced Biological Reasoning with LLMs」中提出了類似的問題:是否有必要讓 LLM 直接理解蛋白質序列?

BioBridge 的答案與 DRIFT 一致:由專門模型負責「讀懂蛋白」,LLM 專注「推理」。

具體來說,就是使用蛋白語言模型(PLM)解析序列并生成 LLM 可理解的中間表示,再由 LLM 基于此進行任務相關的推理。

這種reading–reasoning解耦 使 BioBridge 同時保持:

  • 接近 SOTA 蛋白質模型 的專業能力
  • 原有 LLM 的通用能力



總結

從 DRIFT 到 BioBridge,團隊看到的是同一條清晰的技術主線:讓推理模型直接「讀」原始知識輸入往往并不是最優選擇;更有效的做法,是先將領域知識提煉為適合推理的表示,再交由推理模型進行推理。

這種結構性的解耦,不僅提高了效率,還可能帶來額外的安全收益。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
讓韓佳人驚嘆的中國網紅美貌:萬幸我出道早…

讓韓佳人驚嘆的中國網紅美貌:萬幸我出道早…

奮斗在韓國
2026-03-20 14:44:59
宣傳“19元205G”,實際“39元30G”!中國聯通、電信授權代理商被指用低價噱頭引流收割

宣傳“19元205G”,實際“39元30G”!中國聯通、電信授權代理商被指用低價噱頭引流收割

山西經濟日報
2026-03-19 16:50:13
上海德云社開業僅1天,惡心一幕出現,楊議的“老毛病”又犯了

上海德云社開業僅1天,惡心一幕出現,楊議的“老毛病”又犯了

八斗小先生
2026-03-20 12:28:06
雷軍回應過去兩年小米SU7爭議

雷軍回應過去兩年小米SU7爭議

財天COVER
2026-03-20 18:03:46
法國新晉市長“翻車”,要打造黑人之城?上任第一天慘遭全網造謠...

法國新晉市長“翻車”,要打造黑人之城?上任第一天慘遭全網造謠...

新歐洲
2026-03-19 19:14:55
上海丁克家庭激增,死后無人繼承財產!有網友稱活成笑話,引熱議

上海丁克家庭激增,死后無人繼承財產!有網友稱活成笑話,引熱議

火山詩話
2026-03-19 07:35:58
套了8年!虧8.8萬,成本35.7元,現價僅6.5元,這輩子還能回本嗎

套了8年!虧8.8萬,成本35.7元,現價僅6.5元,這輩子還能回本嗎

財經智多星
2026-03-20 08:33:11
女子舉報重慶一退休領導母親名下巨額財產 被法院要求公開賠禮道歉

女子舉報重慶一退休領導母親名下巨額財產 被法院要求公開賠禮道歉

閃電新聞
2026-03-20 11:37:39
央視放出《澎湖海戰》最新預告,我敢說:拿下60億票房不是沒可能

央視放出《澎湖海戰》最新預告,我敢說:拿下60億票房不是沒可能

糊咖娛樂
2026-03-20 16:50:35
女子養了11年的多肉開出“海星花”,直呼想扔了,網友:邪惡無比

女子養了11年的多肉開出“海星花”,直呼想扔了,網友:邪惡無比

觀察鑒娛
2026-03-20 09:53:35
特朗普一句話,讓高市早苗雙目圓睜;提到中國時,特朗普滿臉笑意

特朗普一句話,讓高市早苗雙目圓睜;提到中國時,特朗普滿臉笑意

吃貨的分享
2026-03-20 09:55:03
美機再次墜毀,飛行員遇難,北約集體拒絕援助,特朗普放出狠話

美機再次墜毀,飛行員遇難,北約集體拒絕援助,特朗普放出狠話

黑鷹觀軍事
2026-03-20 17:06:40
日本政府已經盯上支付寶、微信支付,說不定哪一天這兩種支付方式就無法在日本使用了......

日本政府已經盯上支付寶、微信支付,說不定哪一天這兩種支付方式就無法在日本使用了......

日本通
2026-03-20 10:34:00
一種新型出軌正在蔓延,不接吻不同居,確比婚外情更傷人

一種新型出軌正在蔓延,不接吻不同居,確比婚外情更傷人

小影的娛樂
2026-03-20 17:35:00
50歲趙薇:女兒發照片為她慶生,她離異后無心婚戀,心疼白發父母

50歲趙薇:女兒發照片為她慶生,她離異后無心婚戀,心疼白發父母

細品名人
2026-03-18 06:54:16
超微電腦美股盤前跌超20%

超微電腦美股盤前跌超20%

每日經濟新聞
2026-03-20 16:10:06
39歲江疏影從萬眾矚目的女神,到狀態憔悴不自信,被穿搭蓋住優勢

39歲江疏影從萬眾矚目的女神,到狀態憔悴不自信,被穿搭蓋住優勢

搗蛋窩
2026-03-20 14:53:30
29歲男子僅帶一瓶水徒步南太行,失聯43天,遺體發現地點出人意料

29歲男子僅帶一瓶水徒步南太行,失聯43天,遺體發現地點出人意料

貓咪紀實說
2026-03-18 11:19:27
蘋果日本供應商:中國稀土是個例外

蘋果日本供應商:中國稀土是個例外

觀察者網
2026-03-20 10:33:25
注意!這些病也能申請“殘疾證”,別白白錯過國家福利!

注意!這些病也能申請“殘疾證”,別白白錯過國家福利!

另子維愛讀史
2026-03-17 22:12:15
2026-03-20 18:47:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12553文章數 142588關注度
往期回顧 全部

科技要聞

新SU7只漲4千!雷軍:真怕交車慢挨罵

頭條要聞

母親帶1歲兒子看病如廁時把娃交人照看 兒子失蹤36年

頭條要聞

母親帶1歲兒子看病如廁時把娃交人照看 兒子失蹤36年

體育要聞

6年前的一場悲劇,造就了“法國瓦爾迪”

娛樂要聞

總臺首屆電影盛典,“沈馬”CP再合體

財經要聞

金融法草案向社會公開征求意見

汽車要聞

何小鵬坦白局:每月3億的“慌”與通向L4的堅定

態度原創

健康
游戲
親子
公開課
軍事航空

轉頭就暈的耳石癥,能開車上班嗎?

《巨擊大亂斗》新DLC3月27日上線 新故事以及地圖

親子要聞

萌娃怒斥媽媽讓媽媽閉嘴,為何媽媽沒生氣反而笑得很開心?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普會晤高市早苗 把美國襲擊伊朗比作偷襲珍珠港

無障礙瀏覽 進入關懷版