337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepSeek 凌晨開源 :給 Transformer 加個(gè)「查字典」的能力

0
分享至

對(duì)于問題「北京是中國(guó)的首都」,需要推理嗎?
應(yīng)該是不需要,地球人都知道

但現(xiàn)在,Transformer 只有一種處理方式:全靠算

DeepSeek 大半夜的,發(fā)布了一篇新論文
Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models


https://github.com/deepseek-ai/Engram

這篇論文中,做了一個(gè)新方法 Engram,并給到觀點(diǎn):
該查表的查表,該算的算,兩件事分開處理

對(duì)此,他們 Engram 的模塊,專門負(fù)責(zé)「查」,和負(fù)責(zé)「算」的 MoE 配合使用

結(jié)果就是,Engram-27B 在等參數(shù)、等算力條件下,全面超越純 MoE baseline

代碼已開源:
https://github.com/deepseek-ai/Engram


一個(gè)具體的例子

論文里有個(gè)很直觀的案例

模型處理「Diana, Princess of Wales」這個(gè)實(shí)體時(shí),內(nèi)部發(fā)生了什么:

層數(shù)

模型此時(shí)「認(rèn)為」這是什么

第 1-2 層

Wales,一個(gè)國(guó)家

第 3 層

Wales,歐洲的一個(gè)國(guó)家

第 4 層

Princess of Wales,一個(gè)頭銜

第 5 層

Princess of Wales,威爾士親王的妻子

第 6 層

Diana, Princess of Wales,戴安娜王妃

六層網(wǎng)絡(luò),才把這個(gè)實(shí)體識(shí)別出來

但「戴安娜王妃」這個(gè)知識(shí)是固定的,不會(huì)因?yàn)樯舷挛淖兓兓DP突鶎觼怼杆恪钩鲞@個(gè)結(jié)果,本質(zhì)上是在用計(jì)算重建一個(gè)靜態(tài)的查找表

這六層深度,本可以用來處理更復(fù)雜的推理任務(wù)

Engram 怎么做

技術(shù)方案不復(fù)雜:用連續(xù)幾個(gè) token(N-gram)作為「查詢?cè)~」,從一個(gè)大表里查出對(duì)應(yīng)的向量,融合到模型的中間狀態(tài)里

幾個(gè)關(guān)鍵設(shè)計(jì):

詞表壓縮

標(biāo)準(zhǔn)分詞器會(huì)給「Apple」和「apple」分配不同的 ID,但它們語義上是同一個(gè)東西。Engram 先做一層歸并,把這類 token 映射到同一個(gè)規(guī)范化 ID

實(shí)測(cè) 128k 詞表壓縮了 23%

多頭哈希

不可能真的存下所有 N-gram 組合,那是天文數(shù)字。用哈希函數(shù)把 N-gram 映射到有限大小的表里,犧牲一點(diǎn)精度換存儲(chǔ)空間

上下文門控

查出來的向量是「靜態(tài)先驗(yàn)」,可能和當(dāng)前上下文不匹配。比如「蘋果」在討論水果時(shí)和討論手機(jī)時(shí)含義不同

解決方案:用當(dāng)前位置的隱藏狀態(tài)(已經(jīng)通過 Attention 聚合了上下文信息)作為「裁判」,給查出來的向量打分。語義不匹配時(shí),把這個(gè)向量的權(quán)重壓低

放在哪一層

Engram 不是每層都加。放太淺,隱藏狀態(tài)還沒積累足夠上下文,「裁判」不準(zhǔn);放太深,錯(cuò)過了分擔(dān)早期層負(fù)擔(dān)的時(shí)機(jī)

實(shí)驗(yàn)發(fā)現(xiàn):放在第 2 層效果最好。如果要放兩個(gè),第 2 層和第 15 層的組合最優(yōu)

參數(shù)怎么分配

這里有個(gè)核心問題:給定固定的參數(shù)預(yù)算,多少給 MoE,多少給 Engram?

論文定義了一個(gè)分配比例 ρ

  • ? ρ = 100%:全給 MoE,沒有 Engram

  • ? ρ = 0%:全給 Engram,沒有 MoE 的路由專家

實(shí)驗(yàn)掃了一遍,結(jié)果是 U 型曲線:


這兩個(gè)極端,都不好

全給 MoE(ρ = 100%):沒有專門的記憶模塊,模型被迫用計(jì)算來重建靜態(tài)知識(shí)

全給 Engram(ρ → 0%):失去了動(dòng)態(tài)計(jì)算能力,復(fù)雜推理做不了

最優(yōu)點(diǎn)在 75%-80%

也就是說,把 20-25% 的稀疏參數(shù)從 MoE 轉(zhuǎn)給 Engram,效果最好

這個(gè)比例在不同的計(jì)算預(yù)算下都穩(wěn)定,有一定的普適性

效果數(shù)據(jù)

四個(gè)模型對(duì)比:

  • ? Dense-4B:稠密模型,基線

  • ? MoE-27B:純 MoE 架構(gòu)

  • ? Engram-27B:把 MoE-27B 的 72 個(gè)路由專家減到 55 個(gè),省出的參數(shù)給 5.7B 的 Engram

  • ? Engram-40B:進(jìn)一步擴(kuò)大 Engram 到 18.5B

全部訓(xùn)練 262B tokens,激活參數(shù)都是 3.8B(等算力)


挑幾個(gè)關(guān)鍵數(shù)據(jù):

任務(wù)類型

具體任務(wù)

MoE-27B

Engram-27B

提升

知識(shí)

MMLU

57.4

60.4

+3.0

知識(shí)

CMMLU(中文)

57.9

61.9

+4.0

推理

BBH

50.9

55.9

+5.0

推理

ARC-Challenge

70.1

73.8

+3.7

代碼

HumanEval

37.8

40.8

+3.0

數(shù)學(xué)

MATH

28.3

30.7

+2.4

知識(shí)類任務(wù)提升在預(yù)期內(nèi),畢竟加了個(gè)「記憶」模塊

但推理類任務(wù)提升更大,這就有意思了

一個(gè)「記憶」模塊,怎么讓「推理」能力變強(qiáng)?

為什么推理也變強(qiáng)了

這是論文最有價(jià)值的部分

他們用了兩個(gè)分析工具

LogitLens:看每一層輸出的預(yù)測(cè)置信度

結(jié)果:Engram 模型在早期層就達(dá)到了高置信度,預(yù)測(cè)收斂速度明顯更快

CKA:看不同層之間的表示相似度

結(jié)果:Engram 模型第 5 層的表示,和 MoE 模型第 12 層的表示最相似

這說明什么?

Engram 等效于增加了網(wǎng)絡(luò)的有效深度

邏輯是這樣的:有了 Engram 分擔(dān)靜態(tài)知識(shí)的檢索,早期層不用再花深度做這件事。省出來的深度,可以用于更復(fù)雜的推理

Attention 的容量也被釋放了。本來要處理局部依賴(比如識(shí)別「張仲景」是一個(gè)人名)的注意力頭,現(xiàn)在可以專注于全局上下文

長(zhǎng)上下文任務(wù)上這個(gè)效果更明顯:



任務(wù)

MoE-27B

Engram-27B

Multi-Query NIAH

84.2

97.0

Variable Tracking

77.0

89.0


Engram 到底存了什么

做了個(gè)消融實(shí)驗(yàn):把 Engram 的輸出完全屏蔽,看各類任務(wù)的性能保留多少

  • ? 事實(shí)問答(TriviaQA):只剩 29%

  • ? 閱讀理解(C3):保留 93%

  • ? 推理任務(wù):居中

結(jié)論很清晰:

事實(shí)知識(shí)主要存在 Engram 里,屏蔽后崩得厲害

閱讀理解依賴上下文,答案就在文章里,Engram 幫不上忙

推理任務(wù)的提升是間接的,來自 Engram 釋放的網(wǎng)絡(luò)深度,而不是 Engram 直接提供推理能力

門控可視化

紅色表示門控激活(采納了查表結(jié)果),顏色越深激活越強(qiáng)

規(guī)律很明顯:

  • ? 多 token 實(shí)體觸發(fā)高激活:「Alexander the Great」「Milky Way」「Princess of Wales」

  • ? 固定搭配觸發(fā)高激活:「By the way」

  • ? 中文也能識(shí)別:「四大發(fā)明」「張仲景」「醫(yī)圣」「?jìng)s病論」

需要結(jié)合上下文理解的 token,門控會(huì)壓低

工程:offload 效率

這部分對(duì)開發(fā)者有參考價(jià)值

Engram 的查表索引是確定的。知道輸入是什么 token,就知道要查哪些行,不依賴中間計(jì)算結(jié)果

MoE 不一樣,路由決策要等隱藏狀態(tài)算出來才能做

這個(gè)區(qū)別讓 Engram 可以做預(yù)取:模型在計(jì)算前幾層的時(shí)候,同時(shí)從主機(jī)內(nèi)存異步加載 Engram 需要的數(shù)據(jù),兩邊并行

實(shí)測(cè)結(jié)果:

配置

吞吐量

Dense-4B

9,031 tok/s

Dense-4B + 100B

Engram(CPU offload)

8,858 tok/s

Dense-8B

6,315 tok/s

Dense-8B + 100B

Engram(CPU offload)

6,140 tok/s

100B 參數(shù)的 Engram 表完全放主機(jī)內(nèi)存,吞吐量下降不到 3%

N-gram 的訪問還符合 Zipf 分布,少數(shù)高頻模式占了絕大多數(shù)訪問量。可以做多級(jí)緩存:熱門的放 GPU 顯存,長(zhǎng)尾的放主機(jī)內(nèi)存甚至 SSD

組件消融

哪些設(shè)計(jì)貢獻(xiàn)最大:

  • ? 多分支集成:重要

  • ? 上下文門控:重要

  • ? Tokenizer 壓縮:重要

  • ? 輕量卷積:影響不大

  • ? 4-gram:在當(dāng)前參數(shù)預(yù)算下不如 2-gram + 3-gram 組合

Engram 放在第 2 層效果最好,越往深層放效果越差

跑起來

                                                           pip install torch numpy transformers sympy
python engram_demo_v1.py

GitHub 上的 demo 是演示版,mock 了 Attention/MoE 等標(biāo)準(zhǔn)組件,用于展示 Engram 的數(shù)據(jù)流

總結(jié)一下:
MoE 管算,Engram 管查,兩種機(jī)制處理兩類任務(wù)

代碼:
https://github.com/deepseek-ai/Engram

論文:
https://raw.githubusercontent.com/deepseek-ai/Engram/refs/heads/main/Engram_paper.pdf

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
天津女博主發(fā)布“征婚貼”,宣稱想結(jié)婚!網(wǎng)友:估計(jì)是債務(wù)要暴雷

天津女博主發(fā)布“征婚貼”,宣稱想結(jié)婚!網(wǎng)友:估計(jì)是債務(wù)要暴雷

火山詩話
2026-03-21 06:58:08
一場(chǎng)戰(zhàn)爭(zhēng)徹底把中國(guó)打醒!美軍作戰(zhàn)最毒的是什么?中國(guó)用30年看清

一場(chǎng)戰(zhàn)爭(zhēng)徹底把中國(guó)打醒!美軍作戰(zhàn)最毒的是什么?中國(guó)用30年看清

古史青云啊
2026-03-21 12:15:59
微信出現(xiàn)這條杠,證明對(duì)方刪除了你

微信出現(xiàn)這條杠,證明對(duì)方刪除了你

新時(shí)代的兩性情感
2026-03-07 08:54:01
上海百年老店官宣閉店!

上海百年老店官宣閉店!

上海約飯局
2026-03-21 18:05:25
美國(guó)和伊朗聯(lián)手演戲,騙了全世界,最大輸家出現(xiàn),并非以色列

美國(guó)和伊朗聯(lián)手演戲,騙了全世界,最大輸家出現(xiàn),并非以色列

瀲滟晴方DAY
2026-01-28 18:36:19
人販子梅姨落網(wǎng):本人正面照首次曝出,抓捕全過程披露,警方回應(yīng)

人販子梅姨落網(wǎng):本人正面照首次曝出,抓捕全過程披露,警方回應(yīng)

博士觀察
2026-03-21 13:39:21
一張整容臉連累整部劇?《你好1983》女二號(hào),臉腫僵硬的讓人出戲

一張整容臉連累整部劇?《你好1983》女二號(hào),臉腫僵硬的讓人出戲

不似少年游
2026-03-19 10:15:41
豐田純電中大型車即將上市!預(yù)售15.68萬起,配激光雷達(dá)+鴻蒙座艙

豐田純電中大型車即將上市!預(yù)售15.68萬起,配激光雷達(dá)+鴻蒙座艙

小史談車
2026-03-21 21:35:38
防守時(shí)致使奧斯梅恩手臂骨折,科納特遭大規(guī)模種族歧視侮辱

防守時(shí)致使奧斯梅恩手臂骨折,科納特遭大規(guī)模種族歧視侮辱

懂球帝
2026-03-21 10:58:06
中國(guó)一年吃1億噸肉,啥肉都安排,為啥偏偏不碰歐美最愛的火雞?

中國(guó)一年吃1億噸肉,啥肉都安排,為啥偏偏不碰歐美最愛的火雞?

Hi科普啦
2026-03-20 11:47:55
楊振寧晚年親口承認(rèn):這輩子最后悔的,就是當(dāng)年沒跟錢學(xué)森一起回國(guó)造原子彈

楊振寧晚年親口承認(rèn):這輩子最后悔的,就是當(dāng)年沒跟錢學(xué)森一起回國(guó)造原子彈

寄史言志
2026-03-21 17:06:07
騎士機(jī)會(huì)來了!字母哥交易目標(biāo)鎖定莫布里,美媒爆6換1交易方案

騎士機(jī)會(huì)來了!字母哥交易目標(biāo)鎖定莫布里,美媒爆6換1交易方案

阿嚼影視評(píng)論
2026-03-21 15:45:15
蹭飯哥后續(xù)來了!怪媒體沒打碼害他社死,準(zhǔn)備舉報(bào)比亞迪稅務(wù)問題

蹭飯哥后續(xù)來了!怪媒體沒打碼害他社死,準(zhǔn)備舉報(bào)比亞迪稅務(wù)問題

西莫的藝術(shù)宮殿
2026-03-21 04:02:43
松下紗榮子扮演的女老板,顏值身材雙絕,哪個(gè)下屬扛得住?

松下紗榮子扮演的女老板,顏值身材雙絕,哪個(gè)下屬扛得住?

碧波萬覽
2026-03-22 00:24:37
白酒崩盤,一場(chǎng)神話的破滅

白酒崩盤,一場(chǎng)神話的破滅

羅sir財(cái)話
2026-03-19 21:45:06
越南教科書:廣東,廣西是越南故土,至今未收復(fù),兩千年抗北歷史

越南教科書:廣東,廣西是越南故土,至今未收復(fù),兩千年抗北歷史

長(zhǎng)風(fēng)文史
2026-03-19 20:48:02
破紀(jì)錄在即,拜仁距德甲歷史單賽季進(jìn)球紀(jì)錄只差4球

破紀(jì)錄在即,拜仁距德甲歷史單賽季進(jìn)球紀(jì)錄只差4球

懂球帝
2026-03-22 01:19:20
東莞全市嚴(yán)查!多人當(dāng)場(chǎng)被抓!

東莞全市嚴(yán)查!多人當(dāng)場(chǎng)被抓!

東莞紀(jì)實(shí)
2026-03-20 21:33:07
兩會(huì)一聲響,輔警這份工作,2026年可能會(huì)迎來新的變化!

兩會(huì)一聲響,輔警這份工作,2026年可能會(huì)迎來新的變化!

南宗歷史
2026-03-21 14:27:39
皇家馬德里主場(chǎng)沖連勝,馬德里競(jìng)技德比死守難爆冷

皇家馬德里主場(chǎng)沖連勝,馬德里競(jìng)技德比死守難爆冷

青植苑
2026-03-22 01:05:07
2026-03-22 01:51:00
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
337文章數(shù) 49關(guān)注度
往期回顧 全部

科技要聞

宇樹招股書拆解,人形機(jī)器人出貨量第一!

頭條要聞

伊朗發(fā)射3800公里射程的導(dǎo)彈 最令美軍戰(zhàn)栗的細(xì)節(jié)披露

頭條要聞

伊朗發(fā)射3800公里射程的導(dǎo)彈 最令美軍戰(zhàn)栗的細(xì)節(jié)披露

體育要聞

誰在決定字母哥未來?

娛樂要聞

田栩?qū)幗K于涼了?出軌風(fēng)波影響惡劣

財(cái)經(jīng)要聞

通脹警報(bào)拉響,加息潮要來了?

汽車要聞

小鵬汽車2025年Q4盈利凈賺3.8億 全年?duì)I收767億

態(tài)度原創(chuàng)

本地
藝術(shù)
手機(jī)
公開課
軍事航空

本地新聞

春色滿城關(guān)不住|紹興春日頂流,這片櫻花海藏不住了

藝術(shù)要聞

斯托揚(yáng)畫作:她們的眼神能勾動(dòng)你的心!

手機(jī)要聞

終端市場(chǎng)集體喊“漲” 手機(jī)面板持續(xù)走“跌”

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:正考慮逐步降級(jí)對(duì)伊朗的軍事行動(dòng)

無障礙瀏覽 進(jìn)入關(guān)懷版