337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

DeepSeek開源OCR-2模型,梁文鋒帶隊探索新架構

0
分享至



出品|搜狐科技

作者|常博碩

編輯| 楊 錦

臨近春節,DeepSeek的更新也越來越頻繁了。

剛剛,DeepSeek團隊發布了論文《DeepSeek-OCR 2:Visual Causal Flow》,并正式開源了DeepSeek-OCR 2模型。論文三位作者分別是魏浩然、孫耀峰和李宇琨。


要讀懂這篇文章,首先要知道的一個問題就是:啥是OCR?

其實,OCR是光學字符識別(Optical Character Recognition)的縮寫,基本思路就是讓計算機能看懂圖像中的文字。比如我們把手機拍攝的發票、合同掃描件、書籍照片等轉換成計算機可以編輯和搜索的文字內容,這就是OCR。

傳統OCR模型通常遵循掃描式的思路,首先檢測圖像中的文字區域,再一個字一個字或一行一行地識別,這種固定掃描順序就容易忽略文檔的整體結構。但人不是這樣的,我們在閱讀復雜文檔時,通常會先瀏覽標題然后看看段落表格,會有優先級排序,而不是機械地從左上到右下掃過頁面。

現在的問題是,當文檔結構復雜到一定程度時,AI就不知道先看哪兒了。像學術論文一般是多欄排版,文章中還有公式與正文交錯出現,技術報告中的表格與注釋,報紙版面等等這些都對模型提出了超出傳統OCR的要求。

所以,DeepSeek新開源的DeepSeek-OCR 2模型其實就是為了讓機器閱讀更像人而設計的。


提出視覺因果流

DeepSeek-OCR 2作為新一代視覺語言OCR模型,核心創新在于提出了視覺因果流(Visual Causal Flow)的編碼器架構。

DeepSeek-OCR 2的整體架構延續了DeepSeek-OCR的“編碼器—解碼器”設計,其中解碼器仍然采用約3B參數的MoE語言模型,編碼器部分則升級為DeepEncoder V2。

從論文中看,DeepEncoder V2編碼器通過引入語義驅動的順序重排,使AI能夠根據圖片內容的邏輯順序來處理信息,而不再只是按照固定的柵格順序。


上圖示意了DeepSeek-OCR 2的核心架構。左邊為傳統DeepEncoder,使用CLIP視覺模型,右圖為DeepEncoder V2。新的架構使用了語言模型作為視覺編碼器(LM as Vision Encoder),并在視覺Token序列后附加了因果查詢(learnable query),用于新的閱讀順序排列。

一個關鍵的點在于,DeepSeek-OCR 2使用了語言模型架構作為視覺編碼器。

在DeepEncoder V2中,DeepSeek用一個輕量級語言模型(Qwen2-500M)取代了傳統的CLIP ViT。這樣做就可以讓模型在視覺編碼階段本身就具備序列建模和因果推理能力,使得其與后續的語言解碼階段在建模范式上保持一致。

從架構上看,DeepSeek-OCR 2并未增加視覺token的數量,也沒有引入額外的多模態復雜結構,而是通過注意力掩碼的重新設計,讓“順序”成為可學習的對象。這使得模型在處理表格、公式、多欄排版等場景時,能夠更自然地恢復文檔的邏輯結構。

注意力掩碼的設計其實十分有意思。在編碼器中,視覺token與一組新增的因果流查詢token被拼接成一個統一序列,但兩者在注意力機制上其實是非對稱的。

視覺token之間采用雙向注意力,保持與ViT類似的全局建模能力。而查詢token之間采用嚴格的因果注意力,每個query(查詢)只能關注其之前的query,同時,每個查詢token都可以訪問所有視覺token。


在這種注意力掩碼的作用下,查詢token被迫以序列化方式逐步聚合視覺信息,其內部順序不再由空間坐標決定,而是在訓練過程中,在語義建模目標的驅動下逐步形成更接近人類閱讀邏輯的視覺表示序列。

這種設計就和人類閱讀文檔的方式高度相似,首先獲取全局結構,隨后在語義理解的引導下,決定接下來該看哪里。


部分表現優于Gemini

在OmniDocBench v1.5基準測試中,DeepSeek-OCR 2在整體準確率上達到91.09%,在使用最少視覺token的情況下,較上一代DeepSeek-OCR提升了3.73%。

在衡量閱讀順序(R-order)的指標編輯距離(Edit Distance)上,DeepSeek-OCR 2從前代的0.085降低到了0.057,證明了新模型不僅識別得更準,結構理解能力也發生了實質變化。

在和Gemini-3 Pro等閉源強模型的對比中,在均使用約1120個視覺Token的情況下,DeepSeek-OCR2的文檔解析編輯距離(0.100)也優于Gemini-3 Pro(0.115)。

根據DeepSeek披露的數據,在真實用戶日志與PDF批量處理場景中,DeepSeek-OCR 2的重復輸出率也有了明顯下降。

相比前代模型,DeepSeek-OCR 2在在線用戶日志圖像中,重復率從6.25%降至4.17%。在PDF數據生產場景中,重復率從3.69%降至2.88%。重復輸出往往源于模型對文檔結構理解不充分,導致內容會被多次誤讀,從結果來看,視覺因果流的引入也有效緩解了這一問題。

如果放在更宏觀一點的角度,其實DeepSeek-OCR 2還提供了一種新的框架思路,那就是二維視覺理解,是否可以拆解為兩層一維因果推理。在這一框架下,編碼器負責怎么讀內容,解碼器負責如何回答,兩者共同完成對復雜視覺內容的理解。

這也是DeepSeek在論文最后提出的一個長期方向——原生多模態(Native Multimodality)。如果同一套因果查詢機制可以用于視覺、文本甚至音頻,那么OCR可能只是這一架構的起點,而不是終點。

正如論文最后所說,雖然光學文本識別,特別是文檔解析,是大語言模型時代最實用的視覺任務之一,但它僅占視覺理解領域的一小部分。

展望未來,DeepSeek將向著更通用的多模態智能繼續“深度求索”。



運營編輯 |曹倩審核|孟莎莎




特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
同樣是晚清重臣,李鴻章后代出了張愛玲,左宗棠后代卻在干這些事

同樣是晚清重臣,李鴻章后代出了張愛玲,左宗棠后代卻在干這些事

阿校談史
2026-03-23 13:50:43
我去!內娛最大的性丑聞,拍出來了

我去!內娛最大的性丑聞,拍出來了

皮蛋兒電影
2026-03-04 14:39:25
遲遲都等不到中企復工,巴拿馬頭號幫手已介入,中方加強港口管制

遲遲都等不到中企復工,巴拿馬頭號幫手已介入,中方加強港口管制

跳跳歷史
2026-03-25 14:01:42
張雪峰離世:全網沒提的 3 個真相,才是他真正不可替代的原因

張雪峰離世:全網沒提的 3 個真相,才是他真正不可替代的原因

阿訊說天下
2026-03-25 14:35:24
清華女博士不相信醫生,執意生下3胞胎,不料3個孩子都有問題

清華女博士不相信醫生,執意生下3胞胎,不料3個孩子都有問題

明月清風閣
2026-03-20 12:20:09
日本老夫婦回家鄉自殺,結果忘了自殺也忘了自己是誰

日本老夫婦回家鄉自殺,結果忘了自殺也忘了自己是誰

這里是東京
2026-03-24 18:18:47
再見了!東莞又一西餐廳關閉了!

再見了!東莞又一西餐廳關閉了!

東莞好生活
2026-03-25 15:49:44
心疼!宇輝今晚突現直播間為請假 ,廣西商務廳官宣 浙江媒體轉發

心疼!宇輝今晚突現直播間為請假 ,廣西商務廳官宣 浙江媒體轉發

潮鹿逐夢
2026-03-25 12:03:34
當年造價7000萬被罵浪費的“巨型銅河豚”,如今價值2.1億了?

當年造價7000萬被罵浪費的“巨型銅河豚”,如今價值2.1億了?

麥杰遜
2026-03-18 14:11:33
CBA最新消息!曝廣東新大外確定,周琦加練罰籃,新疆官宣換外援

CBA最新消息!曝廣東新大外確定,周琦加練罰籃,新疆官宣換外援

中國籃壇快訊
2026-03-25 16:49:38
人民網觀點:“兒童票”當與時俱進

人民網觀點:“兒童票”當與時俱進

人民資訊
2026-03-25 13:22:41
硬剛特朗普后,西班牙首相決定直奔北京!這步棋,整個歐洲都在看

硬剛特朗普后,西班牙首相決定直奔北京!這步棋,整個歐洲都在看

兵器海陸空視頻
2026-03-25 19:04:19
岳云鵬現身上海,氣場跟以前完全不一樣了,助理當街抽煙也不避諱

岳云鵬現身上海,氣場跟以前完全不一樣了,助理當街抽煙也不避諱

仙味少女心
2026-03-24 16:47:29
微軟前CTO長文控訴:Windows被搞成一鍋粥!14年14次轉變、17種GUI共存

微軟前CTO長文控訴:Windows被搞成一鍋粥!14年14次轉變、17種GUI共存

快科技
2026-03-25 15:13:32
前程盡毀!香港高級警司涉非禮女下屬,庭審內情曝光...

前程盡毀!香港高級警司涉非禮女下屬,庭審內情曝光...

港港地
2026-03-24 10:06:51
不到48小時,烏克蘭多了兩大強援,普京表態后,歐盟回應令人意外

不到48小時,烏克蘭多了兩大強援,普京表態后,歐盟回應令人意外

墨羽怪談
2026-03-24 11:57:44
A股大反彈能走多遠?機構:短期別上頭,中長期別下車

A股大反彈能走多遠?機構:短期別上頭,中長期別下車

21世紀經濟報道
2026-03-25 10:01:04
著名網紅老師張雪峰八字賞析

著名網紅老師張雪峰八字賞析

陳意小可愛
2026-03-25 18:35:08
她是兩百年難遇的美人,靠美貌“征服”無數男人,如今49歲仍未婚

她是兩百年難遇的美人,靠美貌“征服”無數男人,如今49歲仍未婚

林雁飛
2026-03-22 14:47:54
32.3萬起!奧迪官宣:3月25日,新車正式上市

32.3萬起!奧迪官宣:3月25日,新車正式上市

高科技愛好者
2026-03-23 23:16:34
2026-03-25 20:11:00
搜狐科技 incentive-icons
搜狐科技
搜狐科技官方賬號
4744文章數 9183關注度
往期回顧 全部

科技要聞

紅極一時卻草草收場,Sora宣布正式關停

頭條要聞

"軍工虎"譚瑞松獲死緩:搞權色交易 多次泄露內幕信息

頭條要聞

"軍工虎"譚瑞松獲死緩:搞權色交易 多次泄露內幕信息

體育要聞

35歲替補門將,憑什么入選英格蘭隊?

娛樂要聞

張雪峰經搶救無效不幸去世 年僅41歲

財經要聞

管濤:中東局勢如何影響人民幣匯率走勢?

汽車要聞

智己LS8放大招 30萬內8系旗艦+全線控底盤秀實力

態度原創

健康
親子
教育
房產
公開課

轉頭就暈的耳石癥,能開車上班嗎?

親子要聞

寶藍去參加舞會,自己做了一條公主裙,太漂亮了~

教育要聞

燕尾模型秒解三角形面積,數學題不再難!

房產要聞

41億!259畝!建學校…三亞這個大城更,最新方案曝光!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版