337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

DeepSeek-OCR 開源!為AI裝上眼睛的深遠影響

0
分享至

現在大語言模型處理長文本特頭疼:字一多,token數量就炸了,又費錢又慢。

結果DeepSeek團隊盯著這問題琢磨,突然發現個事兒:一頁文字純文本輸進去,得2000到5000個token,可要是渲染成圖片,用視覺模型處理,居然只要200到400個視覺token!

壓縮率直接飆到10倍,這差距也太離譜了。

結果還真讓他們搞出來了,就是這個DeepSeek-OCR。


說穿了,這模型的核心想法特簡單:用視覺感知幫長文本瘦身。

就像DeepSeek在報告里說的,靠這招能把不同階段的文本token減7到20倍,算是給長文本處理開了條新路子。

其實想想也合理,DeepSeek團隊一直就愛琢磨用更少資源干大事,之前做的模型就想跟OpenAI、谷歌掰掰手腕,現在把這思路用到OCR上,倒也不意外。

再說說它是怎么干活的,其實就兩步:先把文字變成圖片,用個視覺編碼器(叫DeepEncoder)壓小,再用個文本解碼器(DeepSeek-3B-MoE)把字重建出來。

我特地扒了扒這個DeepEncoder,這才是真腦洞:把兩個知名視覺模型拼一塊兒了,SAM-base負責盯細節,比如字的筆畫、排版。

CLIP-Large負責看整體,把握頁面結構。

中間還加了個16倍的卷積壓縮模塊,就拿1024×1024的文檔圖來說,普通視覺模型得出4096個特征塊,它一壓縮,只出256個視覺token!


這下就不用怕特征量爆炸,后續處理又快又省內存,這設計是真夠巧的。

解碼器那邊呢,是個小尺寸的專家混合模型,總共5.7億活躍參數,里面藏著64個小專家,每次解碼只叫醒6個干活,從壓縮后的視覺特征里一點點把文字摳出來。


最牛的是,它訓練時啥都學了,不光普通文檔,連表格、公式、化學分子結構、幾何圖形都能認,還能處理多語言PDF。



要知道,這些結構化信息,好多傳統OCR碰都不敢碰,它倒好,全給包圓了。

還有個細節特貼心:它能根據文字密度和版面復雜度調壓縮程度。

比如遇到特別大、特別復雜的頁面,就開Gundam模式,跟InternVL2.0似的分塊處理。

簡單頁面就少用點token省勁兒,復雜頁面就細分保證accuracy,算是把效率和準確平衡得挺好。

說真的,這思路就像給長文本做有損壓縮,借視覺模態信息密度高、冗余少的特點,少用token還能存住信息。

這模型終于開源了,我第一時間就去GitHub瞅了眼,權重和代碼全放出來了,還用的MIT許可證,學術研究、商業應用隨便用,對開發者來說簡直是福利!

模型文件大概6.6GB,對應30億參數規模,不過得用NVIDIAGPU跑,還得裝Python3.12+、PyTorch2.6.0這些。

官方給的教程特詳細,連怎么用Transformers庫加載模型、調參數都寫了,甚至還有PDF解析的示例腳本,連vLLM加速方案都給配了,社區還有人做了Docker鏡像和Web界面,只要有點深度學習基礎,基本都能跑起來。

不過有個小門檻,得有16GB以上顯存的GPU。

再說說它的性能,我看測試數據的時候是真驚了!

在Fox基準測試里,用64個視覺token處理每頁600-700個文本token的文檔,準確率能到96.5%,壓縮率6.7倍,加到100個視覺token,準確率直接飆到98.5%,壓縮率10.5倍!

就算是每頁1200-1300個token的密文,100個視覺token也能保59.1%的準確率,壓縮快20倍!


速度也夠能打,單張A100GPU一天能處理20萬頁文檔,20臺服務器(每臺8張A100)一天能搞3300萬頁,對付大規模文檔數字化完全沒問題。

而且它參數才3億級別,部署在本地或邊緣設備都方便,延遲還低。

當然也不是沒缺點,壓縮到20倍以上,準確率就掉得明顯,太復雜的版面或冷門字體也可能認錯,但這些都是OCR領域的老難題了,DeepSeek-OCR能做到這份上,已經很能打了。

說實話,這模型能用到的地方太多了,處理長篇PDF、書籍掃描件,幫法律、金融、科研行業省時間。



支持100多種語言,跨國公司處理多語言報表、圖書館掃多語種古籍都能用。


未來這方向也挺值得期待的。

比如把它跟對話AI搭一塊兒,用戶傳長篇文檔,先用它壓成視覺特征,再給語言模型處理,就能突破輸入長度限制。

DeepSeek用這思路做對話記憶,人記東西會慢慢模糊一樣,讓模型把舊對話存成低分辨率記憶圖,擴內存容量,這想法也太妙了。


而且它可能會改變OCR的技術路線,以前都是檢測+識別,現在端到端的多模態OCR開始冒頭了。

以后的OCR說不定不僅能識字,還能理解內容,直接出結構化結果,比如DeepSeek-OCR已經能處理圖表出Markdown、認化學式出SMILES編碼、看幾何圖形出坐標,以后只會更智能。


總的來說,DeepSeek-OCR不光是OCR領域的突破,更是AI多模態融合的一塊里程碑。

它證明把文字當圖片壓縮這瘋狂想法真能行,也給長文本處理找了條新路子。

就像DeepSeek在報告里說的,這只是對視覺文本壓縮邊界的初步探索,現在已經這么驚艷了,以后肯定還有更大的空間。

說不定再過陣子,大語言模型的腦子里,不只是抽象的文字token,還會存著一堆壓縮的記憶圖片,幫它更好地處理海量信息。

DeepSeek這波操作,是真敢想,也真做成了。

這場關于文字變圖片的AI變革,才剛開頭呢。

非常感謝您看本文章,如果感覺寫的還可以的話,那就點個贊、轉發一下吧~

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
皇馬最后的救命稻草!歐冠上演巔峰對決,拜仁欲在主場完成復仇!

皇馬最后的救命稻草!歐冠上演巔峰對決,拜仁欲在主場完成復仇!

田先生籃球
2026-04-07 21:34:47
浴巾發現用過的“偉哥”……女子住桔子酒店,一夜換三次房

浴巾發現用過的“偉哥”……女子住桔子酒店,一夜換三次房

政法頻道
2026-04-07 12:56:31
福建廈門一男子看到銀行卡顯示“10萬美金正在入賬”,便向對方指定賬戶轉賬68.9萬元,一小時后緊急報警!

福建廈門一男子看到銀行卡顯示“10萬美金正在入賬”,便向對方指定賬戶轉賬68.9萬元,一小時后緊急報警!

極目新聞
2026-04-07 13:21:32
不要錯過!4月7日晚上19:30比賽!中央5套CCTV5、CCTV5+直播表

不要錯過!4月7日晚上19:30比賽!中央5套CCTV5、CCTV5+直播表

寶哥精彩賽事
2026-04-07 12:15:59
410次開房記錄曝光!從臨時工“睡”到副處長,她只用了不到3年

410次開房記錄曝光!從臨時工“睡”到副處長,她只用了不到3年

愛寫的櫻桃
2026-04-06 08:05:03
國家一級女演員陳麗云被逮捕!

國家一級女演員陳麗云被逮捕!

許三歲
2026-03-28 09:24:30
掘金18分逆轉開拓者,賽后楊瀚森的鏡頭引熱議!他獲得約基奇認可

掘金18分逆轉開拓者,賽后楊瀚森的鏡頭引熱議!他獲得約基奇認可

球場沒跑道
2026-04-07 12:28:54
豬肝再次成為關注對象!醫生發現:常吃豬肝,可能會收獲4大好處

豬肝再次成為關注對象!醫生發現:常吃豬肝,可能會收獲4大好處

搖感軍事
2025-11-30 18:57:30
控制體重最佳的時間是晚上,晚上堅持“5個不”,隔天體重輕松掉

控制體重最佳的時間是晚上,晚上堅持“5個不”,隔天體重輕松掉

運動健身號
2026-04-06 10:00:11
女生長的太漂亮是什么體驗?網友:母以子貴,父以女榮

女生長的太漂亮是什么體驗?網友:母以子貴,父以女榮

另子維愛讀史
2026-03-10 22:56:08
鄭麗文訪陸當天,人民日報發聲,中國已經注意到日本的野心

鄭麗文訪陸當天,人民日報發聲,中國已經注意到日本的野心

深度解析熱點
2026-04-07 21:02:25
吉林男籃19分大勝,送四川男籃36連敗!姜偉澤被驅逐,景菡一21+6

吉林男籃19分大勝,送四川男籃36連敗!姜偉澤被驅逐,景菡一21+6

中國籃壇快訊
2026-04-07 21:37:48
“最后通牒”沒最后,特朗普的“狼來了戰略”?“I LOVE油,但停戰能讓美國人開心”

“最后通牒”沒最后,特朗普的“狼來了戰略”?“I LOVE油,但停戰能讓美國人開心”

紅星新聞
2026-04-07 16:25:07
一個也不該拋棄---不僅救自己大兵,也救中國漁民

一個也不該拋棄---不僅救自己大兵,也救中國漁民

通往遠方的路
2026-04-07 15:54:35
聯想天禧 Claw 產品體驗:大家都能吃的龍蝦才是好龍蝦

聯想天禧 Claw 產品體驗:大家都能吃的龍蝦才是好龍蝦

愛范兒
2026-04-07 18:00:28
廣州外賣騎手去年平均薪酬15萬,快遞員、貨車司機收入下降

廣州外賣騎手去年平均薪酬15萬,快遞員、貨車司機收入下降

南方都市報
2026-04-07 18:12:09
新空腹血糖標準已調整,不再6.1mmol/L,糖前期者,早知早管控

新空腹血糖標準已調整,不再6.1mmol/L,糖前期者,早知早管控

觀星賞月
2026-04-07 16:49:02
美媒:“無法無天的世界代價高昂”

美媒:“無法無天的世界代價高昂”

參考消息
2026-04-07 16:50:06
2020年,長沙女子癌癥晚期,爭奪女兒40萬學費,直言:我只想活著

2020年,長沙女子癌癥晚期,爭奪女兒40萬學費,直言:我只想活著

大魚簡科
2026-04-06 11:33:07
大結局要來?特朗普發出“通牒”,中俄一通電話后,伊朗作出決定

大結局要來?特朗普發出“通牒”,中俄一通電話后,伊朗作出決定

面包夾知識
2026-04-07 18:28:42
2026-04-07 21:56:49
AI變革 incentive-icons
AI變革
AI時代的變革,無論你主不主動,都與你有關
142文章數 16關注度
往期回顧 全部

科技要聞

滿嘴謊言!OpenAI奧特曼黑料大起底

頭條要聞

臺灣一些人被指準備"潤" 賴清德曾稱兒子在美"學功夫"

頭條要聞

臺灣一些人被指準備"潤" 賴清德曾稱兒子在美"學功夫"

體育要聞

官宣簽約“AI球員”,這支球隊被罵慘了...

娛樂要聞

女首富陳麗華離世 被曝生前已分好遺產

財經要聞

10萬億財政轉移支付,被誰拿走了?

汽車要聞

不止是大 極狐首款MPV問道V9靜態體驗

態度原創

手機
教育
游戲
藝術
公開課

手機要聞

4月21日的手機圈,不敢想象會有多刺激

教育要聞

地理教材上五種交通運輸方式的比較是不是過時了?

模組救場還是官方重做?GTA4重制版引發玩家激烈爭論

藝術要聞

美麗風光看不盡

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版