1月29日,百度正式發(fā)布并開源新一代文檔解析模型PaddleOCR-VL-1.5。該模型以僅0.9B參數(shù)的輕量架構(gòu),在全球權(quán)威文檔解析評(píng)測(cè)榜單OmniDocBenchV1.5中取得全球綜合性能第一成績,整體精度達(dá)到94.5%,超過Gemini-3-Pro、DeepSeek-OCR2、Qwen3-VL-235B-A22B、GPT-5.2等模型。
值得關(guān)注的是,PaddleOCR-VL-1.5全球首次實(shí)現(xiàn)OCR模型的“異形框定位”能力,使機(jī)器能夠精準(zhǔn)識(shí)別傾斜、彎折、拍照畸變等非規(guī)則文檔形態(tài),首次讓“歪文檔”實(shí)現(xiàn)穩(wěn)定、可規(guī)模化解析。該技術(shù)解決了傳統(tǒng)OCR模型在移動(dòng)拍照、掃描件變形、復(fù)雜光照等真實(shí)場(chǎng)景中因文檔形變導(dǎo)致的識(shí)別失敗問題,可廣泛應(yīng)用于金融票據(jù)處理、檔案數(shù)字化、政務(wù)文檔流轉(zhuǎn)等場(chǎng)景。
PaddleOCR-VL-1.5基于文心大模型進(jìn)行開發(fā),在OmniDocBenchV1.5多個(gè)關(guān)鍵指標(biāo)上取得領(lǐng)先表現(xiàn)。其中,表格結(jié)構(gòu)理解(92.8分)和閱讀順序預(yù)測(cè)(95.8分)兩項(xiàng)核心指標(biāo)上均位列第一,分別領(lǐng)先Gemini-3-Pro、DeepSeek-OCR等主流模型2–5分不等。在文檔閱讀順序預(yù)測(cè)任務(wù)中,其版面邏輯解析錯(cuò)誤率僅為同類其他模型約一半。這表明,PaddleOCR-VL-1.5在復(fù)雜文檔結(jié)構(gòu)還原與版面邏輯理解方面具備更高穩(wěn)定性,在合同、財(cái)報(bào)等高復(fù)雜度業(yè)務(wù)場(chǎng)景中擁有更高可用性。
![]()
2025年10月16日,百度首次發(fā)布并開源PaddleOCR-VL模型,在OmniDocBenchV1.5榜單中取得全球SOTA成績,并連續(xù)五天登頂HuggingFace全球模型總趨勢(shì)榜與ModelScope全球模型總趨勢(shì)榜雙榜第一。
相比于上代,在功能層面,PaddleOCR-VL-1.5進(jìn)一步集成印章識(shí)別、文本檢測(cè)與識(shí)別等任務(wù)能力,關(guān)鍵指標(biāo)持續(xù)領(lǐng)跑;同時(shí)針對(duì)特殊場(chǎng)景與多語種識(shí)別進(jìn)行系統(tǒng)優(yōu)化,在生僻字、古籍文獻(xiàn)、多語種表格、下劃線與復(fù)選框等復(fù)雜結(jié)構(gòu)識(shí)別方面顯著提升,并新增對(duì)藏語、孟加拉語等語種的支持。模型還支持跨頁表格自動(dòng)合并與跨頁段落標(biāo)題識(shí)別,有效解決長文檔解析中的結(jié)構(gòu)斷裂問題。
近半年來,全球主流模型廠商密集布局OCR領(lǐng)域。1月27日,深度求索發(fā)布新一代OCR模型DeepSeek-OCR-2,引入“因果流查詢”機(jī)制,并將語言模型融入視覺編碼,在OmniDocBenchV1.5中實(shí)現(xiàn)91.09%精度。與此同時(shí),MistralAI、字節(jié)跳動(dòng)、騰訊等企業(yè)也相繼推出新一代OCR模型,行業(yè)競(jìng)爭(zhēng)持續(xù)加劇。
業(yè)內(nèi)分析認(rèn)為,隨著大模型加速進(jìn)入金融、政務(wù)、制造等高復(fù)雜度業(yè)務(wù)流程,文檔解析能力正從“能用”走向“穩(wěn)定可規(guī)模化落地”。PaddleOCR-VL-1.5在精度、復(fù)雜場(chǎng)景適應(yīng)性與工程化能力上的系統(tǒng)突破,有望進(jìn)一步降低產(chǎn)業(yè)應(yīng)用門檻,推動(dòng)OCR技術(shù)在真實(shí)生產(chǎn)環(huán)境中的深度落地。
目前,PaddleOCR-VL-1.5已全面開源,開發(fā)者可通過GitHub、HuggingFace獲取,并在PaddleOCR官網(wǎng)進(jìn)行在線體驗(yàn)或通過百度智能云千帆平臺(tái)調(diào)用API接口。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.