Qianfan-VL領(lǐng)域增強(qiáng)效果優(yōu)異，全自研芯片訓(xùn)練

2025-10-16 21:45:14　來源: wisemodel開源社區(qū)

北京舉報(bào)

分享至

始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)。正在，歡迎加入共同成長。

Qianfan-VL系列模型是由百度智能云千帆模型研發(fā)團(tuán)隊(duì)，基于開源模型進(jìn)行開發(fā)，并在百度自研昆侖芯 P800上完成全流程計(jì)算任務(wù)。昆侖芯P800提供了強(qiáng)大的算力支撐，確保模型能夠高效處理海量數(shù)據(jù)與復(fù)雜算法，同時(shí)支持單任務(wù)5000卡規(guī)模的并行計(jì)算。這一結(jié)合不僅優(yōu)化了模型計(jì)算的效率，更使得模型在性能表現(xiàn)上達(dá)到了新的高度，在通用和垂類任務(wù)評測中展現(xiàn)出SOTA水平。

該系列包含3B、8B和70B三個(gè)尺寸版本，是面向企業(yè)級多模態(tài)應(yīng)用場景，進(jìn)行了深度優(yōu)化的視覺理解大模型。Qianfan-VL不僅具備出色的基礎(chǔ)通用能力，還針對產(chǎn)業(yè)落地中的高頻需求，如OCR和教育垂直場景做了專項(xiàng)強(qiáng)化，使其在實(shí)際應(yīng)用中表現(xiàn)更加卓越。Qianfan-VL模型具備三大特點(diǎn)：

多尺寸模型滿足不同場景需求：提供3B、8B、70B三種規(guī)格的模型，讓不同規(guī)模的企業(yè)和開發(fā)者都能找到合適的解決方案。

提供思考推理能力：8B和70B模型支持通過特殊token激活思維鏈能力，覆蓋復(fù)雜圖表理解、視覺推理、數(shù)學(xué)解題等多種場景。

OCR與文檔理解能力增強(qiáng)：主打OCR全場景識別和復(fù)雜版面文檔理解兩大特色能力，在多項(xiàng)基準(zhǔn)測試中表現(xiàn)優(yōu)異，為企業(yè)級應(yīng)用提供高精度的視覺理解解決方案。

Qianfan-VL系列模型已上線始智AI-wisemodel開源社區(qū)，歡迎體驗(yàn)。

模型地址

https://wisemodel.cn/organization/baidu-qianfan

01.

模型性能與效果

1、通用能力基準(zhǔn)測試表現(xiàn)

在通用能力基準(zhǔn)測試中，Qianfan-VL 系列模型（3B、8B、70B）展現(xiàn)出顯著核心優(yōu)勢。從視覺理解到專業(yè)領(lǐng)域問答，模型性能隨參數(shù)規(guī)模增大提升顯著，體現(xiàn)出很好的Scaling趨勢。在 ScienceQA 等專業(yè)問答測試中，精準(zhǔn)度表現(xiàn)突出；多模態(tài)任務(wù)如 RefCOCO 等，物體識別與關(guān)聯(lián)能力優(yōu)異；同時(shí)，在各類通用基準(zhǔn)測試?yán)铮噍^主流模型，整體表現(xiàn)也頗為亮眼，充分彰顯出在視覺理解通用能力上的出色實(shí)力，為不同場景下的智能應(yīng)用提供了有力支撐。

2、OCR與文檔理解基準(zhǔn)測試表現(xiàn)

Qianfan-VL 系列模型（3B、8B、70B）在 OCR 與文檔理解領(lǐng)域盡顯卓越實(shí)力。一方面，具備 OCR 全場景識別能力，能精準(zhǔn)識別手寫體、數(shù)學(xué)公式、自然場景文字，還可對卡證票據(jù)信息進(jìn)行結(jié)構(gòu)化提取；另一方面，復(fù)雜版面文檔理解能力突出，可自動(dòng)分析版面元素，精準(zhǔn)解析表格、圖表，實(shí)現(xiàn)文檔智能問答與結(jié)構(gòu)化解析。從基準(zhǔn)測試表現(xiàn)看，在 OCRBench、各類專業(yè)測試中，相較于主流模型，成績優(yōu)異且隨參數(shù)規(guī)模提升持續(xù)向好，為企業(yè)級應(yīng)用提供了高精度的視覺理解解決方案，有力推動(dòng)文檔智能處理場景的高效落地。

3、數(shù)學(xué)解題基準(zhǔn)測試表現(xiàn)

Qianfan-VL 系列的 8B 和 70B 模型，在思考推理能力方面表現(xiàn)卓越。它們支持通過特殊 token 激活思維鏈能力，能覆蓋復(fù)雜圖表理解、視覺推理、數(shù)學(xué)解題等多類場景。這類任務(wù)需結(jié)合視覺信息與外部知識進(jìn)行組合推理，而模型通過融合大量視覺類、文本類推理數(shù)據(jù)并用于后訓(xùn)練，從 benchmark 表現(xiàn)來看，推理計(jì)算相關(guān)任務(wù)效果顯著提升。

在核心推理應(yīng)用場景上，復(fù)雜圖表理解與推理方面，可從復(fù)雜圖表提取關(guān)鍵信息，進(jìn)行數(shù)據(jù)分析、趨勢預(yù)測、關(guān)聯(lián)推理及統(tǒng)計(jì)計(jì)算；數(shù)學(xué)解題與視覺推理領(lǐng)域，能實(shí)現(xiàn)幾何推理、公式識別、分步求解與邏輯推斷。從數(shù)學(xué)解題基準(zhǔn)測試表現(xiàn)看，在 MathVista-mini、MathVision 等多項(xiàng)測試中，相較于主流模型，成績優(yōu)異且隨參數(shù)規(guī)模提升持續(xù)向好，為復(fù)雜推理場景下的應(yīng)用提供了強(qiáng)力支持。

02.

模型架構(gòu)設(shè)計(jì)與技術(shù)特色


                           項(xiàng)目 th>期末余額 th>年初余額 th>          tr>      thead>                

 流動(dòng)資產(chǎn)： td>   tr>           貨幣資金 td>5,288,011,738.39 td>2,629,981,089.49 td>   tr>           結(jié)算備付金 td> td> td>   tr>           拆出資金 td> td> td>   tr>           以公允價(jià)值計(jì)量且其變動(dòng)計(jì)入當(dāng)期損益的金融資產(chǎn) td>3,226,301.37 td>6,830,273.97 td>   tr>           衍生金融資產(chǎn) td> td> td>   tr>           應(yīng)收票據(jù) td>1,010,636.94 td>888,800.00 td>   tr>           應(yīng)收賬款 td>389,409,537.65 td>290,733,812.62 td>   tr>           預(yù)付款項(xiàng) td>474,301,533.93 td>509,510,514.92 td>   tr>           應(yīng)收保費(fèi) td> td> td>   tr>           應(yīng)收分保賬款 td> td> td>   tr>           應(yīng)收分保合同準(zhǔn)備金 td> td> td>   tr>           應(yīng)收利息 td>8,746,899.35 td>1,645,890.39 td>   tr>           應(yīng)收股利 td> td> td>   tr>           其他應(yīng)收款 td>291,499,926.83 td>364,426,205.02 td>   tr>           買入返售金融資產(chǎn) td> td> td>   tr>           存貨 td>69,558,687.59 td>79,651,862.50 td>   tr>           劃分為持有待售的資產(chǎn) td> td> td>   tr>           一年內(nèi)到期的非流動(dòng)資產(chǎn) td> td> td>   tr>           其他流動(dòng)資產(chǎn) td>533,938,653.95 td>545,184,036.20 td>   tr>           流動(dòng)資產(chǎn)合計(jì) td>7,059,703,916.00 td>4,428,852,485.11 td>   tr>           

 非流動(dòng)資產(chǎn)： td>   tr>           發(fā)放貸款和墊款 td> td> td>   tr>           可供出售金融資產(chǎn) td>981,477,845.00 td>42,732,350.00 td>   tr>           持有至到期投資 td> td> td>   tr>           長期應(yīng)收款 td> td> td>   tr>           長期股權(quán)投資 td>478,328,423.92 td>482,914,333.17 td>   tr>           投資性房地產(chǎn) td> td> td>   tr>           固定資產(chǎn) td>11,211,345,599.37 td>11,517,509,788.66 td>   tr>           在建工程 td>344,034,065.45 td>558,797,792.68 td>   tr>      tbody> table>

----- END -----

wisemodel相關(guān)：

系列模型：

關(guān)于wisemodel更多

歡迎持續(xù)關(guān)注和支持

開源社區(qū)建設(shè)需要長期堅(jiān)持和投入，更需要廣大用戶的積極參與、貢獻(xiàn)和維護(hù)，歡迎大家加入wisemodel開源社區(qū)的志愿者計(jì)劃和開源共創(chuàng)計(jì)劃。期待更多開發(fā)者將開源成果，包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū)，共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信，申請加入wisemodel社群，持續(xù)關(guān)注wisemodel.cn開源社區(qū)動(dòng)態(tài)。

歡迎加盟wisemodel開源社區(qū)

始智AI wisemodel社區(qū)自2023年9月上線以來，逐漸成為影響力日益擴(kuò)大的中立開放的AI開源社區(qū)，為了加快公司發(fā)展，我們長期需要技術(shù)、運(yùn)營等人才加盟，技術(shù)側(cè)重在AI infra、后端開發(fā)，熟悉K8S、模型訓(xùn)練和推理等技術(shù)，以及熟悉開發(fā)者生態(tài)運(yùn)營的成員，歡迎感興趣的朋友加盟，可以通過添加wisemodel微信，或者將簡歷投遞到郵箱：liudaoquan@wisemodel.cn

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果，鼓勵(lì)高校實(shí)驗(yàn)室、大企業(yè)研究團(tuán)隊(duì)、個(gè)人等，在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容，可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹，也可以是關(guān)于AI技術(shù)實(shí)踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn，也可以掃碼添加wisemodel微信。

關(guān)于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會(huì)AI大數(shù)據(jù)專委會(huì)副秘書長劉道全創(chuàng)立，旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū)，將打造成“HuggingFace”之外最活躍的AI開源社區(qū)，匯聚主要AI開源模型、數(shù)據(jù)集和代碼等，歡迎高校科研院所、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個(gè)人開發(fā)者，以及政府部門、學(xué)會(huì)協(xié)會(huì)、聯(lián)盟、基金會(huì)等，還有投資機(jī)構(gòu)、科技媒體等，共同參與建設(shè)AI開源創(chuàng)新生態(tài)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.