![]()
始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在,歡迎加入共同成長。wisemodel推出邀請注冊獎勵活動,最高可得算力券+token包380元獎勵,歡迎參與和支持!
11月11日,百度文心多模態思考模型ERNIE-4.5-VL-28B-A3B-Thinking正式開源。本模型僅3B激活參數,媲美頂級大模型性能!ERNIE-4.5-VL-28B-A3B-Thinking是在ERNIE-4.5-VL-28B-A3B基礎上訓練的深度思考模型,在視覺語言多模態理解能力上實現了顯著提升。模型具備領先的文檔與圖表理解能力,在理科與文科綜合推理、通用視覺推理等任務中表現優異,展現出更強的跨模態推理與問題解決能力。同時,結合空間定位與工具調用,該模型推出“圖像思考”等創新功能,為多模態思維與交互應用帶來更豐富的可能。
ERNIE-4.5-VL-28B-A3B-Thinking模型以Apache License 2.0協議開源,允許商業使用。模型已上線始智AI-wisemodel開源社區,歡迎體驗。
![]()
模型地址
https://wisemodel.cn/models/PaddlePaddle/ERNIE-4.5-VL-28B-A3B-Thinking
![]()
文心4.5系列開源模型全景
01.
在核心亮點速遞
基于強大的ERNIE-4.5-VL-28B-A3B架構,全新升級的ERNIE-4.5-VL-28B-A3B-Thinking在大規模多模態學習領域實現了實質性躍升。在中期訓練(Mid-Training)階段,模型引入了海量高質量視覺-語言數據,這顯著增強了模型的表征能力與跨模態語義對齊能力,從而顯著提升了視覺文本推理性能。
同時,ERNIE-4.5-VL-28B-A3B-Thinking在可驗證的任務上采用大規模多模態強化學習,它利用GSPO和IcePop策略來穩定基于MoE的RL訓練,結合了動態難度采樣機制,提升強化學習的有效率。
我們注意到,社區開發者對模型的定位能力有著顯著需求。為此,我們進一步強化了該能力,并提升了模型的指令遵循性。當用戶需要時,可更便捷地觸發視覺定位功能。
此外,我們引入了“圖像思考”創新能力,讓本模型兼備圖片放大和圖片搜索等工具調用能力,因此本模型與環境交互的能力顯著提升,能夠有效幫助開發者們構建多模態智能體。
ERNIE-4.5-VL-28B-A3B-Thinking作為激活僅3B的輕量級模型,在各項測試中的表現緊咬業界頂級旗艦模型,以輕量級規模實現了接近SOTA的視覺表現。
![]()
![]()
小模型,大能量
(左右滑動查看大圖)
![]()
視覺推理
通過大規模強化學習策略,模型在復雜視覺任務中展現卓越的多步推理、圖表解析與因果推理能力。
復雜圖表解析,避開高峰時段
![]()
![]()
![]()
學科計算
憑借強大視覺能力,模型在拍照解題等學科推理中實現飛躍式提升,復雜題目也能輕松搞定!
解決物理學科電阻問題
![]()
![]()
![]()
視覺定位(Grounding)
定位更精準,指令執行更靈活,輕松觸發復雜工業場景下的定位功能,效率直線上升!
快速識別穿西服戴禮帽人物數量及定位
![]()
![]()
![]()
模型Grounding輸出結果的可視化——圖中邊界框對應模型生成的 “穿西裝的人” 的bbox_2d坐標。
![]()
圖像思考(Thinking with Images)
如同真人般思考,模型可對圖片自由放大縮小,把控每個細節,洞察每一處信息!
支持圖片自由放大,
識別圖片細節信息
![]()
![]()
![]()
工具調用
具備強大的工具調用能力,模型可即時調用圖片搜索等功能,輕松識別長尾知識,實現全方位信息獲取!
工具調用認識更多熱門IP
![]()
![]()
![]()
視頻理解
模型具備卓越的時間感知與事件定位能力,能夠精準識別視頻中不同時間段的內容變化,讓視頻分析更智能、更高效!
卓越定位廣告片不同時段內容變化、分析更智能
![]()
![]()
(上下滑動查
看)
為方便社區開發者適配和拓展應用場景,團隊提供了涵蓋Transformers、vLLM、大模型高效部署套件FastDeploy、文心大模型開發套件ERNIEKit等開箱即用的工具和全流程的支持。共邀廣大開發者即刻啟動,反饋真實需求和使用體驗。接下來團隊也會陸續推出詳盡、實用的技術教程與最佳實踐,與全球開發者攜手共進,推動大模型技術在更多領域落地。
02.
在線體驗/API
wisemodel社區-鏡像上線了“百度/ERNIE-4.5-VL-28B-A3B-Thinking”的鏡像,支持一鍵創建在線體驗或者API服務,選中該鏡像,點擊部署在線體驗或者部署API服務。
![]()
進入后,根據需要填寫相應的信息,點擊“提交訂單”按鈕,體驗進入后臺的啟動階段。大概等待1分鐘左右,體驗進入運行中的狀態。
![]()
公開狀態的在線體驗可以在wisemodel社區-體驗與API”的頁面上點擊相應的體驗,進入體驗的頁面;私有狀態的在線體驗需要前往“用戶中心-我的資源-體驗”進入體驗的頁面。
![]()
![]()
----- END -----
![]()
wisemodel相關:
系列模型:
關于wisemodel更多
1
歡迎持續關注和支持
開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發布到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續關注wisemodel.cn開源社區動態。
2
歡迎加盟wisemodel開源社區
始智AI wisemodel社區自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區,為了加快公司發展,我們長期需要技術、運營等人才加盟,技術側重在AI infra、后端開發,熟悉K8S、模型訓練和推理等技術, 以及熟悉開發者生態運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn
3
歡迎投稿優質內容
歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。
4
關于wisemodel開源社區
始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。
向上滑動查看
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.