![]()
始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在,歡迎加入共同成長。
上海人工智能實驗室正式向全球開源其新一代多模態大模型——書生·萬象InternVL 3.5。本次開源的模型實現了從單純感知理解到實體交互能力的重大跨越,標志著多模態人工智能進入了新的發展階段。
該模型通過創新的訓練架構和算法突破,在通用多模態感知、復雜情境推理和文本理解等核心能力方面均展現出卓越性能。其旗艦模型在多學科綜合推理評估中表現突出,位列全球開源模型領先地位。
更值得關注的是,新一代模型在多項特色能力上取得顯著進展:
具備先進的圖形用戶界面理解與操作能力,支持跨平臺自動化任務執行
在具身空間感知方面展現出色表現,為智能體導航與交互提供強大支撐
在矢量圖形理解與生成任務中實現突破性進展
這些突破使InternVL 3.5不再是傳統意義上的"觀察者",而是能夠真正理解環境、進行實體交互的智能體。該模型可自主完成文件管理、文檔處理等日常辦公任務,還能為機器人提供強大的視覺感知與決策能力,在智能制造、智能辦公等領域展現出廣闊應用前景。目前已上線始智AI-wisemodel開源社區-應用空間,歡迎大家進行體驗。
https://wisemodel.cn/apps/der5pgpdsis4t7s01k4kf39td
![]()
模型地址
https://wisemodel.cn/organization/Intern
01.
實現從“理解”到“行動”的跨越
本次升級,上海AI實驗室研究團隊重點強化了InternVL3.5面向實際應用的智能體與文本思考能力,在GUI交互、具身空間推理和矢量圖形處理等多個關鍵場景實現從“理解”到“行動”的跨越,并得到多項權威評測驗證。
在GUI交互部分,InternVL3.5在ScreenSpot-v2元素定位任務以92.9分超越同類模型,同時支持Windows/Ubuntu自動化操作,并在WindowsAgentArena任務大幅領先Claude-3.7-Sonnet;在具身智能體測試中,InternVL3.5表現出理解物理空間關系并規劃導航路徑的能力,在VSI-Bench以69.5分超過Gemini-2.5-Pro;在矢量圖形理解與生成方面,InternVL3.5在SGP-Bench以70.7分刷新開源紀錄,生成任務FID值也優于GPT-4o和Claude-3.7-Sonnet。
不只是評測成績亮眼,InternVL3.5在智能辦公、機器人訓練、AI for Science等實際場景中也展示出強勁實力。具體實例如下:
GUI智能體
InternVL3.5可跨Windows、Mac、Ubuntu、Android等多個平臺,精確識別界面元素并自主執行鼠標、鍵盤操作,實現恢復已刪除文件、導出PDF、郵件添加附件等任務的自動化,有效提升辦公效率。
具身空間推理
InternVL3.5具備更強的grounding能力,可以泛化到全新的復雜大量小樣本的具身場景,配合抓取算法,支持可泛化的長程物體抓取操作,助力機器人更高效地完成物品識別、路徑規劃與物理交互。
(視頻由錄制視角記錄)
矢量圖生成與編輯
基于InternVL3.5 8B專有SVG模型,用戶能夠在發出自然語言指令后,讓模型生成或編輯SVG矢量圖形。本項能力可有效應用于網頁圖形生成與工程圖紙解析等專業場景。
示例1:根據文字指令生成矢量圖文件
指令示例:
一個帶有黃色和橙色三角形切面的幾何鉆石形狀;
一個帶有扳手和錘子圖標的紅色工具箱;
一個帶有深色底座和屏幕的藍色電腦顯示器圖標。
效果:
![]()
示例2:根據文字指令編輯矢量圖文件
指令示例:
在番茄的臉上涂一滴眼淚。
輸入:
![]()
輸出:
![]()
通用推理能力
從數學物理考研題到國考圖形推理邏輯測試,再到桌游策略推演,InternVL3.5以領先的通用推理能力實現多場景認知遷移。例如,在AI for Science場景中,模型可協助科研人員進行分子結構解析、材料性能預測等復雜推導。
示例1:數學物理考研題
問題
解答這道題
![]()
回答
![]()
(中間思考過程略)
![]()
![]()
示例2:國考圖形推理邏輯測試
問題:上面大方框中的紙折疊成一個正方形盒子之后,形成的箭頭的形狀,應該是下面A B C D中的哪個
![]()
示例3:桌游策略推演
問題:這是什么桌游?給出判斷依據,分析場上局勢,給出下一步的行動建議
![]()
InternVL3.5實現全場景能力提升并非源于單一維度的突破,而是架構、訓練、部署“三位一體”的系統性優化的成果。
02.
破解視覺模塊效率瓶頸
在架構方面,InternVL3.5的基礎架構遵循了業界成熟的 “ViT-MLP-LLM”范式,并創新提出視覺分辨率路由(Visual Resolution Router,ViR),有效解決多模態模型的視覺模塊因高分辨率輸入導致的效率瓶頸這一普遍性難題。
ViR的創新之處在于它能基于圖像語義內容進行自適應計算。在實際工作中,ViR基于視覺一致性學習(ViCO)智能化評估每個圖像塊的語義豐富度,并根據評估結果,選擇不同的壓縮路徑:對于語義密集區域(如文字、圖表),ViR會將其路由至高分辨率通路(保留更多Token);而對于語義信息較少的背景區域,則路由至低分辨率通路(保留更少Token)。
實測數據顯示,輕量化的InternVL3.5-Flash在將視覺序列長度減少50%的情況下,仍能保持接近100%的性能水平;在DocVQA、OCRBench等高分辨率任務上,InternVL3.5在保持高性能的同時推理速度顯著提升。
03.
創新多模態強化學習框架
傳統強化學習在多模態模型中常面臨“效率低”或“性能上限低”的兩難困境:在線強化學習效果好,但通常計算成本較高且訓練過程不穩定;離線強化學習訓練快,但其性能上限往往受到離線數據質量的限制。
因此,研究團隊提出了級聯式強化學習(Cascade Reinforcement Learning,Cascade RL)框架,通過“離線預熱-在線精調”兩個階段,逐步提升多模態模型的推理能力。
通過Cascade RL,InternVL3.5將離線強化學習的高效率、穩定性和在線強化學習的高性能潛力相結合,構建了一條高效、穩定且可擴展的推理能力提升路徑:在離線強化學習階段,采用混合偏好優化(MPO)算法快速讓模型達到基礎推理水平,為后續訓練提供高質量輸出樣本;在在線強化學習階段,主要基于GSPO算法,以模型自身生成的樣本為基礎,動態調整輸出分布,無需依賴外部參考模型,進一步提升其推理的上限。
對比單階段強化學習,級聯式強化學習僅通過50%的GPU訓練時間即可達到更優的綜合性能,同時在1B到241B全參數規模中均實現穩定性能增益,實現InternVL3.5全系列模型推理性能相較上一代平均提升16.0分。
其中,InternVL3.5-241B-A28B綜合推理性能達到66.9分,超越上一代模型的54.6分以及Claude-3.7-Sonnet的53.9分,在數學推理、邏輯推理等復雜任務中表現更為突出。
04.
高效部署實現超4倍的推理加速
在傳統的多模態模型推理部署方案中,視覺編碼器(如 ViT)和語言模型(LLM)通常串行執行,部署在同一個或同一組 GPU 上。然而,這兩部分的計算特性截然不同,視覺編碼器的計算會阻塞語言模型的執行,導致GPU資源利用率低下。
基于這一背景,研究團隊提出視覺-語言解耦部署(Decoupled Vision-Language Deployment,DvD)方案:將視覺編碼器(ViT+MLP)與語言模型(LLM)分置于不同GPU,并結合BF16精度特征傳輸與異步流水線設計,使視覺計算與語言生成能夠并行執行。
DvD帶來了顯著的推理加速,實測數據顯示:InternVL3.5-38B模型在處理1344x1344分辨率的圖像時,若僅使用DvD可以將吞吐量提升1.97倍;若結合使用DvD與ViR,加速效果更為顯著,最高可達4.05倍。這一突破不僅意味著性能上的飛躍,更成為推動高分辨率、強推理能力的多模態大模型在實際場景中落地應用的關鍵工程成果。
----- END -----
![]()
wisemodel相關:
系列模型:
關于wisemodel更多
1
歡迎持續關注和支持
開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發布到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續關注wisemodel.cn開源社區動態。
2
歡迎加盟wisemodel開源社區
始智AI wisemodel社區自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區,為了加快公司發展,我們長期需要技術、運營等人才加盟,技術側重在AI infra、后端開發,熟悉K8S、模型訓練和推理等技術, 以及熟悉開發者生態運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn
3
歡迎投稿優質內容
歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。
4
關于wisemodel開源社區
始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。
向上滑動查看
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.