337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

書生·萬象3.5開源,實現多模態大模型從被動感知到主動執行

0
分享至


始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在,歡迎加入共同成長。

上海人工智能實驗室正式向全球開源其新一代多模態大模型——書生·萬象InternVL 3.5。本次開源的模型實現了從單純感知理解到實體交互能力的重大跨越,標志著多模態人工智能進入了新的發展階段。

該模型通過創新的訓練架構和算法突破,在通用多模態感知、復雜情境推理和文本理解等核心能力方面均展現出卓越性能。其旗艦模型在多學科綜合推理評估中表現突出,位列全球開源模型領先地位。

更值得關注的是,新一代模型在多項特色能力上取得顯著進展:

  • 具備先進的圖形用戶界面理解與操作能力,支持跨平臺自動化任務執行

  • 在具身空間感知方面展現出色表現,為智能體導航與交互提供強大支撐

  • 在矢量圖形理解與生成任務中實現突破性進展

這些突破使InternVL 3.5不再是傳統意義上的"觀察者",而是能夠真正理解環境、進行實體交互的智能體。該模型可自主完成文件管理、文檔處理等日常辦公任務,還能為機器人提供強大的視覺感知與決策能力,在智能制造、智能辦公等領域展現出廣闊應用前景。目前已上線始智AI-wisemodel開源社區-應用空間,歡迎大家進行體驗。

https://wisemodel.cn/apps/der5pgpdsis4t7s01k4kf39td


模型地址

https://wisemodel.cn/organization/Intern

01.

實現從“理解”到“行動”的跨越

本次升級,上海AI實驗室研究團隊重點強化了InternVL3.5面向實際應用的智能體與文本思考能力,在GUI交互、具身空間推理和矢量圖形處理等多個關鍵場景實現從“理解”到“行動”的跨越,并得到多項權威評測驗證。

在GUI交互部分,InternVL3.5在ScreenSpot-v2元素定位任務以92.9分超越同類模型,同時支持Windows/Ubuntu自動化操作,并在WindowsAgentArena任務大幅領先Claude-3.7-Sonnet;在具身智能體測試中,InternVL3.5表現出理解物理空間關系并規劃導航路徑的能力,在VSI-Bench以69.5分超過Gemini-2.5-Pro;在矢量圖形理解與生成方面,InternVL3.5在SGP-Bench以70.7分刷新開源紀錄,生成任務FID值也優于GPT-4o和Claude-3.7-Sonnet。

不只是評測成績亮眼,InternVL3.5在智能辦公、機器人訓練、AI for Science等實際場景中也展示出強勁實力。具體實例如下:

GUI智能體

InternVL3.5可跨Windows、Mac、Ubuntu、Android等多個平臺,精確識別界面元素并自主執行鼠標、鍵盤操作,實現恢復已刪除文件、導出PDF、郵件添加附件等任務的自動化,有效提升辦公效率。

具身空間推理

InternVL3.5具備更強的grounding能力,可以泛化到全新的復雜大量小樣本的具身場景,配合抓取算法,支持可泛化的長程物體抓取操作,助力機器人更高效地完成物品識別、路徑規劃與物理交互。

(視頻由錄制視角記錄)

矢量圖生成與編輯

基于InternVL3.5 8B專有SVG模型,用戶能夠在發出自然語言指令后,讓模型生成或編輯SVG矢量圖形。本項能力可有效應用于網頁圖形生成與工程圖紙解析等專業場景。

示例1:根據文字指令生成矢量圖文件

指令示例:

一個帶有黃色和橙色三角形切面的幾何鉆石形狀;

一個帶有扳手和錘子圖標的紅色工具箱;

一個帶有深色底座和屏幕的藍色電腦顯示器圖標。

效果:


示例2:根據文字指令編輯矢量圖文件

指令示例:

在番茄的臉上涂一滴眼淚。

輸入:


輸出:


通用推理能力

從數學物理考研題到國考圖形推理邏輯測試,再到桌游策略推演,InternVL3.5以領先的通用推理能力實現多場景認知遷移。例如,在AI for Science場景中,模型可協助科研人員進行分子結構解析、材料性能預測等復雜推導。

示例1:數學物理考研題

問題

解答這道題


回答


(中間思考過程略)



示例2:國考圖形推理邏輯測試

問題:上面大方框中的紙折疊成一個正方形盒子之后,形成的箭頭的形狀,應該是下面A B C D中的哪個


示例3:桌游策略推演

問題:這是什么桌游?給出判斷依據,分析場上局勢,給出下一步的行動建議


InternVL3.5實現全場景能力提升并非源于單一維度的突破,而是架構、訓練、部署“三位一體”的系統性優化的成果。

02.

破解視覺模塊效率瓶頸

在架構方面,InternVL3.5的基礎架構遵循了業界成熟的 “ViT-MLP-LLM”范式,并創新提出視覺分辨率路由(Visual Resolution Router,ViR),有效解決多模態模型的視覺模塊因高分辨率輸入導致的效率瓶頸這一普遍性難題。

ViR的創新之處在于它能基于圖像語義內容進行自適應計算。在實際工作中,ViR基于視覺一致性學習(ViCO)智能化評估每個圖像塊的語義豐富度,并根據評估結果,選擇不同的壓縮路徑:對于語義密集區域(如文字、圖表),ViR會將其路由至高分辨率通路(保留更多Token);而對于語義信息較少的背景區域,則路由至低分辨率通路(保留更少Token)。

實測數據顯示,輕量化的InternVL3.5-Flash在將視覺序列長度減少50%的情況下,仍能保持接近100%的性能水平;在DocVQA、OCRBench等高分辨率任務上,InternVL3.5在保持高性能的同時推理速度顯著提升。

03.

創新多模態強化學習框架

傳統強化學習在多模態模型中常面臨“效率低”或“性能上限低”的兩難困境:在線強化學習效果好,但通常計算成本較高且訓練過程不穩定;離線強化學習訓練快,但其性能上限往往受到離線數據質量的限制。

因此,研究團隊提出了級聯式強化學習(Cascade Reinforcement Learning,Cascade RL)框架,通過“離線預熱-在線精調”兩個階段,逐步提升多模態模型的推理能力。

通過Cascade RL,InternVL3.5將離線強化學習的高效率、穩定性和在線強化學習的高性能潛力相結合,構建了一條高效、穩定且可擴展的推理能力提升路徑:在離線強化學習階段,采用混合偏好優化(MPO)算法快速讓模型達到基礎推理水平,為后續訓練提供高質量輸出樣本;在在線強化學習階段,主要基于GSPO算法,以模型自身生成的樣本為基礎,動態調整輸出分布,無需依賴外部參考模型,進一步提升其推理的上限。

對比單階段強化學習,級聯式強化學習僅通過50%的GPU訓練時間即可達到更優的綜合性能,同時在1B到241B全參數規模中均實現穩定性能增益,實現InternVL3.5全系列模型推理性能相較上一代平均提升16.0分。

其中,InternVL3.5-241B-A28B綜合推理性能達到66.9分,超越上一代模型的54.6分以及Claude-3.7-Sonnet的53.9分,在數學推理、邏輯推理等復雜任務中表現更為突出。

04.

高效部署實現超4倍的推理加速

在傳統的多模態模型推理部署方案中,視覺編碼器(如 ViT)和語言模型(LLM)通常串行執行,部署在同一個或同一組 GPU 上。然而,這兩部分的計算特性截然不同,視覺編碼器的計算會阻塞語言模型的執行,導致GPU資源利用率低下。

基于這一背景,研究團隊提出視覺-語言解耦部署(Decoupled Vision-Language Deployment,DvD)方案:將視覺編碼器(ViT+MLP)與語言模型(LLM)分置于不同GPU,并結合BF16精度特征傳輸與異步流水線設計,使視覺計算與語言生成能夠并行執行。

DvD帶來了顯著的推理加速,實測數據顯示:InternVL3.5-38B模型在處理1344x1344分辨率的圖像時,若僅使用DvD可以將吞吐量提升1.97倍;若結合使用DvD與ViR,加速效果更為顯著,最高可達4.05倍。這一突破不僅意味著性能上的飛躍,更成為推動高分辨率、強推理能力的多模態大模型在實際場景中落地應用的關鍵工程成果。

----- END -----


wisemodel相關:



系列模型:

關于wisemodel更多

1

歡迎持續關注和支持

開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發布到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續關注wisemodel.cn開源社區動態。

2

歡迎加盟wisemodel開源社區

始智AI wisemodel社區自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區,為了加快公司發展,我們長期需要技術、運營等人才加盟,技術側重在AI infra、后端開發,熟悉K8S、模型訓練和推理等技術, 以及熟悉開發者生態運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關于wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。

向上滑動查看

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
震驚!張雪峰助理萬霞竟是公司“001號員工”陪創業9年成最強搭檔

震驚!張雪峰助理萬霞竟是公司“001號員工”陪創業9年成最強搭檔

鄉野小珥
2026-03-26 21:28:25
費率0.3%,社保“第六險”來了,退休人員也要交

費率0.3%,社保“第六險”來了,退休人員也要交

財話連篇
2026-03-26 13:09:33
掛斷王毅電話后,伊朗向全球發出"照會",把小薩拉曼鼻子都氣歪了

掛斷王毅電話后,伊朗向全球發出"照會",把小薩拉曼鼻子都氣歪了

聞香閣
2026-03-25 22:48:26
調查發現:若50歲前沒患這4種疾病,以后患癌的幾率或微乎其微?

調查發現:若50歲前沒患這4種疾病,以后患癌的幾率或微乎其微?

醫學科普匯
2026-03-26 20:55:03
瘋爽被塘主追著求復合

瘋爽被塘主追著求復合

毒舌扒姨太
2026-03-26 22:44:25
TOP14位身高170以上的女神,有顏有燈有演技

TOP14位身高170以上的女神,有顏有燈有演技

素然追光
2026-01-02 02:45:02
震碎三觀!鄧兆尊節目自曝多人運動,交3個女友還能一碗水端平

震碎三觀!鄧兆尊節目自曝多人運動,交3個女友還能一碗水端平

橙星文娛
2026-03-26 09:20:10
陳云晚年首次披露:遵義會議上這兩個人死活不同意毛主席,吵得面紅耳赤

陳云晚年首次披露:遵義會議上這兩個人死活不同意毛主席,吵得面紅耳赤

老杉說歷史
2026-03-21 17:38:44
馬英九疑似患失智癥,臺律師:大陸已注意到,沒讓其擔任統一大使

馬英九疑似患失智癥,臺律師:大陸已注意到,沒讓其擔任統一大使

卷史
2026-03-26 20:08:36
我們看印度人是奇葩,印度人看我們也一樣?真相是我們想象的百倍

我們看印度人是奇葩,印度人看我們也一樣?真相是我們想象的百倍

番外行
2026-03-24 13:04:28
50℃高溫鎖住國運!電不夠水沒有,印度的未來,徹底沒希望了?

50℃高溫鎖住國運!電不夠水沒有,印度的未來,徹底沒希望了?

Hi科普啦
2026-03-25 14:57:31
斬草除根!美以聯合空襲打擊伊朗伊斯法罕關鍵光電及導彈研究設施

斬草除根!美以聯合空襲打擊伊朗伊斯法罕關鍵光電及導彈研究設施

軍迷戰情室
2026-03-25 07:42:05
伊朗戰爭還將持續多久?據傳特朗普希望4-6周內終結戰事

伊朗戰爭還將持續多久?據傳特朗普希望4-6周內終結戰事

財聯社
2026-03-26 18:29:05
開源作者把5個免費賬號拼成1個無限額度,AI公司還沒反應過來

開源作者把5個免費賬號拼成1個無限額度,AI公司還沒反應過來

報錯免疫體
2026-03-26 12:07:59
有網友在大冰直播間看到彈幕稱張雪峰因心臟驟停離世,大冰隨即回應:我下午就已得知此事,心情十分沉重

有網友在大冰直播間看到彈幕稱張雪峰因心臟驟停離世,大冰隨即回應:我下午就已得知此事,心情十分沉重

畫夕
2026-03-26 01:20:12
巴蒂:馬拉多納離世時身邊沒有人,最后走得像條狗一樣

巴蒂:馬拉多納離世時身邊沒有人,最后走得像條狗一樣

懂球帝
2026-03-26 06:43:02
2-0晉級八強!中國女網15歲新星連續爆冷真猛:下一輪對決王曦雨

2-0晉級八強!中國女網15歲新星連續爆冷真猛:下一輪對決王曦雨

李喜林籃球絕殺
2026-03-26 17:04:26
中國移動官宣!4月30日起全國統一執行,事關所有手機號

中國移動官宣!4月30日起全國統一執行,事關所有手機號

Thurman在昆明
2026-03-26 13:35:46
看了新加坡媒體的披露,我才知道,中國已經沒必要向世界證明什么

看了新加坡媒體的披露,我才知道,中國已經沒必要向世界證明什么

觸摸史跡
2026-03-21 02:58:06
人類史上最高級零元購,榨干印度200年,留下45萬億天價賬單

人類史上最高級零元購,榨干印度200年,留下45萬億天價賬單

掠影后有感
2026-03-26 10:39:36
2026-03-27 00:40:49
wisemodel開源社區 incentive-icons
wisemodel開源社區
始智AI wisemodel.cn開源社區,打造中國版“huggingface”
466文章數 14關注度
往期回顧 全部

科技要聞

美團發布外賣大戰后成績單:虧損超200億

頭條要聞

張雪峰留巨額遺產:二婚妻子或拿50% 剩下的女兒占1/3

頭條要聞

張雪峰留巨額遺產:二婚妻子或拿50% 剩下的女兒占1/3

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發聲!稱姐姐受身邊人挑撥

財經要聞

油價"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預售 CLTC最大續航815km

態度原創

本地
手機
親子
公開課
軍事航空

本地新聞

救命,這只醬板鴨已經在我手機復仇了一萬遍

手機要聞

1499 iQOO Z11系列發布丨9020mAh電池 165Hz高刷

親子要聞

看看把孩子嚇得哈哈哈

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

擔心特朗普突然停戰 以總理下令48小時盡力摧毀伊設施

無障礙瀏覽 進入關懷版