337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

LLaVA-OneVision-1.5開源,8B模型預訓練只需4天、1.6萬美元

0
分享至



LLaVA 于 2023 年提出,通過低成本對齊高效連接開源視覺編碼器與大語言模型,使「看圖 — 理解 — 對話」的多模態能力在開放生態中得以普及,明顯縮小了與頂級閉源模型的差距,標志著開源多模態范式的重要里程碑。



LLaVA 用低成本對齊打通「視覺編碼器 + 大語言模型」起步,LLaVA?1.5 以更大更干凈的數據與高分辨率輸入強化理解,LLaVA?NeXT 拓展 OCR / 數理與多場景任務;隨后分支為 LLaVA?NeXT?Video 處理時序視頻、多幀推理,及 LLaVA-NeXT-Interleave 支持交替多圖文與跨圖聯推;最終在 LLaVA?OneVision 匯聚為統一接口,覆蓋圖像 / 文檔 / 圖表 / 多圖 / 視頻,兼顧效果與效率。

盡管多模態對齊的接口與架構趨于收斂,真正「可復現」的開源路徑仍與「僅開放權重」存在間距。Qwen2.5?VL、InternVL3.5 在 OCR、文檔理解、數理與跨圖推理上樹立高基線,但完整的數據清單、清洗與混合比例,以及對齊 / 采樣與訓練日程多為部分披露,難以端到端重現。Molmo 以更干凈的數據流水線與精細化設計,在多項評測與偏好中逼近閉源強基線;Open?Qwen2VL 則表明在更高效范式下,即便原始多模態 token 占比較低亦能取得強對比性能。當前主要鴻溝在于 「配方與工程細節的可復現性」,而非單一的模型架構選擇。



靈感實驗室團隊聯合 LMMs-Lab 圍繞「高性能 — 低成本 — 強復現」三大目標,在 LLaVA-OneVision 體系上推出完整開放的概念均衡 85M 預訓練數據集(LLaVA-OV-1.5-Mid-Training-85M)與精篩 22M 指令數據集(LLaVA-OV-1.5-Instruct-22M),并沿用緊湊的三階段流程(語言–圖像對齊 Stage?1、概念均衡與高質量知識注入 Stage?1.5、指令微調 Stage?2),結合離線并行數據打包(最高約 11× padding 壓縮)與 Megatron?LM + 分布式優化器,將 8B 規模 VL 模型的 Stage?1.5 預訓練在 128 張 A800 上控制在約 4 天內完成,預算控制在 1.6 萬美元。

在此基礎上,我們提出LLaVA?OneVision?1.5,繼承并擴展 LLaVA 系列:引入 RICE?ViT 支持原生分辨率與區域級細粒度語義建模、強化圖表 / 文檔 / 結構化場景理解,延續緊湊三階段范式以避免冗長 curriculum,構建并強調「質量 — 覆蓋 — 均衡」的 85M 預訓練與 22M 指令集合,并真正意義上實現全鏈條透明開放(數據、訓練與打包工具鏈、配置腳本、日志與可復現評測命令及其構建與執行細節),以確保社區低成本復現與可驗證拓展。

實驗結果顯示,LLaVA?OneVision 在多項公開多模態基準上較 Qwen2.5?VL 展現出競爭性乃至更優性能(詳見技術報告)。



  • 論文標題:LLaVA-OneVision-1.5: Fully Open Framework for Democratized Multimodal Training
  • 代碼地址:
  • https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-1.5
  • 技術報告地址:
  • https://arxiv.org/abs/2509.23661
  • 數據 / 模型地址:
  • https://huggingface.co/collections/lmms-lab/llava-onevision-15-68d385fe73b50bd22de23713
  • Demo:
  • https://huggingface.co/spaces/lmms-lab/LLaVA-OneVision-1.5

數據構建要點



用于通用視覺語言的預訓練集(85M)與指令微調數據集(22M)。其中 85M 預訓練數據融合 COYO-700M、Obelics、DataComp-1B、LAION-CN、ImageNet-21K、SAM-1B、MINT、Zero250M 等 8 大異構來源,形成約 2,000 萬中文與 6,500 萬英文圖文對。

為破解長尾概念稀疏與原始 caption 噪聲 / 缺失問題,我們不再依賴原始文本詞頻,而是采用特征驅動的「概念均衡」策略:利用 MetaCLIP 編碼器將全部圖像與 50 萬規模概念詞嵌入共享向量空間,對每張圖像檢索 Top-K 最相似概念,統計概念頻次后按逆頻加權重采樣,抑制高頻背景類并提升罕見細粒度實體、屬性與場景占比,顯著平坦化長尾分布;隨后使用高質量 Captioner 生成對齊的中英文增強描述。系統實驗表明,在相同或更低 token 預算下,擴大高質量數據規模并結合概念均衡采樣,可在多模態理解、長尾識別與指令泛化等核心指標上獲得顯著且可復現的性能提升。



指令數據 22M 覆蓋八大類別:Caption、Chart & Table、Code & Math、Domain-specific、General VQA、Grounding & Counting、OCR、Science。通過多源聚合、格式統一、指令重寫、雙語互轉、模板去同質化與安全篩除,保持類別與難度分布均衡。并且我們的指令數據疊加 FineVision 數據集之后,結果會繼續增加。



訓練策略

1. 視覺編碼器預訓練

為了讓模型在 OCR、表格 / 文檔、區域理解與后續指令推理上具有更高的下限,我們在 LLaVA-OneVision-1.5 中采用自研的 MVT v1.5(RICE-ViT) 作為視覺主干。

相較僅做全局對齊的 CLIP / SigLIP 類對比模型,RICE-ViT 針對「實例只用單一全局向量」這一結構性瓶頸,引入統一的 Region Cluster Discrimination 機制:在 4.5 億圖像與 24 億候選區域上訓練,利用區域聚類判別 + 區域感知注意力顯式建模局部實體 / 文本塊與上下文關系,并結合 2D 旋轉位置編碼(2D RoPE)實現多分辨率原生支持。

與 SigLIP2 依賴多套專用損失(SILC、TIPS、LocCa 等)不同,我們用單一聚類判別范式同時強化通用語義、OCR 識別與定位能力,訓練與推理鏈路更簡潔、可維護性更高。在多模態融合階段,通過輕量投影與后續全參數聯合訓練,將這一細粒度語義底座無縫接入語言模型,減少冗余適配模塊并提升跨任務遷移效率。



2. 三階段學習流程

  • Stage-1:語言–圖像對齊

使用 LLaVA-1.5 558K 數據集訓練視覺投影層,將視覺編碼輸出映射到語言模型詞嵌入空間。此階段控制參數更新范圍以快速穩定收斂。

  • Stage-1.5:高質量知識中期預訓練

在概念均衡的 85M 預訓練數據上進行全參數訓練,注入廣域視覺語義與世界知識,強調數據質量與覆蓋而非盲目擴張 token 規模。

  • Stage-2:視覺指令對齊

基于 22M 指令數據與 FineVision 等多源視覺指令語料繼續全參數訓練,提升任務泛化、推理組織與響應格式控制能力。

3. 離線并行數據打包

為降低多模態樣本長度差異帶來的 padding 浪費、提升有效 token 利用率,我們采用離線并行數據打包:先按樣本長度或長度區間進行哈希桶聚類,減少全局排序與掃描成本;再在數據準備階段以多線程將多條短樣本拼接為接近目標長度的定長序列。該流程一次性處理全量語料,具備確定性與可復現性,避免在線動態打包引入的運行時不穩定與額外 CPU 開銷。

在 85M 規模的預訓練樣本上,相比原始方案可實現最高約 11× 的 padding 有效壓縮(定義:原始方案總 padding token / 打包后總 padding token)。

4. 混合并行與長上下文高效訓練,訓練端采用混合并行與長上下文優化

張量并行(TP)+ 流水并行(PP)+ 序列 / 上下文并行(Sequence/Context Parallel)與分布式優化器協同,以在大規模集群中同時提升算力利用與顯存效率;同時采用原生分辨率策略,保留圖表、文檔與密集文本區域的結構細節,避免統一縮放帶來的信息損失。

在 128×A800 集群上,8B 規模模型的 Stage?1.5(85M 樣本、原生分辨率)約 3.7 天完成,兼顧吞吐與成本。

結論

LLaVA-OneVision-1.5 證明:依托概念均衡的 85M 預訓練數據與高質量指令數據,結合 RICE?ViT 細粒度視覺底座和緊湊的三階段策略(對齊–高質量知識注入–指令泛化),再配合離線并行打包(最高約 11× padding 減少)與混合并行 / 原生分辨率等工程優化,8B 規模即可在更低 token 與算力成本下,對標乃至部分超越主流開源與部分閉源多模態模型,體現「高質量結構化數據 + 系統效率協同」相較單純堆量的優勢。

這是一次非常簡單的復現工作:我們完整開放數據、工具鏈、腳本、配置、日志與評測配方,復現路徑清晰、依賴明確,無需復雜調參即可跑通。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
以色列專打伊朗“鎮壓機器”,為巴列維王儲勢力鋪路

以色列專打伊朗“鎮壓機器”,為巴列維王儲勢力鋪路

老馬拉車莫少裝
2026-03-01 21:19:35
裁判漏吹詹姆斯被打手犯規,雷迪克:又一個根據比賽結果隨意更改解釋的夜晚

裁判漏吹詹姆斯被打手犯規,雷迪克:又一個根據比賽結果隨意更改解釋的夜晚

懂球帝
2026-03-22 10:19:09
月入兩萬上交一萬八,竟被罵巨嬰?妻子憑實力把金飯碗砸了個稀碎

月入兩萬上交一萬八,竟被罵巨嬰?妻子憑實力把金飯碗砸了個稀碎

調侃國際觀點
2026-03-19 12:10:18
臨戰一刻!伊朗導彈兵全身防護服加注劇毒燃料,戰斗氣氛太窒息

臨戰一刻!伊朗導彈兵全身防護服加注劇毒燃料,戰斗氣氛太窒息

科羅廖夫
2026-03-20 10:47:58
大嫂去鎮里蓋章被卡3天,我把鎮長叫來:今天不蓋,就別當鎮長了

大嫂去鎮里蓋章被卡3天,我把鎮長叫來:今天不蓋,就別當鎮長了

千秋文化
2026-03-19 21:20:39
65歲阿姨肺癌離世,常年吃清蒸魚、燉湯,醫生:禍根在2個細節里

65歲阿姨肺癌離世,常年吃清蒸魚、燉湯,醫生:禍根在2個細節里

鬼菜生活
2026-03-22 12:39:41
vivo手機調價匯總:共涉及9款已售機型,漲幅最高700元

vivo手機調價匯總:共涉及9款已售機型,漲幅最高700元

小蜜情感說
2026-03-22 13:40:31
NCAA新助攻王誕生!普渡控衛破30年神跡,本人反應太淡定

NCAA新助攻王誕生!普渡控衛破30年神跡,本人反應太淡定

仰臥撐FTUer
2026-03-22 08:41:01
特朗普將副總統“政治流放”,萬斯此刻的處境堪稱屈辱

特朗普將副總統“政治流放”,萬斯此刻的處境堪稱屈辱

生活魔術專家
2026-03-21 15:48:21
惡劣!海牛數萬名球迷看臺齊罵王鈺棟 后者面對面慶祝:閉嘴 爽

惡劣!海牛數萬名球迷看臺齊罵王鈺棟 后者面對面慶祝:閉嘴 爽

風過鄉
2026-03-22 08:33:07
老兵說最好用!賣給中國的次品機槍,成了志愿軍最順手的機槍?

老兵說最好用!賣給中國的次品機槍,成了志愿軍最順手的機槍?

趣生活
2026-03-21 22:12:21
區別對待?同是研發核武,美敢炸伊朗,為何動朝鮮一下的勇氣都沒

區別對待?同是研發核武,美敢炸伊朗,為何動朝鮮一下的勇氣都沒

博卜talk
2026-03-22 13:40:03
75歲姜昆近況:頻繁飛美國與女兒團聚,46歲未婚的姜珊讓他操碎心

75歲姜昆近況:頻繁飛美國與女兒團聚,46歲未婚的姜珊讓他操碎心

以茶帶書
2026-03-16 17:06:28
不罵美國只罵伊朗,12個穆斯林國家翻臉,巴基斯坦攜核威懾站隊!

不罵美國只罵伊朗,12個穆斯林國家翻臉,巴基斯坦攜核威懾站隊!

漫步獨行俠
2026-03-21 11:07:09
手握20萬,買吉利星越L還是本田CR-V?修車師傅:10萬公里差距大

手握20萬,買吉利星越L還是本田CR-V?修車師傅:10萬公里差距大

生活魔術專家
2026-03-22 13:35:40
人生十悟,句句經典!

人生十悟,句句經典!

大禹小城
2026-03-14 09:11:00
8000萬別墅住10口人,種菜養雞不炫富,自稱頂級豪門你信嗎

8000萬別墅住10口人,種菜養雞不炫富,自稱頂級豪門你信嗎

白色得季節
2026-03-22 05:26:18
“科大男生9秒視頻”火了,生猛操作令人嘆為觀止:不愧是高才生

“科大男生9秒視頻”火了,生猛操作令人嘆為觀止:不愧是高才生

妍妍教育日記
2026-03-20 21:33:36
為什么石油是用“桶”而不是“噸”來計算?一桶油到底有多重?

為什么石油是用“桶”而不是“噸”來計算?一桶油到底有多重?

長風文史
2026-03-15 15:49:09
4S店賣一輛虧一輛?杭州經銷商:一輛官方指導價12.59萬元的車,成交價已擊穿8.4萬元

4S店賣一輛虧一輛?杭州經銷商:一輛官方指導價12.59萬元的車,成交價已擊穿8.4萬元

都市快報橙柿互動
2026-03-20 19:36:04
2026-03-22 14:56:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12555文章數 142590關注度
往期回顧 全部

科技要聞

OpenAI開啟“人海戰術” 沖刺8000人規模

頭條要聞

男子花2萬多買"Made in USA"床墊 睡著睡著感覺不對勁

頭條要聞

男子花2萬多買"Made in USA"床墊 睡著睡著感覺不對勁

體育要聞

鄭欽文連續迎戰大滿貫冠軍 “雙教練”團隊正式亮相

娛樂要聞

今晚首播!央視年代劇《冬去春來》來了

財經要聞

睡夢中欠債1.2萬?這只“蝦”殺瘋了

汽車要聞

14.28萬元起 吉利銀河星耀8遠航家開啟預售

態度原創

游戲
旅游
數碼
本地
公開課

《數碼寶貝》新作大型DLC官宣!預計2027年發布

旅游要聞

藏在鄭東新區的詩與遠方,本地人私藏不撞款

數碼要聞

又一筆記本廠商Ninkear陷入CPU虛標爭議,官方承諾調查

本地新聞

春色滿城關不住|紹興春日頂流,這片櫻花海藏不住了

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版