337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

小米首代機器人VLA模型開源,雷軍把門檻打下來了,消費級顯卡可跑

0
分享至


機器人前瞻(公眾號:robot_pro)
作者 李水青
編輯 漠影

機器人前瞻2月12日報道,今天,小米開源其首代機器人VLA(視覺-語言-動作)大模型——Xiaomi-Robotics-0。

該模型擁有4.7B參數,采用MoT混合架構實現“大腦小腦”協同,在LIBERO、SimplerEnv、CALVIN三大主流仿真基準測試中,包攬所有細分項SOTA(行業最佳)。

在真機評估中,Xiaomi-Robotics-0在疊毛巾、拆樂高等任務中動作連貫、反應靈敏。并且,該模型能在消費級顯卡上實現實時推理。


▲將毛巾攤平-疊好

為了訓練模型Xiaomi-Robotics-0,小米利用了一個龐大的數據集,包含2億級機器人軌跡數據與超過8000萬個通用視覺-語言數據樣本,其中包括338小時樂高拆卸、400小時毛巾折疊的數據。

目前,小米已開源了Xiaomi-Robotics-0的模型權重和完整代碼,包括技術報告也可以在下面地址中查看。

技術主頁:
https://xiaomi-robotics-0.github.io
開源代碼:
https://github.com/XiaomiRobotics/Xiaomi-Robotics-0
模型權重:
https://huggingface.co/XiaomiRobotics

一、拿下三大主流仿真測試SOTA,拆樂高、疊毛巾都勝任

Xiaomi-Robotics-0在三項仿真基準測試的所有Benchmark、30種模型對比中,均取得了SOTA性能。

具體而言,它在LIBERO上的平均成功率達到98.7%。在SimplerEnv上,其在視覺匹配(85.5%)、視覺聚合(74.7%)和WidowX(79.2%)方面均表現出色。在CALVIN上,它在ABC-D和ABCD-D分割上的平均長度分別達到4.75和4.80。

在VLM基準測試中,其預訓練模型與基礎預訓練VLM的性能相當。Xiaomi-Robotics-0保留了VLM本身的多模態理解能力,尤其是在具身更相關的Benchmark中表現較好,這是之前的很多VLA模型所不具備的。


▲該模型在VLA、VLM的Benchmark以及真實機器人的效果指標

在真實機器人評估中,Xiaomi-Robotics-0在兩項具有挑戰性的雙手機器人操作任務——樂高拆卸和毛巾折疊中,實現了高成功率和強大的吞吐量,手眼協調表現較好。

以下是部分真機運行片段:


▲將大塊積木逐步拆成小塊


▲主動將多余毛巾放回以進行疊放

二、采用MoT混合架構,大小腦聯動實現精準手眼協同

為了兼顧通用理解與精細控制,Xiaomi-Robotics-0采用了主流的MoT (Mixture-of-Transformers)架構

該架構包括一個視覺語言大腦(VLM)和一個動作執行小腦(Action Expert)。

視覺語言大腦:團隊采用了多模態VLM大模型作為底座,它負責理解人類的模糊指令,如“請把毛巾疊好”,并從高清視覺輸入中捕捉空間關系。

動作執行小腦:為了生成高頻、平滑的動作,團隊嵌入了多層的 Diffusion Transformer (DiT)。它不直接輸出單一動作,而是生成一個“動作塊”(Action Chunk),并通過流匹配(Flow-matching)技術確保動作的精準度。


▲模型架構及訓練方法

這種“大腦+小腦”的組合,讓模型既能聽懂指令,又能像人類一樣,在動作執行時保持極高的物理靈活性。


▲主動靈活調整自身動作

三、基于2億級數據訓練,分兩階段進化

如何讓模型既不丟失常識,又精通“體力活”?

團隊的訓練利用了一個龐大的數據集,其中包含約2億個機器人軌跡時間步長,和超過8000萬個通用視覺-語言數據樣本。機器人數據來源于開源數據集和通過遠程操作收集的內部數據,包括338小時的樂高拆卸數據、400小時的毛巾折疊數據。

與此同時,團隊還設計了一套訓練配方,包括跨模態預訓練和后訓練兩個階段。

1、跨模態預訓練:提高模型動作分布預測能力

大部分VLA模型在學動作時往往會“變笨”,失去本身的理解能力。團隊通過多模態與動作數據的混合訓練,讓模型在學會操作的同時,依然保持較強的物體檢測、視覺問答和邏輯推理能力。

VLM協同訓練:團隊首先引入了Action Proposal機制,強迫VLM模型在理解圖像的同時預測多種動作分布。這一步是為了讓VLM的特征空間與動作空間對齊,不再僅僅是“紙上談兵”。

DiT專項訓練:隨后,團隊凍結VLM,專注于訓練DiT, 學習如何從噪聲中恢復出精準的動作序列。這一階段,團隊去除了VLM的離散Token,完全依賴KV特征進行條件生成。通過DiT專項訓練,模型可以生成高度平滑、精準的的動作序列。


▲多模態數據與跨本體機器人數據的分布

2、后訓練:保障動作連貫流暢

這是解鎖物理智能的核心路徑。針對推理延遲引發的真機“動作斷層”問題,團隊采用異步推理模式——讓模型推理與機器人運行脫離同步約束、異步執行,從機制上保障動作連貫流暢。


▲異步推理示意圖,模型推理延遲不影響真機連續性運行

為進一步強化模型對環境變化的響應敏捷性與運行穩定性,團隊引入了:

Clean Action Prefix:將前一時刻預測的動作作為輸入,確保動作軌跡在時間維度上是連續的、不抖動的,進一步增加流暢性。

Λ-shape Attention Mask:通過特殊的注意力掩碼,強制模型更關注當前的視覺反饋,而不是沉溺于歷史慣性。這讓機器人在面對環境突發變化時,能夠展現出極強的反應性物理智能。


▲團隊采用特殊的注意力掩碼機制,有效緩解動作慣性

結語:VLA模型加速走向消費級部署

小米此次開源的Xiaomi-Robotics-0采用大小腦分工的MoT混合架構,既保留了VLM的多模態知識儲備,又解決了傳統VLA模型“學動作、忘視覺”的災難性遺忘問題。

值得關注的是,該模型能在消費級顯卡上實現實時推理,具身智能模型的部署門檻正下沉到普通開發者桌面,機器人軟件棧的平民化正在加速到來。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
浙江東陽,33 歲的男子,在母親長眠的公墓旁,在車里結束了生命

浙江東陽,33 歲的男子,在母親長眠的公墓旁,在車里結束了生命

老貓觀點
2026-04-02 13:02:45
山西一小吃店3人死亡,知情人:店鋪剛接手沒幾天,店主夫婦和小姨子凌晨加工“碗禿”時遇難,原計劃天亮后開展免費試吃活動慶祝新店開張

山西一小吃店3人死亡,知情人:店鋪剛接手沒幾天,店主夫婦和小姨子凌晨加工“碗禿”時遇難,原計劃天亮后開展免費試吃活動慶祝新店開張

揚子晚報
2026-04-03 07:31:50
900頁心血變廢紙!巴喬當年怒炒意大利足協 注定了意大利足球落寞

900頁心血變廢紙!巴喬當年怒炒意大利足協 注定了意大利足球落寞

仰臥撐FTUer
2026-04-03 05:30:14
退休人員也要繳費了!4月起執行,每月扣多少、誰能免,一次說清

退休人員也要繳費了!4月起執行,每月扣多少、誰能免,一次說清

閱微札記
2026-04-02 22:22:41
中國“房爺”涉嫌用非法資金在英國購7億房產,疑似身份曝光!

中國“房爺”涉嫌用非法資金在英國購7億房產,疑似身份曝光!

兵叔評說
2026-04-02 17:55:25
薅羊毛失敗!50萬婚紗費砸手里了,70名女子“嫁給自己”荒唐收場

薅羊毛失敗!50萬婚紗費砸手里了,70名女子“嫁給自己”荒唐收場

火山詩話
2026-04-02 06:26:48
蔣正全、拉齊尼、欒留偉、胡友平、李靜毅等,最后畫面公開

蔣正全、拉齊尼、欒留偉、胡友平、李靜毅等,最后畫面公開

環球網資訊
2026-04-02 15:05:50
美軍傷亡最新數據曝光!美防長:陸軍參謀長立即辭職

美軍傷亡最新數據曝光!美防長:陸軍參謀長立即辭職

大國之翼
2026-04-03 06:38:48
戰事未了美先言勝遭市場“打臉” 伊朗再發地面戰警告:絕不留活口

戰事未了美先言勝遭市場“打臉” 伊朗再發地面戰警告:絕不留活口

環球網資訊
2026-04-03 08:10:11
650公里高速實測:電車油車差距太殘酷,真實感受句句不騙人

650公里高速實測:電車油車差距太殘酷,真實感受句句不騙人

復轉這些年
2026-04-01 09:06:39
伊朗稱擊中敵軍先進戰機

伊朗稱擊中敵軍先進戰機

財聯社
2026-04-03 03:56:29
勒布朗·詹姆斯:如果灰熊隊贏得2003年選秀狀元簽,他會選擇罷賽

勒布朗·詹姆斯:如果灰熊隊贏得2003年選秀狀元簽,他會選擇罷賽

好火子
2026-04-03 03:24:53
美軍對伊地面行動五大方案曝光 專家:最可能雙線并進

美軍對伊地面行動五大方案曝光 專家:最可能雙線并進

瑯琊閣梅莊主
2026-04-02 18:28:34
為啥中國人糖尿病世界第一?

為啥中國人糖尿病世界第一?

瑪麗姬絲
2026-04-02 19:59:11
留給美國時間不多了,伊朗戰爭打完后,世界就只剩一個超級大國了

留給美國時間不多了,伊朗戰爭打完后,世界就只剩一個超級大國了

觸摸史跡
2026-04-02 14:39:03
他賣了40%的“澳洲優思益”,共計10萬單,憑什么央視要對他追責?別呀,他還只是個孩子。

他賣了40%的“澳洲優思益”,共計10萬單,憑什么央視要對他追責?別呀,他還只是個孩子。

問道求真
2026-04-02 08:03:53
上海中山醫院心內科爆棚?回應:服務患者普通號常年不限號,近期換季再迎高峰

上海中山醫院心內科爆棚?回應:服務患者普通號常年不限號,近期換季再迎高峰

上觀新聞
2026-04-02 20:49:03
張雨綺直播帶貨情緒失控,怒懟拖延付款消費者:好說不聽,歹說不聽,都給你試用七天了

張雨綺直播帶貨情緒失控,怒懟拖延付款消費者:好說不聽,歹說不聽,都給你試用七天了

洪觀新聞
2026-04-02 09:58:46
打響抵制美食博主第一槍!成都一火鍋店張貼告示,表示一律不接待

打響抵制美食博主第一槍!成都一火鍋店張貼告示,表示一律不接待

火山詩話
2026-04-03 07:16:51
俄軍高級將領墜機身亡,6名總部軍官同時遇難

俄軍高級將領墜機身亡,6名總部軍官同時遇難

桂系007
2026-04-02 23:42:01
2026-04-03 09:27:00
機器人前瞻
機器人前瞻
專注于機器人報道的媒體
451文章數 10關注度
往期回顧 全部

科技要聞

戰火燒向科技公司!亞馬遜中東云計算中心遭襲

頭條要聞

被中國外交部揭底的日本極右翼分子身份披露

頭條要聞

被中國外交部揭底的日本極右翼分子身份披露

體育要聞

邵佳一的改革,從讓每個人踢舒服開始

娛樂要聞

《浪姐》人氣榜出爐!曾沛慈斷層第一

財經要聞

全球石油危機或將蔓延

汽車要聞

軸距2米7/后排能蹺腿 試駕后驅小車QQ3 EV

態度原創

時尚
手機
親子
數碼
公開課

為什么“這個顏色”成為今年頂流?這樣穿好看又治愈

手機要聞

價格壓不住了!驍龍8E6成本大漲:迭代旗艦起步價超5000元

親子要聞

洗頭的舒適區,讓爸爸想出更多帶娃創意

數碼要聞

華為Mate X8折疊屏:8.15英寸巨幕+麒麟9040,最強折疊屏要來了

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版