337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

具身智能中的 VLA 技術及其應用

0
分享至


演講嘉賓|隋偉 博士

編輯|Kitty

策劃|QCon 全球軟件開發大會

傳統的具身智能操作方法將視覺感知、語言理解和動作規劃分割為獨立模塊,導致系統復雜、誤差易累積且泛化能力不足。視覺語言動作模型(VLA)則實現了從多模態感知到動作生成的端到端學習,構建了 “所見即所動” 的智能決策閉環,極大地推動了具身智能發展。

然而視覺語言動作模型本身也存在諸多挑戰,例如訓練數據難以獲取、模型結構缺少長時序和物理邏輯推理的能力。這意味著 VLA 雖然能實現一些操作功能但是對不同場景、不同任務的泛化性仍然存在挑戰,無法滿足實際的需求。

本文整理自地瓜機器人算法副總裁隋偉 博士在 2025 年 QCon 全球軟件開發大會(上海站) 的分享“具身智能中的 VLA 技術及其應用”,內含涵蓋 VLA 技術的基本原理和機制,以及在落地過程中涉及到的數據、評測等問題, 從而提升 VLA 的性能和易用性等等。

預告:將于 4 月 16 - 18 召開的 QCon 北京站設計了「具身智能與物理世界交互」專題,聚焦 VLA/VA 模型與數據體系兩大核心,深度拆解具身智能技術鏈路。擬探討模型現狀、核心挑戰與機會,分享高質量數據解決方案,解析仿真與 World Model 的賦能價值,破解核心技術瓶頸。敬請關注。

以下是演講實錄(經 InfoQ 進行不改變原意的編輯整理)。

我先簡單介紹一下地瓜機器人,是一家專門聚焦機器人領域的公司。我們提供一整套機器人解決方案,包括底層芯片、操作系統、開發環境、數據算法以及云平臺等。我們的目標是讓機器人的開發變得更加簡單,讓每個人都能上手開發機器人算法。


我今天分享的主題是 VLA(視覺 - 語言 - 動作模型)。我會圍繞 VLA 開發過程中遇到的各種問題,介紹目前的現狀與挑戰,涵蓋從數據到模型、再到最終部署及應用中遇到的困難。

具身智能中 VLA 的現狀和挑戰

首先看 VLA 的現狀與挑戰。具身智能在這兩年非常火熱,被認為是繼智能駕駛之后的另一個爆發點。其背景是底層 AI 模型的快速發展,尤其是像 VLM(視覺語言模型)這種離身智能大模型,已經具備了很好的通用性和泛化性。目前在聊天類應用、文生圖以及 VLM 問答方面,技術已經做得非常成熟。下一步,技術必然會向具身智能演進,即讓機器人的動作也具備這種通用能力。而且,具身智能的前景和市場容量遠比智能駕駛要大。智能駕駛目前的普及率大約在 60% 到 70%,而具身智能未來會存在于各種場景中。


從功能、底層模型、數據和硬件本體四個維度來看,目前具身智能的現狀如下:在功能成熟度方面,我們將本體任務分為上肢操作(Manipulation)、下肢移動(Locomotion)和對話。目前對話功能已經非常成熟,許多陪玩類機器人已經落地。在移動能力方面,我們能看到很多機器人跳舞或進行搏擊比賽,但目前大多屬于“盲眼運動”,雖然有一定的情緒價值,但缺乏與現實的感知交互。比如機器人在跳舞時,如果前面有障礙物,由于沒有通過傳感器感知世界,它依然會撞上去。

至于上肢操作,這是我們今天要講的重點,也是與 VLA 關系最密切的方向,目前它是最具挑戰性、最不成熟的。其底層模型正經歷從 G1 到 G5 的發展階段,現在大約處于 G2 到 G3 之間,即從傳統的工業自動化向端到端學習過渡的過程。雖然 VLA 正在從分層式架構向端到端架構發展,但挑戰巨大,核心在于數據。現有數據無法支撐 VLA 發揮出應有的性能,而數據采集目前也沒有完美的解決方案。遙操作采集的數據真實,但效率極慢;仿真雖然能快速獲取數據,但有效率較低。此外,硬件本體目前也不夠穩定成熟,盡管成本在快速降低,但端側算力依然面臨挑戰。雖然現在到處都是問題,但 VLA 在發展過程中肯定會遇到各種坎坷。它應該是一個螺旋式或波段式前進的過程,而我們現在正處于第一個波峰。

我們來看看 VLA 到底是為了解決什么問題。因為我之前從事自動駕駛領域,而自動駕駛是 AI 第一個大規模落地的場景,所以我比較傾向于通過自動駕駛這十年的發展路徑和 AI 落地過程,來推演具身智能當前所處的階段。

自動駕駛領域的一個重要節點是“端到端”技術的出現。特斯拉率先發布了端到端算法,通過模仿學習來解決擬人化的問題。在此之前,自動駕駛主要依靠規則化方案來生成軌跡,涵蓋行駛方向、速度和加速度等。駕駛最關鍵的三個要素是安全性、舒適性和高效性。在端到端技術普及前,傳統規則化方法很難同時兼顧這三點。比如,為了保證安全而讓系統過于保守,效率就會降低;如果駕駛風格激進以提高效率,安全性和舒適性又會受到影響。端到端技術較好地解決了這個問題,因為它直接從專家數據中學習駕駛過程,讓體驗提升了一大截。


不過,端到端技術也遇到了泛化性和適應性的難題,核心還是數據問題。比如不同城市、不同風格的紅綠燈和標志牌,一旦系統沒見過相關數據,性能就會立即下降。既然現在的 VLM 已經具備了極強的通用性、泛化性和常識能力——例如你問它某個交通標志是什么意思、該怎么開,它能給出很好的語言描述——那我們就在想,能不能把這種能力引入到具身智能系統中,形成 VLA,讓系統具備思考能力。目前在自動駕駛領域,已經有一兩家頭部玩家最近跑通了 VLA。相比端到端模型,VLA 的模型規模要大出 10 倍左右,端到端模型通常在 0.1B(億級參數)量級,而 VLA 則在幾個 B(十億級參數)的量級,且訓練數據量龐大,通常需要幾十億個短視頻片段才能訓練出一個性能較好的版本。

回到具身智能,即便是一個簡單的動作,也存在技術方案的演進。第一種是模塊化方案,類似于早期自動駕駛的思路,即“先檢測再規劃”。在 2019 年到 2020 年期間,很多 Demo 都是這么做的:先簡單處理物體的姿態,再規劃機械臂的操作。但問題在于,很多任務是無法直接規劃的,尤其是自由度較高時。機械臂一般有 6 到 7 個自由度,人形機器人則有幾十個,這不像自動駕駛只需在二維平面規劃軌跡。

隨后出現了模仿學習,即直接通過端到端的方式學習一條軌跡。它的好處是能完成一些規劃不出來的復雜動作,并處理抓取柔性物體等任務。但它的局限性在于對數據的強依賴,于是便誕生了 VLA。VLA 的初衷是解決場景泛化、任務泛化和本體泛化這三個問題。我們希望利用 VLM“見多識廣”的能力,讓機器人也具備同樣的通用性。從落地角度看,場景和任務的泛化優先級最高,本體泛化可以排在最后,因為單款機器人如果能具備通用性,其價值就已經非常巨大了。

關于 VLA 的模型架構,其實邏輯非常直接。現在的模型輸入通常是多模態信息,一般包含圖像、文本和本體狀態。其中本體狀態主要指姿態信息和關節角度等。這些信息經過編碼器處理后,輸入到基于 Transformer 架構的 VLM(視覺語言模型)中進行多模態融合。VLM 輸出的 Token 包含了圖像、文本和本體的綜合信息,隨后進入動作策略(Action Policy)模塊。

在動作策略模塊中,目前主流的方法有兩種。一種是擴散策略(Diffusion Policy),這在文生圖等生成式模型中很常見。它通過生成式的方式來產生復雜的軌跡,相比之下,傳統的判別式方法在描述軌跡的能力上不如擴散策略,因此擴散策略在動作生成中占據了非常重要的位置。另一種方法是流匹配(Flow Matching),同樣屬于生成式,它與擴散策略的主要區別在于底層的數學建模不同。擴散策略的分布建模更復雜,而流匹配則是在生成過程中進行線性迭代。經過動作策略模塊的處理,最終會輸出機器人的關節動作,也就是 VLA 中的“A”。

同時,也有很多研究工作會讓模型輸出一些輔助信息。比如有些模型會輸出文本,這是借鑒了像 DeepSeek 等大語言模型的思路,旨在讓機器人具備“思考”能力。也就是說,在訓練模型時,不僅要讓它給出答案,還要讓它理解為什么是這個答案。這屬于思維鏈(CoT)或動作鏈(CoA)的范疇。另外,也有研究會讓模型輸出圖像信息,即利用當前的姿態、圖像和文本去預測下一時刻的圖像,這就是世界模型(World Model)。其基本原理是,如果模型能基于當前數據準確預測下一刻的狀態,就認為它學習到了物理規律。目前已經有一些工作將世界模型與 VLA 結合在一起進行訓練。


在具體的架構實現上,目前主要有兩種主流方案。一種是 VLM 直接輸出特征(Feature)并傳遞給后續模塊,這被稱為“一段式”的端到端架構。另一種是分層式架構,VLM 輸出的不是特征,而是語言形式的任務規劃。例如,當輸入指令是“收納桌子”時,VLM 會先將任務拆解為具體的指令,比如“把杯子移到中央”、“把水倒掉”、“把垃圾丟掉”等,再將這些步驟逐一輸出給下游模塊執行。


我們來看一下目前的 VLM(視覺語言模型)究竟能做哪些事情。VLM 的設計初衷,一是解決任務的泛化性,二是處理復雜的長程任務。最近我去杭州參加了機器人國際會議的一個比賽,現場有六種任務,我重點觀察了其中三種。第一種是疊衣服,這是典型的長程任務,要求機器人無論衣服如何擺放,都能將其折疊好;第二種是倒水;第三種是操作微波爐;第四種是收納。此外,在近期的世界機器人大會(WRC)和世界人工智能大會上,我也看到了一些現場演示。比如打麻將,它采用的是分層架構,使用了一個經過麻將數據訓練的 12B 規模的 VLM。機器人會通過語音告訴你該怎么出牌,再利用傳統方法檢測麻將位置并完成推牌或抓牌動作,體驗效果還不錯。還有做香囊,這是一個更長程的任務,需要把東西裝進去并勒緊繩子,這是由智元機器人完成的。目前市面上看到的這些炫酷動作,背后基本都是 VLA 在支撐,且大多基于 OpenVLA 等模型,這代表了目前能力的上限。

可以說,對于單一任務,如果我們提供大量數據,模型是具備長程執行、理解和復雜任務處理能力的。但它最大的問題在于泛化性極弱。我們設計 VLA,是希望利用 VLM 在互聯網上見過的海量數據,讓機器人具備通用性和遷移能力。理想情況下,即使面對沒見過的場景,模型也能憑借“常識”實現零樣本(Zero-shot)能力。但實際測試下來,這種能力還不具備,原因主要有幾點。

首先,VLM 中的“視覺 - 語言”數據與“動作”數據分布不一致。VLM 基座是通過互聯網上大量的圖文對訓練的,而動作數據(A)必須靠真機實采。目前實采的數據量非常小,通常只有幾百到幾千條,與圖文數據相比極其不均衡,導致 VLM 的知識無法有效遷移到動作上,模型處于嚴重的過擬合狀態。其次是硬件限制。我們看到的很多流暢動作其實是經過 5 倍或 10 倍速處理的,實際操作時會有明顯的抖動。受限于機械臂硬件本體,目前 VLA 還無法完成穿針引線這類精細化任務。

我們也做了一些泛化性驗證,比如最簡單的抓取和投放。實驗發現,當背景發生變化(如移走測試環境中的黑色窗簾)、物體位置放遠了一點,或者加入未訓練過的干擾物(如一瓶咖啡),機器人就會失敗。這說明目前的系統非常脆弱,原因就是數據量太少,多樣性嚴重不足。

我們可以對比一下自動駕駛所需的數據量。自動駕駛可以看作是單一任務的具身智能,只負責“駕駛”。即便如此,要訓練一個基本可用的模型,大約需要千萬量級的視頻片段,換算下來約為 10 萬小時的數據,且這些數據必須分布在不同的空間和天氣場景中。而目前具身智能領域,即便是一些領先的采集工廠,數據量也僅在百小時到千小時級別,還要應對無數種任務,這顯然遠遠不夠。

此外,自動駕駛的車輛是標準化的,動力學特性基本一致,數據容易復用且采集便利。但具身智能的硬件目前還沒收斂,手部既有夾爪也有靈巧手,自由度從 7 個、11 個到 21 個不等,導致數據無法復用,智能化進程緩慢。


經常有人問:現在的具身智能相當于自動駕駛的什么階段?是 2015 年還是 2012 年?我認為,從算法模型來看,具身智能完全可以對標 2025 年的自動駕駛,兩者都在往端到端或 VLA 方向走,沒有代差。但從硬件角度看,具身智能可能還不如 100 年前的汽車工業,因為那時候汽車已經實現流水線大規模生產,而現在的機器人還遠未達到那個水準。

VLA 的主流架構

剛才我們講到主流架構主要有兩種:一種是分層式的,另一種是完全端到端的。這兩者的核心區別在于 VLM(視覺語言模型)向下一層傳遞的是語言規劃指令,還是直接傳遞特征(feature)。

分層式架構在輸入傳感器數據后,會由兩個系統協同工作。所謂“慢系統”,就是我們常說的 VLM,它負責對數據進行推理。之所以稱之為“慢”,是因為模型體量巨大,為了讓它具備常識能力,必須經過海量數據訓練,在現有的硬件條件下,其推理速度相對較慢。而“快系統”則是前面提到的端側系統,它的模型較小,直接輸出動作或軌跡,因此運行速度很快。我認為這種“快慢系統”的劃分,本質上是受限于目前的硬件計算資源。如果未來端側算力足夠強大,其實就不需要這種區分了,所有環節都能實現實時響應。

在分層系統中,系統 2 負責思考并給出語言規劃,再傳達給快系統。比較典型的例子是 Figure 01 機器人展示的 Demo,它采用的就是分層式架構。由于需要部署在 Orin 等芯片上,為了克服無法實時處理的問題,必須構建快慢系統。去年在自動駕駛領域比較火的理想汽車,也率先推出了類似的快慢系統,其初衷同樣是解決端側部署時的算力限制。不過從工程角度來看,快慢系統會更復雜一些,因為模塊越多,工程量就越大。相比之下,完全端到端的架構就簡單得多,傳感器數據輸入后,中間全部交給 VLA 處理并直接輸出結果,沒有了快慢之分。

這兩種架構各有優劣。完全端到端的上限更高,但它對數據的需求量極其龐大。分層式架構目前的優勢在于對數據的依賴程度沒那么高。因為 VLM 可以通過少量的針對性訓練達到較好的語言規劃效果,開發者只需要專注于訓練后面的動作執行模塊,甚至可以沿用傳統的控制模塊。就像我之前提到的打麻將機器人,它的快系統其實就是用傳統方法實現的。在目前數據保有量有限的情況下,分層式是一個比較合理的選擇。此外,分層式也更契合現在的智能體(Agent)或 MCP(多模型控制平臺)架構,即由 VLM 充當“大腦”進行語言規劃,再由快系統中的各種動作原子負責具體執行。


這是我們最近在做的一些探索,主要集中在分層式架構上。之所以選擇這個方向,是因為我覺得目前純粹搞端到端方案其實已經遇到了瓶頸。在數據量不夠的情況下,大家做出來的東西很難體現出差異化,落地也非常困難。因此,我們的思路是先把 VLM(視覺語言模型)的能力利用起來,讓它作為一個調度大腦,也就是 Agent,去調用各種各樣的“動作原子”。


比如,駕駛可以被視為其中一個動作原子,當機器人需要執行駕駛任務時,Agent 就調用駕駛模塊;收納也是一個原子,它由許多“抓取與放置”(Pick and Place)動作組成。我們正在積累這些動作原子,當機器人面對復雜任務時,就由 VLM Agent 來進行任務分解和調度。這里面比較有挑戰性的地方在于任務之間的銜接,即如何準確判斷當前任務已經完成并開始下一個,以及當任務出錯時,Agent 該如何調整調度流程。

在開發動作原子時,我們走的是 VA(視覺 - 動作)路線。我們發現現階段語言在具體動作執行中起到的作用其實非常有限,直接通過 VA 實現反而更容易出效果。在方案設計上,我們選擇了純視覺方案,沒有使用 RGBD。這主要是從本質原理考慮的,我們認為視覺能力已經足夠強,人類也是靠雙眼來完成各種觀測任務的。后期的驗證也證明,純視覺方案在魯棒性和遷移性上確實比點云方案更好。


此外,我們在模型中增加了 3D 感知信息。目前的 VLM 其實并不具備很強的空間理解能力,如果你去測試它,它很難給出物體準確的方位、距離或復雜的幾何尺寸,因為它的訓練數據里缺乏這些信息。而這些 3D 信息對于動作的泛化性至關重要。如果能在一個統一的 3D 空間里進行動作規劃,泛化性會強很多。因此,我們在架構中增加了一個 3D 編碼器(Encoder)模塊。

這里用到了今年 CVPR 的最佳論文 VGGT,這是一個用于三維重建的視覺基礎模型。我們知道,大模型正在改寫各個研究領域,原先的導航規劃現在變成了 VLN(視覺語言導航),原先的操作規劃和控制現在變成了 VLA。VGGT 則是三維重建領域的代表,它基于 Transformer 架構,效果已經接近傳統的 COLMAP 等三維重建方法,潛力巨大。我們做的工作就是將 VGGT 預訓練的 3D 相關特征提取出來,接入到 VA 模型中。經過驗證,這種做法在魯棒性和效果上都超出了我們的預期。

這是我們目前使用的模型架構,其中 VGGT 的編碼器部分負責生成特征。這些特征同時包含了語義信息和幾何信息,我們將其直接輸入模型以獲取結果。


其實模型本身并不復雜,在 VLA 的落地開發中,大部分工作量并不在模型架構上。通常情況下,模型部分的搭建兩三周就能搞定,而真正耗費精力的是數據工作。對于具身智能而言,還涉及到機器人硬件適配、數據采集和實機測試,這部分工作量往往會占到總周期的三分之二甚至四分之三。

目前具身智能開發的第一步通常是在仿真環境中進行的。由于真實世界的有效數據非常稀缺,我們需要先在具有物理引擎的仿真器中采集數據,驗證模型的有效性。以“夾木塊”和“堆木塊”為例,這類任務在人類看來很簡單,但對機器人來說挑戰巨大,稍微有一點偏差就會導致失敗。我們將自己的方案與傳統算法進行了對比:DP 是基于 2D 圖像輸入的擴散策略算法,而 DP3 則是基于點云輸入的版本。在真機測試中,我們的方案成功率明顯更高,尤其在將木塊放入盤子的任務中,表現幾乎比 DP 翻了一倍。


在測試 VLA 的過程中,我們發現“泛化性”是一個核心痛點。目前的 VLA 方案,比如 OpenVLA,在光照發生變化時表現得很脆弱。例如環境光線由暗變亮,任務可能就會失敗。但如果我們在 VA 模型中引入 3D 幾何信息,系統就會表現出更好的魯棒性,而現有的主流方案在處理這類場景時依然容易失誤。

當我們通過 VA 實現了這些動作原子并建立起原子庫后,就可以利用 Agent 這種大腦角色進行任務編排,從而完成長程的復雜任務。這種做法的優勢在于能充分利用現有 VLM 的推理能力。目前 VLM 在任務規劃上已經非常成熟,比如你讓它規劃收納任務,或者給它一張路口的照片問它車輛該怎么開,它都能給出非常清晰的規劃指令,甚至會提醒你注意避讓前面的大卡車。現在的核心挑戰在于,如何將這些高質量的語言規劃準確地傳遞給 VA 模塊去執行動作。

只要能把這一步打通,整個任務鏈就能串聯起來。如右側表格所示,這是一個完整的閉環流程:我們需要識別任務是否已完成。例如通過增加標志位來檢測當前步驟的狀態,如果任務完成,就調用下一個原子動作;如果沒有完成,則返回重新執行。這種典型的類似 MCP 的架構,是目前完成復雜長程任務的有效路徑。

這是另外一些實驗效果的展示,包括積木在左手與右手之間的交接、一個盒子疊放到另一個盒子上,以及桌面的整理管理。在這些任務中,有些屬于復雜的長程任務,有些則是通過 VA(視覺 - 動作)模型直接實現的。目前來看,只要數據質量足夠高且訓練到位,機器人都能完成得比較好。此外,我們使用的機械臂采用了諧波減速器,精度較高,對于完成插拔這類精細任務來說是完全夠用的。


VLA 的數據方案

接下來談談數據方案,這是目前具身智能行業最大的痛點。很多從自動駕駛領域轉過來的同事會覺得,具身智能的數據基礎設施還處于非常原始的階段。目前行業內數據采集主要有兩種方案:第一種是遙操作,這其中又包含很多細分技術;第二種是仿真。關于到底是以仿真為主還是以真實數據為主,業內一直存在路線之爭。但在我們看來,真實數據是必不可少的,仿真數據如果做得好能起到很大作用,如果做得不好,可能只是錦上添花。

在遙操作方面,主要有幾種技術路徑。第一種是慣性動捕設備,通過讓采集人員穿上帶有 IMU 慣性傳感器的服裝,在運動時捕捉身體各關節的數據。這種方式的優點是沒有視覺遮擋問題,即使兩人擁抱也能采集到數據;缺點是慣性傳感器存在漂移,時間久了精度會下降。目前特斯拉采集 Optimus 工廠數據時,使用的就是這種慣性動捕設備。第二種是光學動捕設備,需要在空間內安裝多個攝像頭,采集者穿戴貼滿 Marker 點的服裝。它的精度非常高,能達到亞毫米級,但缺點是容易受遮擋影響,如果攝像頭沒捕捉到某些點,后期就需要大量人工修補。


還有一種常見的方式是外骨骼采集,即人帶著同構或異構的機械臂進行操作。這種方式采集的數據幾乎是 1:1 復刻,數據有效率很高,但采集效率相對較低。上述這些方式現在統稱為“以人為中心”的數據采集,其最大的挑戰在于人的關節結構與機器人并不一致,涉及到非常復雜的數據重定向(Retargeting)問題,有些人的動作不一定能直接遷移給機器人。最后是仿真數據,目前它主要用于大規模數據生產和自動化評測。當模型訓練完成后,如果想要進行快速迭代測試,在仿真環境中進行是最高效的選擇。

在仿真環境的建設中,首先需要考慮的是資產庫的規模。仿真器本身只負責物理仿真和渲染,而具體的場景——無論是工廠環境還是桌面環境,以及執行任務所需的各類物體,都需要豐富的資產支撐。這些資產的儲備是目前具身智能開發中的關鍵卡點。其次,物理仿真的質量也至關重要。機器人與自動駕駛不同,自動駕駛的目標是避免碰撞和接觸,而機器人執行任務時,時時刻刻都需要與物體發生物理交互。


目前,像 MuJoCo 或 Isaac Gym 等成熟的仿真器在物理仿真方面表現較好。具身智能對傳感器的仿真模型支持要求極高,目前主流的仿真平臺包括我們與高校合作開發的成果,比如與上海交通大學合作的 RobotStudio,以及與清華大學合作的 DICOVERSE。此外,業界還有像 RoboVerse 等面向具身智能的仿真框架。以 DICOVERSE 為例,它的主要特點是具備“實對虛(Real-to-Sim)”再到“虛對實(Sim-to-Real)”的功能,通過 3D 高斯潑濺(3DGS)技術完成環境重建后再進行渲染,從而獲得極高的真實感,便于數據生成和模型測試。


除了傳統的數字孿生技術,我們最近還在嘗試一種新的方案。業界常說的數字孿生追求的是對真實環境 1:1 的復刻,而我們提出了一個概念叫“數據表親”。其核心邏輯是,在很多訓練場景下,我們并不一定需要完全一致的 1:1 復刻,只要仿真環境中能出現類似的物體,就能達到訓練效果。

目前,我們正針對桌面這類固定場景進行開發,通過輸入一張圖像或一段文字描述,利用生成式 AI 技術產生 3D 資產并構建出三維場景。更重要的是,這些生成的場景都具備物理仿真屬性。正如我前面提到的,仿真器中數據資產的豐富程度決定了上限,而這種生成式的方法正是為了解決資產稀缺的問題。


這里舉了一些具體的例子。左邊是輸入的原始圖像,右邊是生成的 3D 場景。可以看到,雖然兩者并非完全一致,但物體基本上都實現了一一對應,這完全是通過大模型的方式生成的。在過去,如果我們要做這類物體重建,必須使用高精度激光掃描來生成 Mesh,那種方式效率很低,且復雜物體的 Mesh 重建難度極大。現在得益于底層 3D 生成式大模型的發展,我們可以比較容易地生成這些高精度、高逼真度的 3D 模型。


VLA 模型的量化部署

關于模型量化與部署,這是工程實踐中非常關鍵的一環。在 GPU 上訓練模型時,為了保證精度,通常使用 Float 32 或 FP16 等數據類型。但在推理階段,這些類型的存儲代價太高。舉個簡單例子,一個 1B(十億參數)的模型,如果量化為 4 比特或 8 比特,模型大小約為 1GB 左右;若使用 Float 32,則需要 4GB。這會極大影響端側的運行效率。因此,目前在端上運行時,都需要將模型量化并遷移到 ASIC(專用集成電路)上。目前主流的 VLM 量化方式通常是量化到 4 比特,且性能損失較小。通常芯片供應商會提供成熟的工具鏈來完成這種轉換。在 VLA 中,量化的主要挑戰在于擴散策略(Diffusion Policy)部分,因為它需要極高精度的姿態信息。在實際部署時,往往需要采用異構部署方案,根據任務特性將不同模塊分配到 AI 加速器、CPU 或 DSP 上運行。


部署流程本質上是一個數據映射的過程,即將浮點數類型映射到 INT8 或 INT4 上。這個過程需要使用部分數據進行模型校準,觀察映射后是否存在精度大幅下降(掉點)的情況。這些都是工具鏈提供的標準化處理流程。如果量化后性能無法滿足要求,就必須回頭重新修改模型結構。

總結與展望

總結來看,我們介紹了從數據采集、模型設計、訓練到最終部署的完整開發過程。目前的現狀是,整個 VLA 領域仍處于非常早期的階段。首先是缺少高質量的數據,且機器人本體目前極不標準;其次模型結構尚不成熟,直接將 VLM 映射到 Action 這種“頭重腳輕”的形式,難以建立起穩固的連接;最后是硬件本體的局限,目前市面上的機器人硬件還不足以支持完成各種復雜任務。一個驗證標準是:即使在有人類遙操作的情況下,很多任務都不一定能順利完成。

展望未來,有兩個重要的探索方向。模型層面,大家正在嘗試引入觸覺信息、強化學習等技術。因為動作軌跡的訓練不能僅靠簡單的回歸損失函數來完成,強化學習可以通過稀疏獎勵(比如只告訴模型結果的好壞)來訓練模型。此外,世界模型(World Model)也處于預研階段,重點在于 3D 空間表達、記憶信息和思維鏈,我們認為這是改造 VLA 最關鍵的點。

我認為 VLA 要實現量產,除了端側模型本身,更多的精力應該放在構建數據閉環上。現在的具身智能其實很像 Robotaxi。Robotaxi 在行駛中不能有人干預,但遇到困難時需要云端接管,隨著技術進步,接管次數會逐漸降低,智能化隨之提高。機器人也是如此,如果工作時旁邊必須有人,其商業模式就無法成立。因此,我們可以借鑒 Robotaxi 的路線:先通過人工遙操作讓機器人進入實際場景工作,在這一過程中收集大量數據,隨著自動化程度的提升逐漸減少遙操作頻率,最終實現真正的自主化。

演講嘉賓介紹

隋偉博士,現任地瓜機器人算法副總裁。

2011 年,他于北京航空航天大學探測制導與控制技術專業畢業,之后進入中科院自動化研究所深造,并取得博士學位,其研究方向為模式識別與智能系統。

2016 年 7 月博士畢業后,擔任模式識別國家重點實驗室助理研究員,負責 3D 視覺感知方向的研發工作。

2019 年 1 月隋偉博士加入地平線,任高級算法工程師,主要負責機器人和自動駕駛場景下,基于旭日和征程系列芯片的 2.5D 及 3D 視覺算法研發。2020 年 12 月 - 2023 年 12 月,任研發總監,帶領團隊(30 人)成功開發了地平線高階自動駕駛 BEV 感知方案,并且搭建了國內首套最為完備且先進的 4D Label 標注系統。目前旭日系列芯片出貨量已達數百萬片,BEV 感知方案也已在多個車型上定點量產,為自動駕駛領域的發展做出了重要貢獻。隋偉博士在 ICRA、IROS、CVPR、TIP、TVCG 等國內外知名期刊和會議上先后發表學術論文 20 余篇,擁有專利 40 多項。此外,他長期擔任 ICRA、IROS 等機器人會議的審稿人,同時擔任《智能駕駛和機器視覺》《智能駕駛與多維重建》等自動駕駛相關著作的主編。

2023 年 11 月至今任地瓜機器人算法 VP ,負責面向消費機器人和具身智能的軟件算法方案研發。

會議推薦

OpenClaw 出圈,“養蝦”潮狂熱,開年 Agentic AI 這把火燒得不可謂不旺。在這一熱潮下,自托管 Agent 形態迅速普及:多入口對話、持久記憶、Skills 工具鏈帶來強大生產力。但這背后也暴露了工程化落地的真實難題——權限邊界與隔離運行、Skills 供應鏈安全、可觀測與可追溯、記憶分層與跨場景污染、以及如何把 Agent 納入團隊研發 / 運維流程并形成穩定收益。

針對這一系列挑戰,在 4 月 16-18 日即將舉辦的 QCon 北京站上,我們特別策劃了「OpenClaw 生態實踐」專題,將聚焦一線實踐與踩坑復盤,分享企業如何構建私有 Skills、制定安全護欄、搭建審計與回放機制、建立質量 / 效率指標體系,最終把自托管 Agent 從可用的 Demo 升級為可靠的生產系統。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中國肺癌發病率世界第一!提醒:罪魁禍首已揪出,7種食物要少吃

中國肺癌發病率世界第一!提醒:罪魁禍首已揪出,7種食物要少吃

健康之光
2026-03-23 20:10:05
炸鍋!名宿開罵:英格蘭 4 大廢物不配入選,巨星落選有貓膩

炸鍋!名宿開罵:英格蘭 4 大廢物不配入選,巨星落選有貓膩

奶蓋熊本熊
2026-03-27 05:35:00
曼聯遇1700萬難題!維拉若進歐冠欲簽拉什福德,球員卻只想留巴薩

曼聯遇1700萬難題!維拉若進歐冠欲簽拉什福德,球員卻只想留巴薩

羅米的曼聯博客
2026-03-27 10:30:17
杰曼絕殺引賽后爭議,許利民話里有話杜鋒一針見血

杰曼絕殺引賽后爭議,許利民話里有話杜鋒一針見血

陳秣愛釣魚
2026-03-28 02:10:13
上海郊區的這個小鎮 住了15000名老外!

上海郊區的這個小鎮 住了15000名老外!

看看新聞Knews
2026-03-27 23:27:03
原來他們是兩口子,相差6歲同為央視主持,低調結婚22年兒女雙全

原來他們是兩口子,相差6歲同為央視主持,低調結婚22年兒女雙全

以茶帶書
2026-03-27 15:12:15
為什么說網游沒有未來,單機游戲才是最終的正確方向

為什么說網游沒有未來,單機游戲才是最終的正確方向

大咕咕玩游戲
2026-03-26 20:20:03
有網友在大冰直播間看到彈幕稱張雪峰因心臟驟停離世,大冰隨即回應:我下午就已得知此事,心情十分沉重

有網友在大冰直播間看到彈幕稱張雪峰因心臟驟停離世,大冰隨即回應:我下午就已得知此事,心情十分沉重

畫夕
2026-03-26 01:20:12
我老公是伊拉克人,他定居上海12年,主動讓孩子入中國籍,不回國

我老公是伊拉克人,他定居上海12年,主動讓孩子入中國籍,不回國

水泥土的搞笑
2026-03-27 12:45:29
張雪峰追悼會內幕曝光,前女友發聲,3大爭議出現,女兒讓人擔心

張雪峰追悼會內幕曝光,前女友發聲,3大爭議出現,女兒讓人擔心

北緯的咖啡豆
2026-03-27 19:46:32
山西煤老板花2億買下四合院,裝修時發現地下室,砸開后愣住

山西煤老板花2億買下四合院,裝修時發現地下室,砸開后愣住

清茶淺談
2025-08-26 18:48:12
11天碰兩次頭,中方第二天就亮了刀:美國想穩住經貿關系,光嘴上說沒用

11天碰兩次頭,中方第二天就亮了刀:美國想穩住經貿關系,光嘴上說沒用

行舟問茶
2026-03-28 00:07:39
以毒攻毒!研究證實:蜂毒100%殺死癌細胞,正常細胞影響小

以毒攻毒!研究證實:蜂毒100%殺死癌細胞,正常細胞影響小

醫學科普匯
2026-03-26 23:55:03
iPhone 50周年紀念版上架,真好看!

iPhone 50周年紀念版上架,真好看!

劉奔跑
2026-03-27 23:58:41
中方兩道通牒發往東京,不到24小時,高市早苗收到壞消息

中方兩道通牒發往東京,不到24小時,高市早苗收到壞消息

過期少女致幻錄
2026-03-28 00:47:47
暴漲7倍!南通樓市,夯爆了!

暴漲7倍!南通樓市,夯爆了!

南通樓市說說
2026-03-27 11:11:39
新加坡前官員北京“砸場子”!兩句話劍指中國特權,嘴臉暴露無遺

新加坡前官員北京“砸場子”!兩句話劍指中國特權,嘴臉暴露無遺

明天見灌裝冰塊
2026-03-28 03:52:54
我做風水先生40年,如今金盆洗手,有些實話不說,到死都閉不上眼

我做風水先生40年,如今金盆洗手,有些實話不說,到死都閉不上眼

千秋文化
2026-03-20 20:36:55
高三男孩喀納斯湖失蹤,母親守岸7天后直言放棄,意外竟在此時發生

高三男孩喀納斯湖失蹤,母親守岸7天后直言放棄,意外竟在此時發生

古怪奇談錄
2025-10-16 10:53:42
特朗普剛敲定訪華,不到24小時,中方會見美代表,當場反將一軍

特朗普剛敲定訪華,不到24小時,中方會見美代表,當場反將一軍

李健政觀察
2026-03-27 16:49:37
2026-03-28 04:39:00
InfoQ incentive-icons
InfoQ
有內容的技術社區媒體
12213文章數 51821關注度
往期回顧 全部

科技要聞

楊植麟張鵬夏立雪羅福莉,聊龍蝦、聊漲價

頭條要聞

男醫生給孕妻做彩超 丈夫崩潰撞墻:不過了 明天就離婚

頭條要聞

男醫生給孕妻做彩超 丈夫崩潰撞墻:不過了 明天就離婚

體育要聞

邵佳一:足球就像一場馬拉松

娛樂要聞

范瑋琪加盟,官宣《浪姐7》遭全網抵制

財經要聞

我在小吃培訓機構學習“科技與狠活”

汽車要聞

與眾08,金標大眾不能輸的一戰

態度原創

房產
游戲
藝術
時尚
健康

房產要聞

6.8萬方!天河員村再征地,金融城西區開發全面提速

離譜!PS5全系暴漲 GTA6還沒出主機先買不起了

藝術要聞

投資9000萬!奶茶巨頭益禾堂的總部大樓,坐標武漢!

推廣中獎名單-更新至2026年3月11日推廣

干細胞抗衰4大誤區,90%的人都中招

無障礙瀏覽 進入關懷版