網易首頁 > 網易號 > 正文申請入駐

具身智能中的 VLA 技術及其應用

2026-03-16 18:27:36　來源: InfoQ

北京舉報

分享至

演講嘉賓｜隋偉博士

編輯｜Kitty

策劃｜QCon 全球軟件開發大會

傳統的具身智能操作方法將視覺感知、語言理解和動作規劃分割為獨立模塊，導致系統復雜、誤差易累積且泛化能力不足。視覺語言動作模型（VLA）則實現了從多模態感知到動作生成的端到端學習，構建了 “所見即所動” 的智能決策閉環，極大地推動了具身智能發展。

然而視覺語言動作模型本身也存在諸多挑戰，例如訓練數據難以獲取、模型結構缺少長時序和物理邏輯推理的能力。這意味著 VLA 雖然能實現一些操作功能但是對不同場景、不同任務的泛化性仍然存在挑戰，無法滿足實際的需求。

本文整理自地瓜機器人算法副總裁隋偉博士在 2025 年 QCon 全球軟件開發大會（上海站）的分享“具身智能中的 VLA 技術及其應用”，內含涵蓋 VLA 技術的基本原理和機制，以及在落地過程中涉及到的數據、評測等問題，從而提升 VLA 的性能和易用性等等。

預告：將于 4 月 16 - 18 召開的 QCon 北京站設計了「具身智能與物理世界交互」專題，聚焦 VLA/VA 模型與數據體系兩大核心，深度拆解具身智能技術鏈路。擬探討模型現狀、核心挑戰與機會，分享高質量數據解決方案，解析仿真與 World Model 的賦能價值，破解核心技術瓶頸。敬請關注。

以下是演講實錄（經 InfoQ 進行不改變原意的編輯整理）。

我先簡單介紹一下地瓜機器人，是一家專門聚焦機器人領域的公司。我們提供一整套機器人解決方案，包括底層芯片、操作系統、開發環境、數據算法以及云平臺等。我們的目標是讓機器人的開發變得更加簡單，讓每個人都能上手開發機器人算法。

我今天分享的主題是 VLA（視覺 - 語言 - 動作模型）。我會圍繞 VLA 開發過程中遇到的各種問題，介紹目前的現狀與挑戰，涵蓋從數據到模型、再到最終部署及應用中遇到的困難。

具身智能中 VLA 的現狀和挑戰

首先看 VLA 的現狀與挑戰。具身智能在這兩年非常火熱，被認為是繼智能駕駛之后的另一個爆發點。其背景是底層 AI 模型的快速發展，尤其是像 VLM（視覺語言模型）這種離身智能大模型，已經具備了很好的通用性和泛化性。目前在聊天類應用、文生圖以及 VLM 問答方面，技術已經做得非常成熟。下一步，技術必然會向具身智能演進，即讓機器人的動作也具備這種通用能力。而且，具身智能的前景和市場容量遠比智能駕駛要大。智能駕駛目前的普及率大約在 60% 到 70%，而具身智能未來會存在于各種場景中。

從功能、底層模型、數據和硬件本體四個維度來看，目前具身智能的現狀如下：在功能成熟度方面，我們將本體任務分為上肢操作（Manipulation）、下肢移動（Locomotion）和對話。目前對話功能已經非常成熟，許多陪玩類機器人已經落地。在移動能力方面，我們能看到很多機器人跳舞或進行搏擊比賽，但目前大多屬于“盲眼運動”，雖然有一定的情緒價值，但缺乏與現實的感知交互。比如機器人在跳舞時，如果前面有障礙物，由于沒有通過傳感器感知世界，它依然會撞上去。

至于上肢操作，這是我們今天要講的重點，也是與 VLA 關系最密切的方向，目前它是最具挑戰性、最不成熟的。其底層模型正經歷從 G1 到 G5 的發展階段，現在大約處于 G2 到 G3 之間，即從傳統的工業自動化向端到端學習過渡的過程。雖然 VLA 正在從分層式架構向端到端架構發展，但挑戰巨大，核心在于數據。現有數據無法支撐 VLA 發揮出應有的性能，而數據采集目前也沒有完美的解決方案。遙操作采集的數據真實，但效率極慢；仿真雖然能快速獲取數據，但有效率較低。此外，硬件本體目前也不夠穩定成熟，盡管成本在快速降低，但端側算力依然面臨挑戰。雖然現在到處都是問題，但 VLA 在發展過程中肯定會遇到各種坎坷。它應該是一個螺旋式或波段式前進的過程，而我們現在正處于第一個波峰。

我們來看看 VLA 到底是為了解決什么問題。因為我之前從事自動駕駛領域，而自動駕駛是 AI 第一個大規模落地的場景，所以我比較傾向于通過自動駕駛這十年的發展路徑和 AI 落地過程，來推演具身智能當前所處的階段。

自動駕駛領域的一個重要節點是“端到端”技術的出現。特斯拉率先發布了端到端算法，通過模仿學習來解決擬人化的問題。在此之前，自動駕駛主要依靠規則化方案來生成軌跡，涵蓋行駛方向、速度和加速度等。駕駛最關鍵的三個要素是安全性、舒適性和高效性。在端到端技術普及前，傳統規則化方法很難同時兼顧這三點。比如，為了保證安全而讓系統過于保守，效率就會降低；如果駕駛風格激進以提高效率，安全性和舒適性又會受到影響。端到端技術較好地解決了這個問題，因為它直接從專家數據中學習駕駛過程，讓體驗提升了一大截。

不過，端到端技術也遇到了泛化性和適應性的難題，核心還是數據問題。比如不同城市、不同風格的紅綠燈和標志牌，一旦系統沒見過相關數據，性能就會立即下降。既然現在的 VLM 已經具備了極強的通用性、泛化性和常識能力——例如你問它某個交通標志是什么意思、該怎么開，它能給出很好的語言描述——那我們就在想，能不能把這種能力引入到具身智能系統中，形成 VLA，讓系統具備思考能力。目前在自動駕駛領域，已經有一兩家頭部玩家最近跑通了 VLA。相比端到端模型，VLA 的模型規模要大出 10 倍左右，端到端模型通常在 0.1B（億級參數）量級，而 VLA 則在幾個 B（十億級參數）的量級，且訓練數據量龐大，通常需要幾十億個短視頻片段才能訓練出一個性能較好的版本。

回到具身智能，即便是一個簡單的動作，也存在技術方案的演進。第一種是模塊化方案，類似于早期自動駕駛的思路，即“先檢測再規劃”。在 2019 年到 2020 年期間，很多 Demo 都是這么做的：先簡單處理物體的姿態，再規劃機械臂的操作。但問題在于，很多任務是無法直接規劃的，尤其是自由度較高時。機械臂一般有 6 到 7 個自由度，人形機器人則有幾十個，這不像自動駕駛只需在二維平面規劃軌跡。

隨后出現了模仿學習，即直接通過端到端的方式學習一條軌跡。它的好處是能完成一些規劃不出來的復雜動作，并處理抓取柔性物體等任務。但它的局限性在于對數據的強依賴，于是便誕生了 VLA。VLA 的初衷是解決場景泛化、任務泛化和本體泛化這三個問題。我們希望利用 VLM“見多識廣”的能力，讓機器人也具備同樣的通用性。從落地角度看，場景和任務的泛化優先級最高，本體泛化可以排在最后，因為單款機器人如果能具備通用性，其價值就已經非常巨大了。

關于 VLA 的模型架構，其實邏輯非常直接。現在的模型輸入通常是多模態信息，一般包含圖像、文本和本體狀態。其中本體狀態主要指姿態信息和關節角度等。這些信息經過編碼器處理后，輸入到基于 Transformer 架構的 VLM（視覺語言模型）中進行多模態融合。VLM 輸出的 Token 包含了圖像、文本和本體的綜合信息，隨后進入動作策略（Action Policy）模塊。

在動作策略模塊中，目前主流的方法有兩種。一種是擴散策略（Diffusion Policy），這在文生圖等生成式模型中很常見。它通過生成式的方式來產生復雜的軌跡，相比之下，傳統的判別式方法在描述軌跡的能力上不如擴散策略，因此擴散策略在動作生成中占據了非常重要的位置。另一種方法是流匹配（Flow Matching），同樣屬于生成式，它與擴散策略的主要區別在于底層的數學建模不同。擴散策略的分布建模更復雜，而流匹配則是在生成過程中進行線性迭代。經過動作策略模塊的處理，最終會輸出機器人的關節動作，也就是 VLA 中的“A”。

同時，也有很多研究工作會讓模型輸出一些輔助信息。比如有些模型會輸出文本，這是借鑒了像 DeepSeek 等大語言模型的思路，旨在讓機器人具備“思考”能力。也就是說，在訓練模型時，不僅要讓它給出答案，還要讓它理解為什么是這個答案。這屬于思維鏈（CoT）或動作鏈（CoA）的范疇。另外，也有研究會讓模型輸出圖像信息，即利用當前的姿態、圖像和文本去預測下一時刻的圖像，這就是世界模型（World Model）。其基本原理是，如果模型能基于當前數據準確預測下一刻的狀態，就認為它學習到了物理規律。目前已經有一些工作將世界模型與 VLA 結合在一起進行訓練。

在具體的架構實現上，目前主要有兩種主流方案。一種是 VLM 直接輸出特征（Feature）并傳遞給后續模塊，這被稱為“一段式”的端到端架構。另一種是分層式架構，VLM 輸出的不是特征，而是語言形式的任務規劃。例如，當輸入指令是“收納桌子”時，VLM 會先將任務拆解為具體的指令，比如“把杯子移到中央”、“把水倒掉”、“把垃圾丟掉”等，再將這些步驟逐一輸出給下游模塊執行。

我們來看一下目前的 VLM（視覺語言模型）究竟能做哪些事情。VLM 的設計初衷，一是解決任務的泛化性，二是處理復雜的長程任務。最近我去杭州參加了機器人國際會議的一個比賽，現場有六種任務，我重點觀察了其中三種。第一種是疊衣服，這是典型的長程任務，要求機器人無論衣服如何擺放，都能將其折疊好；第二種是倒水；第三種是操作微波爐；第四種是收納。此外，在近期的世界機器人大會（WRC）和世界人工智能大會上，我也看到了一些現場演示。比如打麻將，它采用的是分層架構，使用了一個經過麻將數據訓練的 12B 規模的 VLM。機器人會通過語音告訴你該怎么出牌，再利用傳統方法檢測麻將位置并完成推牌或抓牌動作，體驗效果還不錯。還有做香囊，這是一個更長程的任務，需要把東西裝進去并勒緊繩子，這是由智元機器人完成的。目前市面上看到的這些炫酷動作，背后基本都是 VLA 在支撐，且大多基于 OpenVLA 等模型，這代表了目前能力的上限。

可以說，對于單一任務，如果我們提供大量數據，模型是具備長程執行、理解和復雜任務處理能力的。但它最大的問題在于泛化性極弱。我們設計 VLA，是希望利用 VLM 在互聯網上見過的海量數據，讓機器人具備通用性和遷移能力。理想情況下，即使面對沒見過的場景，模型也能憑借“常識”實現零樣本（Zero-shot）能力。但實際測試下來，這種能力還不具備，原因主要有幾點。

首先，VLM 中的“視覺 - 語言”數據與“動作”數據分布不一致。VLM 基座是通過互聯網上大量的圖文對訓練的，而動作數據（A）必須靠真機實采。目前實采的數據量非常小，通常只有幾百到幾千條，與圖文數據相比極其不均衡，導致 VLM 的知識無法有效遷移到動作上，模型處于嚴重的過擬合狀態。其次是硬件限制。我們看到的很多流暢動作其實是經過 5 倍或 10 倍速處理的，實際操作時會有明顯的抖動。受限于機械臂硬件本體，目前 VLA 還無法完成穿針引線這類精細化任務。

我們也做了一些泛化性驗證，比如最簡單的抓取和投放。實驗發現，當背景發生變化（如移走測試環境中的黑色窗簾）、物體位置放遠了一點，或者加入未訓練過的干擾物（如一瓶咖啡），機器人就會失敗。這說明目前的系統非常脆弱，原因就是數據量太少，多樣性嚴重不足。

我們可以對比一下自動駕駛所需的數據量。自動駕駛可以看作是單一任務的具身智能，只負責“駕駛”。即便如此，要訓練一個基本可用的模型，大約需要千萬量級的視頻片段，換算下來約為 10 萬小時的數據，且這些數據必須分布在不同的空間和天氣場景中。而目前具身智能領域，即便是一些領先的采集工廠，數據量也僅在百小時到千小時級別，還要應對無數種任務，這顯然遠遠不夠。

此外，自動駕駛的車輛是標準化的，動力學特性基本一致，數據容易復用且采集便利。但具身智能的硬件目前還沒收斂，手部既有夾爪也有靈巧手，自由度從 7 個、11 個到 21 個不等，導致數據無法復用，智能化進程緩慢。

經常有人問：現在的具身智能相當于自動駕駛的什么階段？是 2015 年還是 2012 年？我認為，從算法模型來看，具身智能完全可以對標 2025 年的自動駕駛，兩者都在往端到端或 VLA 方向走，沒有代差。但從硬件角度看，具身智能可能還不如 100 年前的汽車工業，因為那時候汽車已經實現流水線大規模生產，而現在的機器人還遠未達到那個水準。

VLA 的主流架構

剛才我們講到主流架構主要有兩種：一種是分層式的，另一種是完全端到端的。這兩者的核心區別在于 VLM（視覺語言模型）向下一層傳遞的是語言規劃指令，還是直接傳遞特征（feature）。

分層式架構在輸入傳感器數據后，會由兩個系統協同工作。所謂“慢系統”，就是我們常說的 VLM，它負責對數據進行推理。之所以稱之為“慢”，是因為模型體量巨大，為了讓它具備常識能力，必須經過海量數據訓練，在現有的硬件條件下，其推理速度相對較慢。而“快系統”則是前面提到的端側系統，它的模型較小，直接輸出動作或軌跡，因此運行速度很快。我認為這種“快慢系統”的劃分，本質上是受限于目前的硬件計算資源。如果未來端側算力足夠強大，其實就不需要這種區分了，所有環節都能實現實時響應。

在分層系統中，系統 2 負責思考并給出語言規劃，再傳達給快系統。比較典型的例子是 Figure 01 機器人展示的 Demo，它采用的就是分層式架構。由于需要部署在 Orin 等芯片上，為了克服無法實時處理的問題，必須構建快慢系統。去年在自動駕駛領域比較火的理想汽車，也率先推出了類似的快慢系統，其初衷同樣是解決端側部署時的算力限制。不過從工程角度來看，快慢系統會更復雜一些，因為模塊越多，工程量就越大。相比之下，完全端到端的架構就簡單得多，傳感器數據輸入后，中間全部交給 VLA 處理并直接輸出結果，沒有了快慢之分。

這兩種架構各有優劣。完全端到端的上限更高，但它對數據的需求量極其龐大。分層式架構目前的優勢在于對數據的依賴程度沒那么高。因為 VLM 可以通過少量的針對性訓練達到較好的語言規劃效果，開發者只需要專注于訓練后面的動作執行模塊，甚至可以沿用傳統的控制模塊。就像我之前提到的打麻將機器人，它的快系統其實就是用傳統方法實現的。在目前數據保有量有限的情況下，分層式是一個比較合理的選擇。此外，分層式也更契合現在的智能體（Agent）或 MCP（多模型控制平臺）架構，即由 VLM 充當“大腦”進行語言規劃，再由快系統中的各種動作原子負責具體執行。

這是我們最近在做的一些探索，主要集中在分層式架構上。之所以選擇這個方向，是因為我覺得目前純粹搞端到端方案其實已經遇到了瓶頸。在數據量不夠的情況下，大家做出來的東西很難體現出差異化，落地也非常困難。因此，我們的思路是先把 VLM（視覺語言模型）的能力利用起來，讓它作為一個調度大腦，也就是 Agent，去調用各種各樣的“動作原子”。

比如，駕駛可以被視為其中一個動作原子，當機器人需要執行駕駛任務時，Agent 就調用駕駛模塊；收納也是一個原子，它由許多“抓取與放置”（Pick and Place）動作組成。我們正在積累這些動作原子，當機器人面對復雜任務時，就由 VLM Agent 來進行任務分解和調度。這里面比較有挑戰性的地方在于任務之間的銜接，即如何準確判斷當前任務已經完成并開始下一個，以及當任務出錯時，Agent 該如何調整調度流程。

在開發動作原子時，我們走的是 VA（視覺 - 動作）路線。我們發現現階段語言在具體動作執行中起到的作用其實非常有限，直接通過 VA 實現反而更容易出效果。在方案設計上，我們選擇了純視覺方案，沒有使用 RGBD。這主要是從本質原理考慮的，我們認為視覺能力已經足夠強，人類也是靠雙眼來完成各種觀測任務的。后期的驗證也證明，純視覺方案在魯棒性和遷移性上確實比點云方案更好。

此外，我們在模型中增加了 3D 感知信息。目前的 VLM 其實并不具備很強的空間理解能力，如果你去測試它，它很難給出物體準確的方位、距離或復雜的幾何尺寸，因為它的訓練數據里缺乏這些信息。而這些 3D 信息對于動作的泛化性至關重要。如果能在一個統一的 3D 空間里進行動作規劃，泛化性會強很多。因此，我們在架構中增加了一個 3D 編碼器（Encoder）模塊。

這里用到了今年 CVPR 的最佳論文 VGGT，這是一個用于三維重建的視覺基礎模型。我們知道，大模型正在改寫各個研究領域，原先的導航規劃現在變成了 VLN（視覺語言導航），原先的操作規劃和控制現在變成了 VLA。VGGT 則是三維重建領域的代表，它基于 Transformer 架構，效果已經接近傳統的 COLMAP 等三維重建方法，潛力巨大。我們做的工作就是將 VGGT 預訓練的 3D 相關特征提取出來，接入到 VA 模型中。經過驗證，這種做法在魯棒性和效果上都超出了我們的預期。

這是我們目前使用的模型架構，其中 VGGT 的編碼器部分負責生成特征。這些特征同時包含了語義信息和幾何信息，我們將其直接輸入模型以獲取結果。

其實模型本身并不復雜，在 VLA 的落地開發中，大部分工作量并不在模型架構上。通常情況下，模型部分的搭建兩三周就能搞定，而真正耗費精力的是數據工作。對于具身智能而言，還涉及到機器人硬件適配、數據采集和實機測試，這部分工作量往往會占到總周期的三分之二甚至四分之三。

目前具身智能開發的第一步通常是在仿真環境中進行的。由于真實世界的有效數據非常稀缺，我們需要先在具有物理引擎的仿真器中采集數據，驗證模型的有效性。以“夾木塊”和“堆木塊”為例，這類任務在人類看來很簡單，但對機器人來說挑戰巨大，稍微有一點偏差就會導致失敗。我們將自己的方案與傳統算法進行了對比：DP 是基于 2D 圖像輸入的擴散策略算法，而 DP3 則是基于點云輸入的版本。在真機測試中，我們的方案成功率明顯更高，尤其在將木塊放入盤子的任務中，表現幾乎比 DP 翻了一倍。

在測試 VLA 的過程中，我們發現“泛化性”是一個核心痛點。目前的 VLA 方案，比如 OpenVLA，在光照發生變化時表現得很脆弱。例如環境光線由暗變亮，任務可能就會失敗。但如果我們在 VA 模型中引入 3D 幾何信息，系統就會表現出更好的魯棒性，而現有的主流方案在處理這類場景時依然容易失誤。

當我們通過 VA 實現了這些動作原子并建立起原子庫后，就可以利用 Agent 這種大腦角色進行任務編排，從而完成長程的復雜任務。這種做法的優勢在于能充分利用現有 VLM 的推理能力。目前 VLM 在任務規劃上已經非常成熟，比如你讓它規劃收納任務，或者給它一張路口的照片問它車輛該怎么開，它都能給出非常清晰的規劃指令，甚至會提醒你注意避讓前面的大卡車。現在的核心挑戰在于，如何將這些高質量的語言規劃準確地傳遞給 VA 模塊去執行動作。

只要能把這一步打通，整個任務鏈就能串聯起來。如右側表格所示，這是一個完整的閉環流程：我們需要識別任務是否已完成。例如通過增加標志位來檢測當前步驟的狀態，如果任務完成，就調用下一個原子動作；如果沒有完成，則返回重新執行。這種典型的類似 MCP 的架構，是目前完成復雜長程任務的有效路徑。

這是另外一些實驗效果的展示，包括積木在左手與右手之間的交接、一個盒子疊放到另一個盒子上，以及桌面的整理管理。在這些任務中，有些屬于復雜的長程任務，有些則是通過 VA（視覺 - 動作）模型直接實現的。目前來看，只要數據質量足夠高且訓練到位，機器人都能完成得比較好。此外，我們使用的機械臂采用了諧波減速器，精度較高，對于完成插拔這類精細任務來說是完全夠用的。

VLA 的數據方案

接下來談談數據方案，這是目前具身智能行業最大的痛點。很多從自動駕駛領域轉過來的同事會覺得，具身智能的數據基礎設施還處于非常原始的階段。目前行業內數據采集主要有兩種方案：第一種是遙操作，這其中又包含很多細分技術；第二種是仿真。關于到底是以仿真為主還是以真實數據為主，業內一直存在路線之爭。但在我們看來，真實數據是必不可少的，仿真數據如果做得好能起到很大作用，如果做得不好，可能只是錦上添花。

在遙操作方面，主要有幾種技術路徑。第一種是慣性動捕設備，通過讓采集人員穿上帶有 IMU 慣性傳感器的服裝，在運動時捕捉身體各關節的數據。這種方式的優點是沒有視覺遮擋問題，即使兩人擁抱也能采集到數據；缺點是慣性傳感器存在漂移，時間久了精度會下降。目前特斯拉采集 Optimus 工廠數據時，使用的就是這種慣性動捕設備。第二種是光學動捕設備，需要在空間內安裝多個攝像頭，采集者穿戴貼滿 Marker 點的服裝。它的精度非常高，能達到亞毫米級，但缺點是容易受遮擋影響，如果攝像頭沒捕捉到某些點，后期就需要大量人工修補。

還有一種常見的方式是外骨骼采集，即人帶著同構或異構的機械臂進行操作。這種方式采集的數據幾乎是 1:1 復刻，數據有效率很高，但采集效率相對較低。上述這些方式現在統稱為“以人為中心”的數據采集，其最大的挑戰在于人的關節結構與機器人并不一致，涉及到非常復雜的數據重定向（Retargeting）問題，有些人的動作不一定能直接遷移給機器人。最后是仿真數據，目前它主要用于大規模數據生產和自動化評測。當模型訓練完成后，如果想要進行快速迭代測試，在仿真環境中進行是最高效的選擇。

在仿真環境的建設中，首先需要考慮的是資產庫的規模。仿真器本身只負責物理仿真和渲染，而具體的場景——無論是工廠環境還是桌面環境，以及執行任務所需的各類物體，都需要豐富的資產支撐。這些資產的儲備是目前具身智能開發中的關鍵卡點。其次，物理仿真的質量也至關重要。機器人與自動駕駛不同，自動駕駛的目標是避免碰撞和接觸，而機器人執行任務時，時時刻刻都需要與物體發生物理交互。

目前，像 MuJoCo 或 Isaac Gym 等成熟的仿真器在物理仿真方面表現較好。具身智能對傳感器的仿真模型支持要求極高，目前主流的仿真平臺包括我們與高校合作開發的成果，比如與上海交通大學合作的 RobotStudio，以及與清華大學合作的 DICOVERSE。此外，業界還有像 RoboVerse 等面向具身智能的仿真框架。以 DICOVERSE 為例，它的主要特點是具備“實對虛（Real-to-Sim）”再到“虛對實（Sim-to-Real）”的功能，通過 3D 高斯潑濺（3DGS）技術完成環境重建后再進行渲染，從而獲得極高的真實感，便于數據生成和模型測試。

除了傳統的數字孿生技術，我們最近還在嘗試一種新的方案。業界常說的數字孿生追求的是對真實環境 1:1 的復刻，而我們提出了一個概念叫“數據表親”。其核心邏輯是，在很多訓練場景下，我們并不一定需要完全一致的 1:1 復刻，只要仿真環境中能出現類似的物體，就能達到訓練效果。

目前，我們正針對桌面這類固定場景進行開發，通過輸入一張圖像或一段文字描述，利用生成式 AI 技術產生 3D 資產并構建出三維場景。更重要的是，這些生成的場景都具備物理仿真屬性。正如我前面提到的，仿真器中數據資產的豐富程度決定了上限，而這種生成式的方法正是為了解決資產稀缺的問題。

這里舉了一些具體的例子。左邊是輸入的原始圖像，右邊是生成的 3D 場景。可以看到，雖然兩者并非完全一致，但物體基本上都實現了一一對應，這完全是通過大模型的方式生成的。在過去，如果我們要做這類物體重建，必須使用高精度激光掃描來生成 Mesh，那種方式效率很低，且復雜物體的 Mesh 重建難度極大。現在得益于底層 3D 生成式大模型的發展，我們可以比較容易地生成這些高精度、高逼真度的 3D 模型。

VLA 模型的量化部署

關于模型量化與部署，這是工程實踐中非常關鍵的一環。在 GPU 上訓練模型時，為了保證精度，通常使用 Float 32 或 FP16 等數據類型。但在推理階段，這些類型的存儲代價太高。舉個簡單例子，一個 1B（十億參數）的模型，如果量化為 4 比特或 8 比特，模型大小約為 1GB 左右；若使用 Float 32，則需要 4GB。這會極大影響端側的運行效率。因此，目前在端上運行時，都需要將模型量化并遷移到 ASIC（專用集成電路）上。目前主流的 VLM 量化方式通常是量化到 4 比特，且性能損失較小。通常芯片供應商會提供成熟的工具鏈來完成這種轉換。在 VLA 中，量化的主要挑戰在于擴散策略（Diffusion Policy）部分，因為它需要極高精度的姿態信息。在實際部署時，往往需要采用異構部署方案，根據任務特性將不同模塊分配到 AI 加速器、CPU 或 DSP 上運行。

部署流程本質上是一個數據映射的過程，即將浮點數類型映射到 INT8 或 INT4 上。這個過程需要使用部分數據進行模型校準，觀察映射后是否存在精度大幅下降（掉點）的情況。這些都是工具鏈提供的標準化處理流程。如果量化后性能無法滿足要求，就必須回頭重新修改模型結構。

總結與展望

總結來看，我們介紹了從數據采集、模型設計、訓練到最終部署的完整開發過程。目前的現狀是，整個 VLA 領域仍處于非常早期的階段。首先是缺少高質量的數據，且機器人本體目前極不標準；其次模型結構尚不成熟，直接將 VLM 映射到 Action 這種“頭重腳輕”的形式，難以建立起穩固的連接；最后是硬件本體的局限，目前市面上的機器人硬件還不足以支持完成各種復雜任務。一個驗證標準是：即使在有人類遙操作的情況下，很多任務都不一定能順利完成。

展望未來，有兩個重要的探索方向。模型層面，大家正在嘗試引入觸覺信息、強化學習等技術。因為動作軌跡的訓練不能僅靠簡單的回歸損失函數來完成，強化學習可以通過稀疏獎勵（比如只告訴模型結果的好壞）來訓練模型。此外，世界模型（World Model）也處于預研階段，重點在于 3D 空間表達、記憶信息和思維鏈，我們認為這是改造 VLA 最關鍵的點。

我認為 VLA 要實現量產，除了端側模型本身，更多的精力應該放在構建數據閉環上。現在的具身智能其實很像 Robotaxi。Robotaxi 在行駛中不能有人干預，但遇到困難時需要云端接管，隨著技術進步，接管次數會逐漸降低，智能化隨之提高。機器人也是如此，如果工作時旁邊必須有人，其商業模式就無法成立。因此，我們可以借鑒 Robotaxi 的路線：先通過人工遙操作讓機器人進入實際場景工作，在這一過程中收集大量數據，隨著自動化程度的提升逐漸減少遙操作頻率，最終實現真正的自主化。

演講嘉賓介紹

隋偉博士，現任地瓜機器人算法副總裁。

2011 年，他于北京航空航天大學探測制導與控制技術專業畢業，之后進入中科院自動化研究所深造，并取得博士學位，其研究方向為模式識別與智能系統。

2016 年 7 月博士畢業后，擔任模式識別國家重點實驗室助理研究員，負責 3D 視覺感知方向的研發工作。

2019 年 1 月隋偉博士加入地平線，任高級算法工程師，主要負責機器人和自動駕駛場景下，基于旭日和征程系列芯片的 2.5D 及 3D 視覺算法研發。2020 年 12 月 - 2023 年 12 月，任研發總監，帶領團隊（30 人）成功開發了地平線高階自動駕駛 BEV 感知方案，并且搭建了國內首套最為完備且先進的 4D Label 標注系統。目前旭日系列芯片出貨量已達數百萬片，BEV 感知方案也已在多個車型上定點量產，為自動駕駛領域的發展做出了重要貢獻。隋偉博士在 ICRA、IROS、CVPR、TIP、TVCG 等國內外知名期刊和會議上先后發表學術論文 20 余篇，擁有專利 40 多項。此外，他長期擔任 ICRA、IROS 等機器人會議的審稿人，同時擔任《智能駕駛和機器視覺》《智能駕駛與多維重建》等自動駕駛相關著作的主編。

2023 年 11 月至今任地瓜機器人算法 VP ，負責面向消費機器人和具身智能的軟件算法方案研發。

會議推薦

OpenClaw 出圈，“養蝦”潮狂熱，開年 Agentic AI 這把火燒得不可謂不旺。在這一熱潮下，自托管 Agent 形態迅速普及：多入口對話、持久記憶、Skills 工具鏈帶來強大生產力。但這背后也暴露了工程化落地的真實難題——權限邊界與隔離運行、Skills 供應鏈安全、可觀測與可追溯、記憶分層與跨場景污染、以及如何把 Agent 納入團隊研發 / 運維流程并形成穩定收益。

針對這一系列挑戰，在 4 月 16-18 日即將舉辦的 QCon 北京站上，我們特別策劃了「OpenClaw 生態實踐」專題，將聚焦一線實踐與踩坑復盤，分享企業如何構建私有 Skills、制定安全護欄、搭建審計與回放機制、建立質量 / 效率指標體系，最終把自托管 Agent 從可用的 Demo 升級為可靠的生產系統。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.