國內首個！加入六維力的全感知數(shù)采，讓VLA模型進化出力觸覺

2026-04-13 14:16:50　來源: 機器之心Pro

北京舉報

分享至

編輯｜杜偉

這個月，具身智能領域又卷出新高度：硅谷獨角獸公司 Generalist AI 發(fā)布全新一代基礎模型 GEN-1，將機器人包裝手機、折紙箱這些活的平均成功率直接拉到了創(chuàng)紀錄的 99%，折紙箱的速度更是飆到了以前的三倍（34s vs 12.1s）。

支撐起這些突破的，除了模型的重新設計，一套規(guī)模龐大的數(shù)據(jù)底座同樣功不可沒：超過 50 萬小時的真實物理交互數(shù)據(jù)，它們通過可穿戴設備采集而來。

GEN-1 的成功說明了一點：過去數(shù)年，大語言模型的 Scaling Law 建立在幾乎取之不盡的互聯(lián)網(wǎng)數(shù)據(jù)之上；而如今，具身智能的 Scaling Law 正越來越依賴對真實世界交互數(shù)據(jù)的獲取、構建與高效利用。

與文本、圖像、視頻等可復制、可擴展、低成本的互聯(lián)網(wǎng)數(shù)據(jù)不同，具身智能依賴的數(shù)據(jù)往往需要在真實設備與真實環(huán)境中產(chǎn)生，比如機器人的每一次抓取、移動、接觸與失敗，都是不可復用的物理交互。

在這一背景下，行業(yè)逐漸達成一個更清晰的判斷：數(shù)據(jù)采集成為制約具身智能發(fā)展的關鍵瓶頸，也是當前最難規(guī)模化突破的一環(huán)。面對「數(shù)據(jù)規(guī)模與多樣性不足、標注成本高昂、泛化能力薄弱」這幾大攔路虎，行業(yè)亟需破局。

就在今天，一家國產(chǎn)工業(yè)級人形機器人公司選擇從源頭重構數(shù)采體系，給出了另一種解法。

開普勒機器人正式發(fā)布「國內首個原生全感知力觸數(shù)采系統(tǒng)」，該方案打通了從底層力觸覺硬件采集、多模態(tài)數(shù)據(jù)處理，到頂層 VTLA（視覺 - 觸覺 - 語言 - 動作）大模型原生適配與全場景落地驗證的全鏈路閉環(huán)，構建起了一套可持續(xù)擴展的數(shù)據(jù)引擎。

這套數(shù)采系統(tǒng)具備了明顯的「平臺化」特征，依托標準化的采集硬件、統(tǒng)一的數(shù)據(jù)結構以及與模型的原生適配，實現(xiàn)了跨任務、跨場景甚至跨機器人本體的數(shù)據(jù)復用。這意味著，數(shù)據(jù)不再是一次性消耗品，而是持續(xù)積累的生產(chǎn)資料。

在這樣的框架下，具身智能的范式也在悄然發(fā)生變化：從傳統(tǒng)上以視覺為主導的模仿學習（看著學），逐步走向了以力觸覺為核心的全感知物理交互（在接觸中理解世界）。從更長遠來看，這套數(shù)采系統(tǒng)有望成為未來人形機器人邁向全感知智能體的重要基礎設施。

數(shù)采體系以及具身大模型范式上的創(chuàng)新為開普勒在資本市場上贏得了更多青睞。就在近日，開普勒拿到了「億元級 A++ 輪融資」，并官宣公司戰(zhàn)略重大升級，將全面聚焦「具身智能大腦建設」與「力觸覺數(shù)據(jù)采集」核心賽道。

正如開普勒 CEO 宋華所說，「公司正加速向智能大腦升級，強化數(shù)據(jù)與模型能力，持續(xù)提升機器人在復雜工業(yè)場景中的落地效率與作業(yè)精度。」

具身數(shù)據(jù)，「不破不立」

具身智能的上限，歸根結底取決于對真實物理世界的理解。這種理解無法憑空獲得，建立在海量的數(shù)據(jù)之上。這使得數(shù)據(jù)成為整個系統(tǒng)能否持續(xù)進化的地基。當這層地基無法支撐起更復雜的能力演進時，我們就需要重新審視甚至推倒重來。

先看數(shù)據(jù)本身

現(xiàn)在用得最多的，還是視覺數(shù)據(jù)和仿真數(shù)據(jù)。但是，這兩類數(shù)據(jù)都有明顯短板。視覺只能「看」，感知不到接觸和受力狀態(tài)，在抓取、裝配這些精細操作中天然有盲區(qū)；仿真數(shù)據(jù)又太干凈，和真實工廠的復雜環(huán)境差得很遠。一旦進到真實場景，模型表現(xiàn)往往會明顯下滑，在工業(yè)場景的泛化成功率僅為 25%-30%。

再看數(shù)采路徑

過去一段時間，不少團隊走的是「多場景鋪開」的橫向數(shù)采思路，想一口氣覆蓋家庭、服務、工業(yè)等各種場景，做出通用能力。然而，落到工業(yè)場景，這條路往往走不通，原因是多方面的：數(shù)據(jù)太散、針對性太弱；與真實產(chǎn)線的需求對不上；投入很大，轉化很有限，橫向數(shù)采的工業(yè)場景 ROI 低至 15%。

最后是數(shù)采方式

當前很多數(shù)據(jù)還是靠人工遙操作一點點采，單采集員單日僅能采集 100 條有效數(shù)據(jù)，效率低且成本高；不同項目之間的標準也不統(tǒng)一，數(shù)據(jù)很難復用。看起來每個項目都在積累數(shù)據(jù)，但形不成一個可以持續(xù)產(chǎn)出的數(shù)據(jù)體系，模型也就很難滾動迭代起來。

以上幾個問題疊加在一起，就導致了今天的局面：數(shù)據(jù)既不夠多，也不夠好。

更關鍵的是，這并不能通過「繼續(xù)堆數(shù)據(jù)」就能解決，而是要從數(shù)據(jù)生產(chǎn)本身找問題：感知維度單一、采集效率低、與真實場景脫節(jié)，導致現(xiàn)有體系無法滿足大規(guī)模擴展的需求。

光「看見」還不夠，更要全方位「觸碰」

在重打數(shù)據(jù)這層地基的過程中，每一個環(huán)節(jié)都有必要進行重構。尤其是在感知維度上，過去以視覺為主的數(shù)據(jù)所帶來的信息缺失，使得模型難以全方位理解復雜物理交互的關鍵細節(jié)

視覺可以告訴機器人「東西在哪兒、長得什么樣」，但是一旦進入真實操作，很多關鍵問題是看不見的，比如有沒有接觸、接觸是否穩(wěn)定、力度是否合適。特別是在遮擋、反光、柔性物體或者復雜裝配的場景里，只靠視覺往往很難把動作做穩(wěn)。

觸覺和六維力的引入正好可以補上這些短板。我們先來了解下什么是六維力？它可以理解為機器人在接觸過程中感受到的完整受力狀態(tài)，包括三軸方向上的力（F_x、F_y、F_z）和繞三個軸的力矩（M_x、M_y、M_z）。前者描述「被推 / 拉了多少」，后者描述「被擰 / 扭了多少」。

不同于視覺，觸覺和力反饋直接作用在接觸過程中，持續(xù)提供壓力、摩擦和受力方向等信息，讓機器人在操作時一邊執(zhí)行、一邊修正，「邊做邊感受」。

在此基礎上，力反饋改變了機器人的控制方式。以往，機器人基本是按預設軌跡執(zhí)行，換個環(huán)境就容易出錯；有了六維力數(shù)據(jù)之后，動作可以根據(jù)接觸狀態(tài)隨時調整。

更進一步的變化體現(xiàn)在了學習層面。以視覺主導的模仿學習大多只記錄怎么動，不關心怎么用力，結果就是動作可以復現(xiàn)，一旦環(huán)境變了就容易失敗。加入觸覺和力數(shù)據(jù)之后，模型不僅能學習軌跡，還能學得什么時候接觸、用多大力、怎么調整。這些本來隱含在操作里的經(jīng)驗，開始被顯式建模。

得益于此，在多材質抓取、精密裝配這類接觸密集的任務中，模型的穩(wěn)定性與成功率通常會有顯著提升。

觸覺和六維力數(shù)據(jù)帶來的不只是性能的提升，更讓機器人改變了參與物理世界的方式。從「只會看」到「可以觸」，再到「理解接觸過程中的力與交互反饋」，這種轉變才是具身智能走向實際應用的關鍵。

圍繞這一點，開普勒搭建了一套全感知數(shù)據(jù)采集系統(tǒng)，將視覺、力覺、觸覺、語言和動作這些多模態(tài)數(shù)據(jù)，放在了同一套流程里同步采集并統(tǒng)一對齊

在這樣的數(shù)據(jù)底座之上，機器人學到了更完整的操作過程，不僅清楚如何運動，也能理解「何時接觸、用多大力以及如何動態(tài)調整」。

既要精，又要量，「雙路徑數(shù)采」并行

面對具身智能在數(shù)據(jù)本身、數(shù)采方式等方面存在的局限，開普勒亮出了一套「以力觸覺為核心的全感知數(shù)采系統(tǒng)」，從數(shù)據(jù)生產(chǎn)源頭著手優(yōu)化。

本質上來講，開普勒不是圍繞單一路徑做優(yōu)化，創(chuàng)造性地將數(shù)據(jù)采集拆分為兩條互補的路徑：一條做精，追求高保真數(shù)據(jù)；另一條做量，追求規(guī)模化與全場景數(shù)據(jù)。

兩條路徑并行推進，在精度與規(guī)模之間建立平衡，為機器人的復雜操作能力與模型泛化能力提供穩(wěn)定的數(shù)據(jù)基礎。

做精的關鍵在于「雙向遙操作閉環(huán)采集路徑」，包含力反饋外骨骼、觸覺反饋手套以及機器人端高分辨率觸覺傳感器等核心硬件。采集到的高保真多模態(tài)數(shù)據(jù)，構成了支撐精密工業(yè)場景中高精度操作的關鍵數(shù)據(jù)來源。

流程是這樣的：首先操作員戴上力反饋外骨骼和觸覺手套，手部動作被捕獲并映射到機器人；接著機器人通過手部搭載的高分辨率觸覺傳感器，實時檢測接觸時的力、滑動和狀態(tài)變化，這些觸覺數(shù)據(jù)在被轉換為振動、阻力等可感知反饋之后回傳給操作員；最后操作員根據(jù)觸覺反饋動態(tài)調整操作。

整個過程形成了一個完整的雙向反饋回路：人做動作，機器人執(zhí)行，觸覺和受力信息反饋回來，人再根據(jù)這些信息微調動作。

這樣采下來的數(shù)據(jù)在真實接觸中不斷修正，精度高、細節(jié)全，數(shù)據(jù)保真度高達 99%。

與此同時，像延遲、噪聲問題，也能通過本地部署、低延遲通信和傳感器補償?shù)仁侄蝸斫鉀Q，保證鏈路能穩(wěn)定跑起來，將延遲控制在毫秒級，噪聲誤差降低至 1% 以下。

做量的關鍵在于「類 UMI 的人類示范采集路徑」，其核心硬件是集成高密度觸覺傳感器的手套。用一句話來總結整體思路：將數(shù)據(jù)采集從依賴成本高昂、數(shù)量有限的機器人本體轉移到依賴人本身，從而降低成本并提升采集效率。

相較于做精的高保真數(shù)采路徑，這一路徑在流程上更為簡化：采集員戴上觸覺手套，在真實環(huán)境里完成各類操作任務，系統(tǒng)同步將視覺信息、手部關節(jié)角度、觸覺壓力陣列以及肌肉運動等多模態(tài)數(shù)據(jù)記錄下來，再通過算法映射到目標機器人的運動學模型中。

圍繞過程中可能出現(xiàn)的一些痛點問題，同樣給出了應對方案：

針對人手與機器人之間的形態(tài)差異，引入多機型目標映射算法與策略蒸餾技術，使一套數(shù)據(jù)能夠在數(shù)十種機器人本體之間復用；針對第一人稱視角容易被遮擋的問題，通過頭部與腕部多視角相機融合，補全視覺盲區(qū)，進一步提升數(shù)據(jù)的完整性與可用性。

這條路徑不依賴真機，成本低、速度快，可以很快把數(shù)據(jù)量堆起來，覆蓋的場景也更廣。

兩條路徑放在一起來看，其實是在解決同一件事的兩個面：前者保證數(shù)據(jù)足夠精，支撐起復雜工業(yè)任務；后者保證數(shù)據(jù)量足夠大，能夠應對更多情況。

最終，開普勒構建了一套兼顧深度與廣度的數(shù)采系統(tǒng)，為 VTLA 全感知模型的訓練提供了有質有量的數(shù)據(jù)根基。

觸覺加入，VTLA 開啟「全感知」范式

開普勒的雙路徑數(shù)采方案解決了「數(shù)據(jù)如何高效生產(chǎn)」的問題，接下來的關鍵是：如何將這些數(shù)據(jù)有效地應用于模型，轉化為實際操作能力。同時隨著力觸覺數(shù)據(jù)的引入，傳統(tǒng) VLA 模型架構也發(fā)生了變化。

在這一背景下，開普勒推出了 VTLA 全感知大模型，在國內首次將觸覺模態(tài)提升到了與視覺、語言、動作同等重要的地位

傳統(tǒng) VLA（視覺 - 語言 - 動作）模型主要依賴視覺和語言來理解環(huán)境，再去生成動作。在此基礎上，VTLA 加入力觸覺，讓模型在感知與決策過程中同時處理接觸與受力信息，為復雜物理交互提供更完整的建模基礎。

看起來只是多了一個模態(tài)，但帶來的變化很直接：機器人不只是判斷該怎么做，也能在執(zhí)行過程中不斷校正做得對不對。

具體實現(xiàn)上，VTLA 模型更傾向于把視覺、觸覺、語言、關節(jié)狀態(tài)這些數(shù)據(jù)放在同一套體系里處理，包括多視角 RGB-D 數(shù)據(jù)、語言指令、本體 / 關節(jié)狀態(tài)、觸覺 / 力數(shù)據(jù)（壓力分布、力矢量、滑移事件等），不再由不同模塊分開處理，而是統(tǒng)一編碼后一起進入模型，由同一套網(wǎng)絡端到端輸出控制指令。

其次對數(shù)據(jù)的依賴也發(fā)生了變化。相比過去主要依賴視覺數(shù)據(jù)，VTLA 模型需要大量包含接觸、受力和操作細節(jié)的多模態(tài)數(shù)據(jù)。因此，力反饋外骨骼、觸覺手套這些采集設備提供的數(shù)據(jù)變得尤為重要，它們決定了操作成敗與否。

此外在訓練上，VTLA 模型通常會借助已有的視覺語言模型（VLM）做基礎，再結合仿真數(shù)據(jù)、真實數(shù)據(jù)以及人類視頻等多種來源提高效率。在評估上，關注點同樣發(fā)生變化，從只看「任務做沒做成」到更看重過程，比如抓取是否穩(wěn)定、精度是否足夠、面對新物體能否保持表現(xiàn)，以及復雜環(huán)境下是否依然可靠。

力觸覺補上了具身智能長期以來最缺的一環(huán)，即對接觸過程與物理交互的理解，使其更接近真實世界中的可用狀態(tài)。

整體來看，開普勒沒有選擇集中某一個點做優(yōu)化，而是把行業(yè)里幾個長期存在的系統(tǒng)性問題，包括人采數(shù)據(jù)和機器人使用之間的錯位、硬件不統(tǒng)一帶來的重復成本以及數(shù)據(jù)質量和規(guī)模之間失衡，逐一從頭理順。

一套方案走下來，包括力觸覺在內的全感知數(shù)據(jù)逐步具備了「可用、可復用、可持續(xù)生產(chǎn)」的能力。

目前，開普勒一方面繼續(xù)夯實數(shù)采系統(tǒng)采集的「指尖點陣壓力分布 + 三軸力 + 三軸力矩」全維度力覺數(shù)據(jù)，另一方面持續(xù)深化 VTLA 原生多模態(tài)融合能力，在精密裝配、多材質抓取以及復雜環(huán)境的精細操作中，實現(xiàn)了遠超以視覺為主的傳統(tǒng) VLA 方案的穩(wěn)定性、成功率與泛化表現(xiàn)。

在真實產(chǎn)線中，這些能力也得到了驗證。在某汽車工廠產(chǎn)線的實測中，依托力觸覺全感知數(shù)據(jù)的 VTLA 模型連續(xù)完成 1000 次高精度裝配操作，成功率達到 99.4%，較純視覺模型提升 19.4 %，且全程無需人工干預，極大地降低了返工率與人工成本。

可以說，開普勒為當前具身智能在工業(yè)場景的規(guī)模化落地提供了更現(xiàn)實的解法。一定程度上，這也是具身智能從實驗室階段走向工程階段的一個明顯信號。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.