編輯|杜偉
這個月,具身智能領域又卷出新高度:硅谷獨角獸公司 Generalist AI 發(fā)布全新一代基礎模型 GEN-1,將機器人包裝手機、折紙箱這些活的平均成功率直接拉到了創(chuàng)紀錄的 99%,折紙箱的速度更是飆到了以前的三倍(34s vs 12.1s)。
支撐起這些突破的,除了模型的重新設計,一套規(guī)模龐大的數(shù)據(jù)底座同樣功不可沒:超過 50 萬小時的真實物理交互數(shù)據(jù),它們通過可穿戴設備采集而來。
![]()
GEN-1 的成功說明了一點:過去數(shù)年,大語言模型的 Scaling Law 建立在幾乎取之不盡的互聯(lián)網(wǎng)數(shù)據(jù)之上;而如今,具身智能的 Scaling Law 正越來越依賴對真實世界交互數(shù)據(jù)的獲取、構建與高效利用。
與文本、圖像、視頻等可復制、可擴展、低成本的互聯(lián)網(wǎng)數(shù)據(jù)不同,具身智能依賴的數(shù)據(jù)往往需要在真實設備與真實環(huán)境中產(chǎn)生,比如機器人的每一次抓取、移動、接觸與失敗,都是不可復用的物理交互。
在這一背景下,行業(yè)逐漸達成一個更清晰的判斷:數(shù)據(jù)采集成為制約具身智能發(fā)展的關鍵瓶頸,也是當前最難規(guī)模化突破的一環(huán)。面對「數(shù)據(jù)規(guī)模與多樣性不足、標注成本高昂、泛化能力薄弱」這幾大攔路虎,行業(yè)亟需破局。
就在今天,一家國產(chǎn)工業(yè)級人形機器人公司選擇從源頭重構數(shù)采體系,給出了另一種解法。
開普勒機器人正式發(fā)布「國內首個原生全感知力觸數(shù)采系統(tǒng)」,該方案打通了從底層力觸覺硬件采集、多模態(tài)數(shù)據(jù)處理,到頂層 VTLA(視覺 - 觸覺 - 語言 - 動作)大模型原生適配與全場景落地驗證的全鏈路閉環(huán),構建起了一套可持續(xù)擴展的數(shù)據(jù)引擎。
![]()
這套數(shù)采系統(tǒng)具備了明顯的「平臺化」特征,依托標準化的采集硬件、統(tǒng)一的數(shù)據(jù)結構以及與模型的原生適配,實現(xiàn)了跨任務、跨場景甚至跨機器人本體的數(shù)據(jù)復用。這意味著,數(shù)據(jù)不再是一次性消耗品,而是持續(xù)積累的生產(chǎn)資料。
在這樣的框架下,具身智能的范式也在悄然發(fā)生變化:從傳統(tǒng)上以視覺為主導的模仿學習(看著學),逐步走向了以力觸覺為核心的全感知物理交互(在接觸中理解世界)。從更長遠來看,這套數(shù)采系統(tǒng)有望成為未來人形機器人邁向全感知智能體的重要基礎設施。
數(shù)采體系以及具身大模型范式上的創(chuàng)新為開普勒在資本市場上贏得了更多青睞。就在近日,開普勒拿到了「億元級 A++ 輪融資」,并官宣公司戰(zhàn)略重大升級,將全面聚焦「具身智能大腦建設」與「力觸覺數(shù)據(jù)采集」核心賽道。
正如開普勒 CEO 宋華所說,「公司正加速向智能大腦升級,強化數(shù)據(jù)與模型能力,持續(xù)提升機器人在復雜工業(yè)場景中的落地效率與作業(yè)精度。」
具身數(shù)據(jù),「不破不立」
具身智能的上限,歸根結底取決于對真實物理世界的理解。這種理解無法憑空獲得,建立在海量的數(shù)據(jù)之上。這使得數(shù)據(jù)成為整個系統(tǒng)能否持續(xù)進化的地基。當這層地基無法支撐起更復雜的能力演進時,我們就需要重新審視甚至推倒重來。
先看數(shù)據(jù)本身
現(xiàn)在用得最多的,還是視覺數(shù)據(jù)和仿真數(shù)據(jù)。但是,這兩類數(shù)據(jù)都有明顯短板。視覺只能「看」,感知不到接觸和受力狀態(tài),在抓取、裝配這些精細操作中天然有盲區(qū);仿真數(shù)據(jù)又太干凈,和真實工廠的復雜環(huán)境差得很遠。一旦進到真實場景,模型表現(xiàn)往往會明顯下滑,在工業(yè)場景的泛化成功率僅為 25%-30%。
再看數(shù)采路徑
過去一段時間,不少團隊走的是「多場景鋪開」的橫向數(shù)采思路,想一口氣覆蓋家庭、服務、工業(yè)等各種場景,做出通用能力。然而,落到工業(yè)場景,這條路往往走不通,原因是多方面的:數(shù)據(jù)太散、針對性太弱;與真實產(chǎn)線的需求對不上;投入很大,轉化很有限,橫向數(shù)采的工業(yè)場景 ROI 低至 15%。
最后是數(shù)采方式
當前很多數(shù)據(jù)還是靠人工遙操作一點點采,單采集員單日僅能采集 100 條有效數(shù)據(jù),效率低且成本高;不同項目之間的標準也不統(tǒng)一,數(shù)據(jù)很難復用。看起來每個項目都在積累數(shù)據(jù),但形不成一個可以持續(xù)產(chǎn)出的數(shù)據(jù)體系,模型也就很難滾動迭代起來。
以上幾個問題疊加在一起,就導致了今天的局面:數(shù)據(jù)既不夠多,也不夠好。
更關鍵的是,這并不能通過「繼續(xù)堆數(shù)據(jù)」就能解決,而是要從數(shù)據(jù)生產(chǎn)本身找問題:感知維度單一、采集效率低、與真實場景脫節(jié),導致現(xiàn)有體系無法滿足大規(guī)模擴展的需求。
光「看見」還不夠,更要全方位「觸碰」
在重打數(shù)據(jù)這層地基的過程中,每一個環(huán)節(jié)都有必要進行重構。尤其是在感知維度上,過去以視覺為主的數(shù)據(jù)所帶來的信息缺失,使得模型難以全方位理解復雜物理交互的關鍵細節(jié)
視覺可以告訴機器人「東西在哪兒、長得什么樣」,但是一旦進入真實操作,很多關鍵問題是看不見的,比如有沒有接觸、接觸是否穩(wěn)定、力度是否合適。特別是在遮擋、反光、柔性物體或者復雜裝配的場景里,只靠視覺往往很難把動作做穩(wěn)。
觸覺和六維力的引入正好可以補上這些短板。我們先來了解下什么是六維力?它可以理解為機器人在接觸過程中感受到的完整受力狀態(tài),包括三軸方向上的力(F_x、F_y、F_z)和繞三個軸的力矩(M_x、M_y、M_z)。前者描述「被推 / 拉了多少」,后者描述「被擰 / 扭了多少」。
不同于視覺,觸覺和力反饋直接作用在接觸過程中,持續(xù)提供壓力、摩擦和受力方向等信息,讓機器人在操作時一邊執(zhí)行、一邊修正,「邊做邊感受」。
在此基礎上,力反饋改變了機器人的控制方式。以往,機器人基本是按預設軌跡執(zhí)行,換個環(huán)境就容易出錯;有了六維力數(shù)據(jù)之后,動作可以根據(jù)接觸狀態(tài)隨時調整。
更進一步的變化體現(xiàn)在了學習層面。以視覺主導的模仿學習大多只記錄怎么動,不關心怎么用力,結果就是動作可以復現(xiàn),一旦環(huán)境變了就容易失敗。加入觸覺和力數(shù)據(jù)之后,模型不僅能學習軌跡,還能學得什么時候接觸、用多大力、怎么調整。這些本來隱含在操作里的經(jīng)驗,開始被顯式建模。
得益于此,在多材質抓取、精密裝配這類接觸密集的任務中,模型的穩(wěn)定性與成功率通常會有顯著提升。
觸覺和六維力數(shù)據(jù)帶來的不只是性能的提升,更讓機器人改變了參與物理世界的方式。從「只會看」到「可以觸」,再到「理解接觸過程中的力與交互反饋」,這種轉變才是具身智能走向實際應用的關鍵。
圍繞這一點,開普勒搭建了一套全感知數(shù)據(jù)采集系統(tǒng),將視覺、力覺、觸覺、語言和動作這些多模態(tài)數(shù)據(jù),放在了同一套流程里同步采集并統(tǒng)一對齊
在這樣的數(shù)據(jù)底座之上,機器人學到了更完整的操作過程,不僅清楚如何運動,也能理解「何時接觸、用多大力以及如何動態(tài)調整」。
![]()
既要精,又要量,「雙路徑數(shù)采」并行
面對具身智能在數(shù)據(jù)本身、數(shù)采方式等方面存在的局限,開普勒亮出了一套「以力觸覺為核心的全感知數(shù)采系統(tǒng)」,從數(shù)據(jù)生產(chǎn)源頭著手優(yōu)化。
本質上來講,開普勒不是圍繞單一路徑做優(yōu)化,創(chuàng)造性地將數(shù)據(jù)采集拆分為兩條互補的路徑:一條做精,追求高保真數(shù)據(jù);另一條做量,追求規(guī)模化與全場景數(shù)據(jù)。
兩條路徑并行推進,在精度與規(guī)模之間建立平衡,為機器人的復雜操作能力與模型泛化能力提供穩(wěn)定的數(shù)據(jù)基礎。
做精的關鍵在于「雙向遙操作閉環(huán)采集路徑」,包含力反饋外骨骼、觸覺反饋手套以及機器人端高分辨率觸覺傳感器等核心硬件。采集到的高保真多模態(tài)數(shù)據(jù),構成了支撐精密工業(yè)場景中高精度操作的關鍵數(shù)據(jù)來源。
流程是這樣的:首先操作員戴上力反饋外骨骼和觸覺手套,手部動作被捕獲并映射到機器人;接著機器人通過手部搭載的高分辨率觸覺傳感器,實時檢測接觸時的力、滑動和狀態(tài)變化,這些觸覺數(shù)據(jù)在被轉換為振動、阻力等可感知反饋之后回傳給操作員;最后操作員根據(jù)觸覺反饋動態(tài)調整操作。
整個過程形成了一個完整的雙向反饋回路:人做動作,機器人執(zhí)行,觸覺和受力信息反饋回來,人再根據(jù)這些信息微調動作。
這樣采下來的數(shù)據(jù)在真實接觸中不斷修正,精度高、細節(jié)全,數(shù)據(jù)保真度高達 99%。
與此同時,像延遲、噪聲問題,也能通過本地部署、低延遲通信和傳感器補償?shù)仁侄蝸斫鉀Q,保證鏈路能穩(wěn)定跑起來,將延遲控制在毫秒級,噪聲誤差降低至 1% 以下。
![]()
做量的關鍵在于「類 UMI 的人類示范采集路徑」,其核心硬件是集成高密度觸覺傳感器的手套。用一句話來總結整體思路:將數(shù)據(jù)采集從依賴成本高昂、數(shù)量有限的機器人本體轉移到依賴人本身,從而降低成本并提升采集效率。
相較于做精的高保真數(shù)采路徑,這一路徑在流程上更為簡化:采集員戴上觸覺手套,在真實環(huán)境里完成各類操作任務,系統(tǒng)同步將視覺信息、手部關節(jié)角度、觸覺壓力陣列以及肌肉運動等多模態(tài)數(shù)據(jù)記錄下來,再通過算法映射到目標機器人的運動學模型中。
圍繞過程中可能出現(xiàn)的一些痛點問題,同樣給出了應對方案:
針對人手與機器人之間的形態(tài)差異,引入多機型目標映射算法與策略蒸餾技術,使一套數(shù)據(jù)能夠在數(shù)十種機器人本體之間復用;針對第一人稱視角容易被遮擋的問題,通過頭部與腕部多視角相機融合,補全視覺盲區(qū),進一步提升數(shù)據(jù)的完整性與可用性。
這條路徑不依賴真機,成本低、速度快,可以很快把數(shù)據(jù)量堆起來,覆蓋的場景也更廣。
兩條路徑放在一起來看,其實是在解決同一件事的兩個面:前者保證數(shù)據(jù)足夠精,支撐起復雜工業(yè)任務;后者保證數(shù)據(jù)量足夠大,能夠應對更多情況。
最終,開普勒構建了一套兼顧深度與廣度的數(shù)采系統(tǒng),為 VTLA 全感知模型的訓練提供了有質有量的數(shù)據(jù)根基。
觸覺加入,VTLA 開啟「全感知」范式
開普勒的雙路徑數(shù)采方案解決了「數(shù)據(jù)如何高效生產(chǎn)」的問題,接下來的關鍵是:如何將這些數(shù)據(jù)有效地應用于模型,轉化為實際操作能力。同時隨著力觸覺數(shù)據(jù)的引入,傳統(tǒng) VLA 模型架構也發(fā)生了變化。
在這一背景下,開普勒推出了 VTLA 全感知大模型,在國內首次將觸覺模態(tài)提升到了與視覺、語言、動作同等重要的地位
傳統(tǒng) VLA(視覺 - 語言 - 動作)模型主要依賴視覺和語言來理解環(huán)境,再去生成動作。在此基礎上,VTLA 加入力觸覺,讓模型在感知與決策過程中同時處理接觸與受力信息,為復雜物理交互提供更完整的建模基礎。
看起來只是多了一個模態(tài),但帶來的變化很直接:機器人不只是判斷該怎么做,也能在執(zhí)行過程中不斷校正做得對不對。
具體實現(xiàn)上,VTLA 模型更傾向于把視覺、觸覺、語言、關節(jié)狀態(tài)這些數(shù)據(jù)放在同一套體系里處理,包括多視角 RGB-D 數(shù)據(jù)、語言指令、本體 / 關節(jié)狀態(tài)、觸覺 / 力數(shù)據(jù)(壓力分布、力矢量、滑移事件等),不再由不同模塊分開處理,而是統(tǒng)一編碼后一起進入模型,由同一套網(wǎng)絡端到端輸出控制指令。
其次對數(shù)據(jù)的依賴也發(fā)生了變化。相比過去主要依賴視覺數(shù)據(jù),VTLA 模型需要大量包含接觸、受力和操作細節(jié)的多模態(tài)數(shù)據(jù)。因此,力反饋外骨骼、觸覺手套這些采集設備提供的數(shù)據(jù)變得尤為重要,它們決定了操作成敗與否。
此外在訓練上,VTLA 模型通常會借助已有的視覺語言模型(VLM)做基礎,再結合仿真數(shù)據(jù)、真實數(shù)據(jù)以及人類視頻等多種來源提高效率。在評估上,關注點同樣發(fā)生變化,從只看「任務做沒做成」到更看重過程,比如抓取是否穩(wěn)定、精度是否足夠、面對新物體能否保持表現(xiàn),以及復雜環(huán)境下是否依然可靠。
力觸覺補上了具身智能長期以來最缺的一環(huán),即對接觸過程與物理交互的理解,使其更接近真實世界中的可用狀態(tài)。
![]()
整體來看,開普勒沒有選擇集中某一個點做優(yōu)化,而是把行業(yè)里幾個長期存在的系統(tǒng)性問題,包括人采數(shù)據(jù)和機器人使用之間的錯位、硬件不統(tǒng)一帶來的重復成本以及數(shù)據(jù)質量和規(guī)模之間失衡,逐一從頭理順。
一套方案走下來,包括力觸覺在內的全感知數(shù)據(jù)逐步具備了「可用、可復用、可持續(xù)生產(chǎn)」的能力。
目前,開普勒一方面繼續(xù)夯實數(shù)采系統(tǒng)采集的「指尖點陣壓力分布 + 三軸力 + 三軸力矩」全維度力覺數(shù)據(jù),另一方面持續(xù)深化 VTLA 原生多模態(tài)融合能力,在精密裝配、多材質抓取以及復雜環(huán)境的精細操作中,實現(xiàn)了遠超以視覺為主的傳統(tǒng) VLA 方案的穩(wěn)定性、成功率與泛化表現(xiàn)。
在真實產(chǎn)線中,這些能力也得到了驗證。在某汽車工廠產(chǎn)線的實測中,依托力觸覺全感知數(shù)據(jù)的 VTLA 模型連續(xù)完成 1000 次高精度裝配操作,成功率達到 99.4%,較純視覺模型提升 19.4 %,且全程無需人工干預,極大地降低了返工率與人工成本。
![]()
可以說,開普勒為當前具身智能在工業(yè)場景的規(guī)模化落地提供了更現(xiàn)實的解法。一定程度上,這也是具身智能從實驗室階段走向工程階段的一個明顯信號。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.