![]()
作者 | 鄭敏芳 編輯 | 松壑
一場關于具身智能的“數據暗戰”正在悄然打響。
今年 1 月,湖北人形機器人創新中心向智元機器人交付了數千小時的訓練數據,完成了國內首例定制化人形機器人數據交易。
行業巨頭方面,京東日前喊出了建成全球規模最大、場景最全的具身智能數據采集中心的口號,計劃動員超10萬內部員工及最多50萬外部人員,開啟一場史無前例的“人海戰術”。
視線轉向海外,韓國機器人公司 Robotis 于今年 1 月在烏茲別克斯坦設立子公司,計劃在一塊 11 萬平方米的土地上建起一座巨大的“數據工廠”,用于收集機器人行為數據。
按小時計費的定制化交易、數十萬人的大動員、遠赴中亞建廠,這一系列舉措都折射出整個具身智能行業沉重的“數據焦慮”。
與在互聯網語料中成長的大語言模型不同,具身智能需要理解世界并與真實世界進行交互,這對數據的真實性、模態等都提出了更高的要求。
這也是原力靈機創始人兼CEO唐文斌當下正在攻堅的難題之一。
回溯履歷,唐文斌更為人熟知的身份是上一波AI浪潮中明星獨角獸曠視科技的聯合創始人兼CTO。
成立僅一年的原力靈機已經悄然吸金超10億元,拿下了阿里、蔚來、君聯、啟明等頭部機構的投資。
目前原力靈機已發布旗下首個具身原生大模型 DM0,并與華勤技術達成戰略合作,實現數據采集機器人 DOS?W1 的量產交付。
在經歷了上一波AI落地的洗禮后,唐文斌對行業有了更多的敬畏之心。
在日前與華爾街見聞·全天候科技的對話中,唐文斌分享了原力靈機的數據采集思路:不依賴單一來源,而是以“質量?數量?多樣性”的組合方式實施分布式采集,以此填滿機器人的能力空間。
對于通過世界模型生成數據,讓機器人能夠模仿學習的路線,唐文斌認為這條路難以走通,他指出更為可行的范式是將世界模型與VLA(視覺-語言-動作)模型相統一。即不僅能預測未來世界,還能據此反推出所需的精準動作。
當行業玩家們正以各自的方式瘋狂“囤積”數據糧草時,究竟哪種路線才能“笑到最后”,市場正在拭目以待。
以下是對話實錄。
一
詳細數據采集
全天候科技:能否分享你們的數據采集思路?
唐文斌:目前我們還是模仿加強化學習的方式。
模仿涉及數據分布的模擬。我們的目標是讓數據盡可能地填滿機器人的能力空間,見過足夠多的東西。核心在于識別未見過場景的處理能力,數據的價值便在于此,所以我們的數據采集是圍繞開放環境和實際場景展開。
但我們會希望數據保持高質量的同時,還能夠盡可能的填滿這個空間,所以我覺得數據是一個“質量?數量?多樣性”的組合問題。
全天候科技:那數據如何進行采集?
唐文斌:其實我們并不依賴某一種數據來源,這樣做也沒必要,基本上是一個組合模式。真機數據方面,主要通過各種經過校準的傳感器進行采集,具體包括類似外骨骼等,但確實采集成本會比較高。
同時,我們也會通過無本體和第一人稱視角收集數據,形成更大規模的數據集,這其實就是介于真機和合成數據的中間派了。
除此之外,還有采集成本更低的互聯網數據。
全天候科技:能否具體解釋無本體采集?
唐文斌:無本體的意思就是說它可能是一個手套或手持夾爪,沒有機械臂、機器人的身體,所以相當于就只是用了一個末端裝置。我記錄了這個末端裝置的大致位置和狀態,目前這種數據采集方式也被稱為UMI。
今天,我們討論的第一人稱視角數據也很多,例如通過眼鏡拍攝操作過程,這也是一種無本體的采集方式。
全天候科技:每個人的AI眼鏡數據都具有隱私性,應該沒有人愿意公開自己眼鏡的數據供采集。你們怎么解決這個問題?
唐文斌:確實,如果我作為眼鏡的用戶,我也不想把我的數據分享給大家。但是訓練的話,我們可以請一些第三方的數據采集員,通過日常佩戴眼鏡記錄工作流程,然后數據也會被記下來。
當然,我們也希望眼鏡本身的功能可以更加強大,比如有立體視覺、多目的能力。同時我們未來可能還會增加手環、手套的裝置用于采集數據。
所以整體來看我們采集的對象是多樣化的。第一類是機器人本身,可以遙控操作;第二類是類似于夾爪等的無本體,即“人的身體+機器人末端”的裝置;第三類是完全針對人體的采集;第四類則是對物理世界的描述。
全天候科技:例如在末端傳感器中,主要采集的是力的數據嗎?
唐文斌 :不只是力度,我們還是希望數據是多模態的,比如包括增加視角。
實操方面,因為手臂可能會遮擋部分數據,我們可以眼睛部位裝配一個相機,兩個手腕上也可能各有兩個相機,形成多視角的數據。
全天候科技:這種采集成本會很高嗎?
唐文斌:這其實就是一個數據質量、數量和多樣性的復雜問題。如果需要采集所有模塊的數據,成本將變得非常高昂。所以我們采用分布式的采集策略,有些數據我們會盡可能地保證其完整性,而有些數據為了降低成本、增加數量和提高速度,可能就不再那么注重完整性。
這是一個權衡的問題,我們擁有自己的采集工具,并且廣泛地與其他行業合作。
全天候科技:今年2月你們跟華勤技術合作推出了數據采集機器人,能否分享這款機器人的情況?
唐文斌:這款機器人主要是用在科研的場景,有點類似于ALOHA機器人的形態,同行也有在做這個。(注:ALOHA代表"A Low-cost Open-source Hardware system for bimanual teleOperation",是一種用于雙手遠程操作的低成本開源硬件系統)
但是目前市場的數據采集機器人存在兩大痛點,
一方面是可靠性,產品表現確實不盡如人意,例如頻繁故障會對科研工作產生負面影響,降低工作效率。
我們目前也無法確保產品的長時間穩定性,所以我們的改進點是簡化了修理過程,設計了模塊化可拆卸的產品結構。一旦某個部件損壞,用戶可以快速更換。例如很多地方的連接處都不是螺絲,是那種旋鈕,所以可能30秒就能修好了;
另一方面是成本仍然比較高,所以我們通過與華勤的合作設計了一款類似ALOHA的產品,支持主從、拖拽式操作。最核心就是修得快,價格便宜。(注:主從是指人通過操控主臂,實現對從臂的實時遠程控制,動作零延遲復刻,以此實現實現低成本、高精度的雙臂精細操作數據的采集。)
全天候科技:同行買過這個機器人去采集數據嗎?
唐文斌 :是的,其實行業的痛點還是比較一致的,所以其實大家都會買同行的產品回去搭配一起使用。
二
世界模型路線走不通
全天候科技:能不能聊一聊對世界模型和VLA的看法?
唐文斌:這里要區分兩點,就是理解世界和生成世界是不一樣的。
我們今天討論的大模型能力,大家普遍關注的是它們理解世界的能力。世界模型實際上是在嘗試預測未來,即預測下一幀可能會是什么樣子的,而VLA的實質是與世界交互。
這些模型具有共通性,但又能夠從不同的角度解決問題。
我們覺得最佳的策略是相結合。只有這樣,我們才能真正理解并生成內容,理解和與世界交互。
理論上來說,如果能夠預測未來世界,我們便能夠反向推斷出我們應該如何操作。而如果我們知道如何操作,那說明我們是能夠預測未來的發展。
所以我們現在的技術框架里世界模型跟VLA是統一的,就是我們希望一個模型既能夠理解這個世界,同時又能預測后續。
如此一來,模型不僅能執行動作,還能預測執行該動作后世界將如何變化。
全天候科技 :行業的技術框架是否和你們不同?
唐文斌:確實,目前一些公司主張僅使用世界模型。有觀點是認為通過世界模型生成數據,讓機器人能夠模仿學習,這樣就產生了一個無限的數據源。
但我自己覺得這條路是走不通的,因為如果世界模型已經實現了,那生成的問題就已經解決了,大家也不需要通過生成的數據再去訓練機器人了。
那另外一條路就是我們和很多同行會去做的,就是通過預測未來世界模型,然后根據這個模型反推出所需的動作,這種方法涉及到先預測未來的場景或世界狀態,再計算出相應的動作序列,這種范式其實就是我剛才講的相結合統一的模型框架。
全天候科技 :從場景上來說,由于當前工廠的產線自動化程度很高,機器人進廠打工會不會沒有用武之地?
唐文斌 :確實當前工廠的自動化解決方案已經相當成熟。但我們想去解決的是原來解決不了的問題,或者是原來解決起來成本很高的問題。
但其實大家看到的很多自動化產線對泛化性要求是沒有那么高的,即不需要對象、環境和任務的泛化。例如可能SKU就幾個,光照等外部環境條件已經過調節。
那當前解決不了的問題其實是對象多樣化,環境也隨時在變化,甚至可能會有很多不同的任務。
以物流場景為例,現在大家的機器人做的主要是搬運工作,但是沒有做好手上的操作,因為這對泛化性的要求很高。
例如你購買了一瓶可樂和一包薯片,操作員就會把可樂和薯片分別包裝好。由于商品種類繁多且環境條件不斷變化,這個其實就很難用自動化設備解決。
還有包裝的場景,以瓶裝沐浴露為例,我們收到產品時會發現瓶口部纏一圈塑料膜,這是為了防止沐浴露泄露。
實際操作過程中,目前通常是操作人員基于經驗,纏上保鮮膜再放入泡沫袋中,并在封口貼上標簽,這就沒辦法通過自動化設備來完成。
我們現在主要是在物流、工業上有做一些嘗試。
全天候科技:你們是傾向于在特定場景進行集中開發,還是想在多個場景同時鋪開?
唐文斌:這個要分兩頭講,觀察大模型的發展,尤其是當前最新的進展,可以發現一個共同的趨勢。如果我們現在只構建了一個垂直領域的模型,它是無法達到真正有泛化能力的模型,這是行不通的。
因此,從模型的角度來看,我們必須堅定地追求泛化性,追求更加通用的技術能力。
但從應用場景落地的角度來看,我們確實得一個一個場景去落地,逐一實現。
所以我們內部經常強調產品落地有兩點核心,首先,我們的解決方案必須能夠形成閉環,即解決客戶業務中的所有問題和異常情況,滿足所有流程需求。其次,我們需確保成本可控,讓客戶覺得合作劃算。
只有在滿足這兩個前提條件時,客戶才可能考慮規模化應用我們的產品。
所以我們每實施一個場景,都必須清晰地理解客戶價值,并確保這兩個要點都能得以實現。這是一個逐年下單的過程。
我們內部把這個過程描述為模型發展與應用落地之間的關系,它們之間存在45度夾角,即它們相關但并不絕對相關。
當然,我們的模型需要朝著那個通用方向發展。
三
對場景要有敬畏之心
全天候科技 :所以你們是主張通用機器人的路線嗎?
唐文斌:我個人認為模型具有通用性,但硬件很難實現。
其實我們的雙手非常靈活,一只可以執行精細操作,同時也能舉起20斤的重物,甚至更厲害還能舉起50斤的重物。
但是受到物理學和材料學的限制,能夠舉起2公斤商品的機械臂和能舉起20公斤重物的機械臂肯定不同,因為它們的功率密度不同。
所以我們認為如果你采用一個通用的設計并應用到具體場景中,很容易發現這是欠設計或者過設計。
欠設計就是可能重量限制無法通過,或者是傳感器的安裝空間過于狹窄,導致無法解決問題;可能恰好能搞定,但這可能過度設計了,價格就會變得很高。
以輪式雙臂為例,當重心較高時,它跑得更快。但一旦速度起來,它就很難停下來,否則就會摔倒。
這時我們可能會發現,在某些場景中,靜止不動可能是一個更優的選擇,讓移動的車輛將物品送過來。
因此,可能在這些場合會存在過度設計的問題。
我們的內部邏輯是讓模型具有通用性,并且能夠適應不同的硬件平臺。
全天候科技 :所以現在投資人比較看重你們的能力是模型?
唐文斌:對,我們團隊的獨特之處在于不僅從事機器人場景的研發,而且深入理解模型。我們在曠視的物流領域積累了豐富的經驗,并且具備一定的規模,因此對產品有較深的理解,同時我們擁有一群專注于模型優化的專業人士。
全天候科技:因為很多可能某一個行業內的公司對于本行業的需求會比較了解,但你們是模型業務起家,會不會對場景需求的了解程度比較弱?
唐文斌:其實之前我們在曠視的時候就做了很多的場景了,所以我覺得我們還算是一幫被教育過的人。
這其實是心態問題,其實機器人行業是需要兩撥人,一波人更懂技術,一波人更懂場景,我們其實是站在中間的人。
其實光搞技術的人會對場景做很多的假設,他覺得不就是這些。但真實場景中的魔鬼隱藏在細節之中。例如當出現問題時,生產流程不能停,因此必須有完善的異常處理流程。
因此,技術工作的人必須對場景懷有敬畏之心。
但行業的人也有很多問題,我們歷史上就是很多同事對技術上會有兩種狀態,一開始覺得技術無所不能,一旦涉及到AI智能,他們就會期望你能解決所有問題。然而當他們發現某些問題無法解決時,就會感到極度失望,進而選擇回歸到傳統的、基于規則的方法。
但今天模型的發展其實既不是能達到無所不能,也不是什么都不行,是在一個中間階段,并且斜率很高,處于快速發展狀態。
所以我們非常需要能夠既對場景有判斷,理解算法及其發展速度的人。同時,也需要有人來設計應該如何著手解決當前的問題,讓項目盡快啟動。
我們今天所從事的所有工作實質上都是在滿足需求。我們肯定會有自己視野上的局限。
所以我主張廣泛學習和多角度觀察,但我們也應有自己判斷的標準,選擇那些能夠持續生存下來的場景。
全天候科技:那你們怎么定位自己的目標客群呢?是機器人公司,還是場景應用方?
唐文斌 :其實還是場景應用方。
坦白說,無論是國內還是國外的同行,大家所使用的模型都不太成熟。因此今天大家并沒有達到將模型直接部署到機器人公司的設備上,經過簡單訓練后就能使用的狀態。
我認為在模型尚未成熟的情況下,要實現場景落地應用,垂直整合是必要的。
如果我們自身都搞不定這個場景,卻期望合作伙伴和客戶能夠解決,這無疑是美好的幻想。我相信有朝一日,我們可能自己做了一些垂直的場景,而可能更多的場景可以通過開放平臺的方式,與我們的合作伙伴一起完成。他們既可以用我們的硬件,也可以只用我們的大腦,去自主探索更多可能性。
全天候科技:所以這是你們對模型開源的原因,就是希望更多人能加入進來?
唐文斌:開源有兩方面的考慮。首先我們希望更多人使用我們的框架和模型,這樣大家可以共同探索更多應用場景并推動技術的落地。其次,盡管當前行業熱度很高,但整體模型的成熟度仍處于初級階段,促進相互交流和進步至關重要。
全天候科技:你之前提到2026年的核心目標是每個場景部署1000臺可持續運轉的設備,能否分享一下這個目標完成的情況?
唐文斌:這可能要到下半年才能實現持續運行。目前我們還在進行POC測試。
我們對自有場景實現批量化的潛力還是很有信心的。
其實要讓機器人能夠持續運行,必須找到容錯環節。坦白說,當前模型驅動的方法還無法做到百分之百的準確率。
如果任務失敗怎么辦?這個問題必須有答案。我們需要探討通過什么種方式接管任務,讓失敗的任務能夠被恢復。同時我們還需評估這種失敗對企業的影響,判斷這種影響是否可接受。
在采取了兜底方案之后,我們還需要確認整個系統的ROI。
全天候科技:說到ROI的話,那客戶會直接提出說你們可以幫助產線節約多少錢嗎?
唐文斌:客戶通常會直接問我們能多久回本。
如果一個項目需要超過五年才能回本,那就不用做了。
如果預計兩到三年內就能回本,那就是立馬干。在當前的B2B環境中,我們大多數決策都是基于理性的分析,算清到底能為客戶提升多少效率。比如機器人能夠延長某些生產環節的運作時間,更高效地利用現有設備,為客戶帶來價值。
全天候科技 :能否劇透后續的模型更新情況?
唐文斌:今年我們的核心議題將集中在泛化性上。
全天候科技:去年才創業來做具身智能的模型,你覺得會不會太晚了?
唐文斌:其實在很多年前我們就很想做一個通用機器人了,當時我們覺得技術上不成熟。但是隨著DeepSeek等大模型的發展后,確實讓我對這件事變得更有信心了。
全天候科技:如果讓你給2026年具身智能行業1個關鍵詞,你覺得會是什么?
唐文斌:我想給2個關鍵詞,一是模型能力的提升,二是場景的持續運行。
我認為當前的模型還處于早期階段,但發展速度很快,所以我們要努力提升模型的算法能力,包括在對象、環境適應性和任務泛化性上都有所提升,模型的泛化能力是至關重要的。其次,關于場景的應用,我認為單純的POC沒太大意義,它只是一個起點,重點在于如何在實際場景中持續運行,今年確實已經到時候了。
*本文為全天候科技原創作品,未經授權不得轉載,如需轉載,請在后臺回復“轉載”二字,獲取轉載格式要求。
![]()
![]()
點“在看”,變好看哦。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.