網易首頁 > 網易號 > 正文申請入駐

靈初智能王啟斌：花一年把數據成本打下來，比做人形機器人更重要

2026-03-12 19:52:47　來源: 機器人大講堂

安徽舉報

分享至

近日，靈初智能宣布完成天使輪及Pre-A輪融資，合計20億元，由國家級國資資本與核心產業資本共同注資。

天使輪由國開金融、國中資本、央視融媒體產業投資基金等國家級“國家隊”資本，某數千億上市公司旗下戰投、長飛光纖旗下基金，兩大核心產業龍頭資本，沃德爾等知名產業資本，及元生創投、珠海科技產業集團、鈞山投資、燕緣創投、大米資本、沃賦資本、彬復資本、泰合資本等多家知名基金共同投資。

Pre-A輪由上海國資徐匯資本等基金領投，梁溪科創產業二期母基金(博華資本管理)、錫創投等地方國資，及普豐資本、鈦銘資本等市場化基金跟投，多家老股東實現超額跟投。華興資本擔任長期財務顧問。本輪融資將加速靈初智能在物流場景的規模化落地與數據采集體系建設。

在資本熱潮之外，更值得關注的是這家公司對自身戰略的清晰定位。“靈初不是一個典型的做硬件的公司，我們是一個模型公司。”

這家由前云跡科技、京東算法團隊核心成員創立的公司，從成立之初就選擇了一條略顯“反常識”的路徑：不做核心零部件，不碰移動底盤，甚至不急于打造完整的雙足人形機器人。他們瞄準的方向是“操作”，更準確地說，是通用靈巧操作。

“從2015年前后興起的第一波配送機器人熱潮開始，行業就始終沒能攻克‘手’上的操作難題，”王啟斌說。

在長達一小時的采訪中，王啟斌系統闡述了靈初智能在數據采集、硬件邊界、場景落地與商業化節奏上的核心判斷。在他看來，具身智能正處于一個需要“冷啟動”的關鍵階段，而破局的關鍵，正是高質量、低成本的人類操作數據。

01.

數據的“冷啟動”難題：為什么不能復制特斯拉模式？

談及硬件，王啟斌的回答顯得有些“非典型”。他坦言，目前無論是靈巧手還是關節模組，都遠未達到大規模工業應用（如百萬次壽命）的水平。“大家都在瘋狂迭代，”他說，“硬件到底是多少自由度，其實是由模型的能力和數據的需要在定義的。”

基于此判斷，靈初智能的策略十分清晰：不做核心零部件，只做必須做的硬件——數據采集設備。

王啟斌將當前的具身智能行業困境總結為“冷啟動難題”。他類比了特斯拉的FSD（全自動駕駛）模式：“特斯拉的啟動是因為Model 3在2017年發售后，很快做到了百萬臺的年銷量，底層數據回流，讓FSD快速迭代。但具身智能最大的難題是：數據從哪里來？”

這是一個典型的“雞生蛋”問題：因為缺乏數據，模型無法泛化，導致機器人無法大規模部署；因為無法部署，低成本的真實世界數據又回不來。而仿真數據的Gap（差距）太大，無法直接用于訓練泛化模型。

因此，靈初智能選擇的第一個戰場，既不是雙足 locomotion，也不是關節模組的性能競賽，而是數據基建。

02.

不是UMI，是“人類多模態數據”

去年，UC Berkeley提出的UMI（Universal Manipulation Interface）范式在全球引發關注，其核心思路是用低成本的人持夾爪采集數據。但這條路徑也有其局限性，UMI采集的不是人類數據，是人帶了一個和機器人一模一樣的夾爪，這個數據無法泛化到一個五指靈巧手上。

靈初智能的選擇是回歸“人本”采集人類的操作數據。其推出的“靈初數據采集引擎”并非簡單的數據手套，而是一個集成了視覺（多視角）、觸覺（壓阻/電容）、21個關節角信息的復雜系統。

這種思路的差異決定了后續模型的泛化能力上限。靈初智能的方案首先學習的是人類操作本身的底層邏輯。在此基礎上，模型再通過“重定向”（retargeting）技術，將人類操作意圖映射到不同結構、不同自由度的機器人本體上。這意味著，只要預訓練模型對人類操作的理解足夠深刻，它就能適應多種硬件形態，而非被鎖定在某一種特定的機械構型之中。

這套方案的成本優勢同樣顯著。據透露，這套數據采集設備的硬件投入成本僅為真機遙操作方案的十分之一。今年3月之后，他們還將推出可攜帶的便攜式版本，目標是讓數據采集成本再降一個量級，甚至未來通過“眾包”模式，讓普通人在工作和生活中佩戴手套采集數據，實現去中心化的數據回流。

“成本只能保證數據大規模Scaling，并不能保證模型能訓練出效果。如何把高信噪比的數據訓進模型，這才是靈初的核心競爭力。”

03.

物流場景的真相：遠比“Pick and Place”復雜

在商業化落地的選擇上，靈初智能扎進了物流場景，但切口極為具體：衣服供包、入箱揀選、分撥墻。這些聽起來并不性感的場景，在靈初智能看來卻是當下模型能力的“試金石”。

“物流遠遠比pick and place復雜，”他舉了商超補貨的例子，“商超補貨，要把一箱東西拆開，拿出來放到容器里，推到貨架，放上去，還要理貨+ 。往掛鉤上掛東西，開冰箱門補飲品，還要把過期的拿出來。這是十幾個動作的序列。”

目前外界對于機器人物流的難度存在嚴重低估。很多人認為物流機器人只需要完成簡單的“抓取-放置”動作，但實際場景中，物品的形態千差萬別：從軟塌塌的衣物、易滾動的瓶罐，到不規則的包裹、堆疊的紙箱，每一種物品都對機器人的感知、規劃和操作精度提出了極高要求。

這個任務背后，是對視覺識別、柔性抓取、軌跡規劃、力控的綜合性挑戰。據透露，靈初智能目前在衣服供包場景的節拍已經做到800 UPH（Units Per Hour），作為國內最高水平已經進入客戶現場陪產階段。

04.

技術管線：從預訓練到后訓練的完整閉環

面對外界對于“模型碎片化”和“場景泛化邊界”的擔憂，Viktor詳細拆解了靈初智能的完整技術管線，將其類比為大語言模型的訓練過程：

預訓練（Pre-training）：利用數據手套大規模采集長程、多任務的人類操作數據。這一步相當于培養一個“中學生”，他的知識面很廣（泛化性強），但在任何具體任務上都不夠精專。

后訓練（Post-training/Teleop）：在選定落地的真機上，進行少量（約100小時級）的遙操作數據采集。這一步讓模型適配特定機型的“身體”結構。

真機強化（RL fine-tuning）：通過強化學習提升任務的成功率和節拍。

端側推理與糾錯（Inference & Correction）：在真實部署中，遇到無法自動恢復的Corner Case，由人工介入糾錯，這些數據再回流到模型中進行迭代。

預訓練數據決定了泛化能力的廣度，后訓練與強化數據決定了具體場景下的性能高度。越往后的數據質量越高，但泛化性越窄。這種分層的數據體系與模型迭代路徑，確保靈初智能既不會因聚焦具體場景而失去通用性，也不會因追求泛化而無法落地。

05.

十年長周期，數據是當前主旋律

對于具身智能的整體發展階段，靈初智能認為這是一個長達十年的長周期賽道，目前仍處于Gartner曲線的早期。硬件百花齊放的第一波浪潮已經過去，當前正迎來第二波——數據浪潮。

他認為，數據本身需要成為一種可持續的商業模式，才能真正推動行業向前發展。在這一階段，靈初智能的目標非常明確：2026年，公司將把真實世界的人類操作數據規模提升至百萬小時級別，并基于此訓練出一個高度泛化的預訓練模型。相應的，公司也將圍繞數據采集設備的銷售、數據資產的變現以及場景解決方案的交付，建立多元化的商業模式。

當外界聚焦于人形機器人的外在形態與雙足運動時，靈初智能選擇了一條更具長期價值的務實路徑：回歸數據源頭，致力于將“教機器人操作”的成本降下來。這或許不是一個性感的敘事，但在通往通用具身智能的路上，誰掌握了數據的低成本供給，誰就可能握有未來的入場券。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.