文|任倩
具身數據層的全球競賽正在迅速升溫。NVIDIA Research在2026年發布EgoScale數據與訓練框架,在Ego-centric人類操作視頻上訓練VLA模型,用 20,854小時帶動作標注的第一人稱人類視頻,觀察到數據規模和驗證損失之間接近對數線性的scaling law。1X收集人類第一視角及家庭行為數據,通過 Sunday項目采集百萬小時級家庭場景視頻。光輪智能采用仿真合成數據和人類視頻數據(EgoSuite)的混合路線,宣稱累計交付突破100萬小時,估值飆向十億美金。
幾個月內,行業關注點已不再只是“誰采得更多”,而是“誰能把Human-centric /Ego-centric數據真正做成高自由度、高精度、低成本、可訓練的資產”。
這背后是一場明確的數據范式遷移。過去一年,全球頭部玩家幾乎同時把目光轉向Human-centric data:不是更大規模的第三人稱素材,也不只是昂貴而稀缺的真機遙操作,而是更接近人類真實操作分布的數據。而其中Ego-centric——以人類第一視角、真實物理交互和多模態感知為核心——正迅速成為最關鍵的一條采集路線。
原因在于,機器人最終要學會的,不是看懂世界,而是在真實物理世界里把動作做對。第三人稱視頻缺少接觸與控制細節,仿真難以完整覆蓋真實物理長尾,純遙操數據又昂貴且稀缺。真正稀缺的,是一種既足夠真實、又足夠精細,同時還能被規模化生產并被模型直接消化的數據。就在這一拐點上,一家選擇從多模態融合與穿戴式高精度采集切入這一難點的公司,開始浮出水面。
「暗涌Waves」獨家獲悉,聚焦Ego-centric數據采集的創業公司星憶科技完成千萬級首輪融資,由清華系水木創投領投,泉士資本作為孵化方長期為公司提供產業及資本支持,并參與本輪投資;神州通譽系鑰卓資本、資深產業天使團隊等跟投。Maple Pledge楓承資本長期出任公司私募股權融資顧問。
星憶科技孵化自清華大學計算機系,創始人宋知珩曾任智元機器人全尺寸雙足人形整機產品負責人,并負責相關數采與遙操體系建設;在此之前,他是鎂伽機器人前20號員工,建立創新應用事業部并擔任產品負責人,帶領研發團隊五次完成0到1新產品開發,牽頭研發從雙臂協作機器人到桌面級智能設備,實現公司首個萬臺量產與過億營收。
如果說human-centric/ego-centric數據正在成為具身智能的新地基,那么星憶最突出的地方,不只是押中了方向,而是它恰好把這一方向最難接齊的幾段鏈路放進了同一個組織里。其核心成員覆蓋具身數據、模型、穿戴設備、復雜系統與數據工程等關鍵環節,形成了“數據—模型—產品—商業化”齊接的能力結構。
團隊技術班底來自清華、北航等高校,同時吸納了埃夫特、海康威視等資深產業專家,在具身智能、多模態感知、三維手部理解、虛擬現實、人機交互與計算機視覺等方向均有長期研究,累計在CVPR、ICCV、ECCV、NeurIPS、IJCAI等國際頂級會議和期刊發表論文70余篇,承擔多項國家級科研項目。
對標英偉達EgoScale技術路徑,星憶構建的是面向具身智能與世界模型的數據采集軟硬件體系。其差異化在于:不做二指夾爪式UMI路線,而是做高自由度基礎上的高精度;不只采集視覺,而是同時融合視覺、觸覺與姿態;不只提供工具,而是試圖打通從采集到訓練的完整閉環。
宋知珩認為,真正有價值的真機數據,不是誰采得多,而是誰能同時滿足五個條件:真實、精準、高自由度、低成本、可訓練。在他看來,星憶當前最突出的優勢集中在精度與自由度兩端,而低成本與可訓練性則決定這條路線能否真正走向規模化。
前不久,「暗涌Waves」在北京中關村見到了宋知珩和星憶自研的多模態數據采集穿戴設備,他和我們聊了聊數據集采技術路線的根本分歧、毫米級姿態標注的難點以及從數據供應商到物理世界接口的漫漫長路。
以下為對話——
Part01
從采得多到采得準
「暗涌」:做數據的公司非常多,也有融資體量比你們大很多的,星憶科技的定位是什么?
宋知珩:我們是具身智能的物理數據基礎設施。通過自研的高精度穿戴設備與數據引擎,將人類精巧的“生產力經驗”轉化為機器人可學習的“數字養料”。
核心只有一件事:讓機器人具備在真實復雜的世界中完成精細操作的能力。不是讓機器人跳舞,而是讓它能像外科醫生一樣握穩手術刀。
「暗涌」:為什么選擇在此時此刻、從數據這個環節切入創業?你在智元看到了什么?
宋知珩:我在智元擔任全尺寸雙足人形整機產品負責人,也負責數采與遙操。我們能夠清晰地看到,整個行業賣得最多的場景仍然是展廳、商演、科研、數采,很難形成可復制的生產力閉環。
核心卡點就是高質量的真實數據不足:模型既缺少對物理世界的有效表征,也缺少可遷移的操作先驗,而我們做的,就是補這一層。從外部看,我們是對標EgoScale;從我們內部看,這是很早就形成的一條判斷:具身智能最終缺的,不只是模型和本體,關鍵是建立最高效的數據路徑。英偉達把這條路線公開做熱,也說明這正在成為行業共識。
「暗涌」:為什么EgoScale這么火爆?為什么具身本體公司都在積極關注這條技術路線?EgoScale框架到底特別在哪里,突破點又是什么?
宋知珩:EgoScale之所以迅速走紅,核心在于它驗證了一條非常有吸引力的路徑:通過超大規模的人類第一視角數據,實現從人類行為到機器人操作能力的高效遷移。這件事對具身智能非常重要,因為過去機器人訓練長期受限于真機數據昂貴、采集慢、覆蓋場景有限,始終難以真正做大規模。
EgoScale的突破,在于它不是簡單堆數據,而是構建了一套更系統的訓練框架。通過分階段訓練,它先從海量人類第一視角操作數據中學習通用的行為先驗,再進一步向機器人動作空間遷移,顯著提升了機器人在靈巧操作任務中的成功率。這樣的設計,使它有機會突破傳統“小樣本、重遙操作、強依賴本體數據”的限制。
更關鍵的是,這條路線天然適配具身行業當前最核心的訴求:一方面,人類數據比機器人數據更容易規模化獲取;另一方面,這種框架對于不同形態、不同自由度的機器人本體都具備較強的泛化潛力。對于本體公司來說,誰能更高效地獲得可遷移、可擴展、可復用的數據和訓練范式,誰就更有機會在下一階段的能力競爭中占據先機。這也是為什么整個行業都在高度關注EgoScale。
「暗涌」:你們和EgoScale有區別嗎?在哪里?
宋知珩:有的,我們不僅有更多的模態,觸覺對于精細操作是必不可少的,同時我們對場景有著更高的兼容性,不局限在實驗室,是EgoScale in the wild,對場景幾乎無約束,能夠直接在真實的生產場景中佩戴我們的設備采集,這對于算法和穿戴舒適性都是更高的挑戰。
![]()
星憶EgoKit多模態數采套件及星憶HBR Engine數據引擎|圖片來源:企業供圖
「暗涌」:怎么理解“世界頂尖”?
宋知珩:決定上限的,不只是模型參數,而是teacher signal的質量:多模態采集、細粒度手部理解和高精度標注,這些才是高質量具身數據的第一性。想象一下,如果示范動作本身存在抖動、偏移和時序誤差,模型學到的不會是能力,而是誤差。
人體姿態估計很多時候是厘米級問題,手部則往往要進入毫米級:關節點更密、遮擋更多、手物接觸更復雜,技術難度不是線性增加,而是成倍上升。
也正因此,手部理解是具身數據里最難的一層之一,是L4-L5級別的技術,我們恰恰有全球最好的這方面能力,而人體姿態是L2,我們把這一層做深做透的基礎上,向上再擴展到上肢乃至全身,路徑反而更順。
「暗涌」:為什么一定要做多模態融合(視覺+觸覺+姿態),單純視覺不夠嗎?大模型不是已經能看懂世界了嗎?
宋知珩:不是模型不夠聰明,而是它從來沒有真正“觸摸”過真實世界。精細操作至少需要三類信息:三維視覺、身體姿態,以及觸覺。
三維視覺告訴你物體在哪里,姿態告訴你手和臂是怎么到達那里的。而真正進入接觸瞬間后,決定成敗的往往是觸覺:有沒有接觸、是否打滑、該用多大力、什么時候該收力。觸覺提供的是接觸狀態、摩擦變化和微滑移信息,它是視覺的終點,也是力控的起點。
「暗涌」:聽說你們能做到戴手套情況下的手勢識別,這很難嗎?Meta和Apple不是也在做?
宋知珩:極難。Meta用肉色手套,本質上還是讓模型把它當成“更粗壯的人手”來識別。我們可以用黑色手套,模型能在特征空間里識別出這是手,并精確解析姿態。Apple的手勢技術很強,但公開路線仍以裸手交互為主。
為什么這重要?因為觸覺最自然的載體就是手套,如果不能在穿戴狀態下穩定完成手部理解,就沒法把視覺、觸覺和姿態真正融合起來。這背后難的不只是識別本身,而是多模態系統要在精度、時延和成本之間同時成立。
「暗涌」:你們提到“毫米級標注”,具體能達到什么精度?成本相比傳統方式如何?
宋知珩:對手部這樣高密度、強遮擋的任務來說,傳統人工標注和通用開源算法都很難同時兼顧精度與一致性。我們能夠在長序列、強接觸條件下,把數據引擎的標注能力穩定推到毫米級,并且比人類專家的標注能力具備更強的一致性。
成本上,人工標注一秒鐘視頻(30幀)三個視角,哪怕0.1元標一張圖也要3塊錢一秒,一分鐘180塊。我們強大的標注引擎,成本是傳統人工的幾百分之一,但精度更高。這就是“低成本+高質量”的雙飛輪。
「暗涌」:為什么不做仿真數據?英偉達不是也在推仿真到現實的遷移?
宋知珩:仿真在預訓練、策略搜索和并行試錯上很有價值,但一旦進入真實世界的復雜接觸,sim-to-real gap依然顯著。
比如,把一根像面條一樣會彎、會回彈、會打滑的柔性排線,準確插進毫米級接口并一次完成扣合,這類任務涉及接觸、形變、摩擦、遮擋和連續反饋修正,很難在仿真中被完整還原。英偉達推動sim-to-real,方向當然是對的,但本質不是“用仿真替代真實”,而是讓仿真更接近真實,仍需大量真實數據持續對齊和校準。
我們判斷,真正有價值的真機數據要同時滿足五個條件:真實(物理交互)、精準(精細操作)、高自由度(泛化性)、低成本(可規模化)、可訓練(標準化處理)。五個條件缺一不可,仿真數據在“真實”這一關就過不了。
「暗涌」:你們的數據采集流程具體是怎樣的?怎么保證低成本?
宋知珩:傳統真機遙操需要租場地、買設備、雇人,成本極高。
我們是一個流式過程:采集員或工人佩戴我們的穿戴套件在真實產線或場景操作,數據引擎實時捕捉視覺、觸覺、位置、軌跡,并進行毫秒級對齊,形成可進一步張量化的多模態訓練數據。隨后,我們的離線工具鏈會自動進行“毫米級標注”,過濾無效噪聲,形成可以直接用于具身模型訓練的高質量數據。
「暗涌」:真實環境不可控,如何保證數據質量和安全性?數據會開源嗎?
宋知珩:我們有一套內嵌的“質量審計引擎”,自動剔除抖動、丟幀和邏輯不合理的動作。關于開源,星憶有明確的節奏:我們將會在今年陸續開源1000至10000小時的高精度數據集。我們認為,具身智能的繁榮不能靠“閉關鎖國”,我們要推動行業共建地基。
「暗涌」:你提到過兩個“金字塔”——一個是機器人能力的金字塔,一個是數據的金字塔。它們分別意味著什么?星憶科技切入的是哪一層?
宋知珩:我們內部確實會用兩個“金字塔”來理解具身智能。
第一個是能力金字塔:從下往上,本體是底座,其上是運動智能,再往上是認知智能;而認知智能如果繼續拆分,又可以分成交互智能和作業智能。前者解決“能不能聽懂、會不會表達”,后者解決“能不能在真實物理世界里完成有目標、有約束的操作任務”。真正決定具身系統上限的,是作業智能這一層。
第二個是數據金字塔,底層是互聯網數據,規模最大,提供語義和常識先驗;再往上是仿真/合成數據,適合預訓練、策略搜索和并行試錯;再往上是以第一人稱人類數據為代表的多模態真實數據;最頂層則是真機遙操數據。越往上,數據量越小,但越接近真實任務、真實接觸和真實控制閉環。
![]()
數據金字塔|圖片來源:企業供圖
越往上走,數據越少,但價值密度越高。行業今天真正缺的,不是又一層大而泛的數據,而是能進入復雜接觸、又能被模型有效消化的高質量真實數據。
Part02
從數據供應商到物理世界接口
「暗涌」:你們跟其他做數據采集的公司比如做UMI(通用操作接口)的、做真機遙操的,本質區別是什么?
宋知珩:UMI路線的重要意義,在于證明了人類演示可以成為機器人學習的重要入口;DexUMI這類工作又把這條路線往更高自由度推進了一步。
但星憶和這類路線的區別,不在于是否認同這個方向,而在于目標函數不同:它們優先解決的是低門檻、可遷移、可擴展;而星憶優先解決的,是在高自由度前提下,把視覺、觸覺、姿態這些決定精細操作上限的信號,真正采全、采準、采成可訓練的數據資產。
我們認為二指夾爪是工業化遺留的產物,只能在特定場景高效完成特定任務,但AGI要求泛化能力——用一套本體在復雜物理世界做各種操作。這要求末端執行器具備高自由度。我們不做二指夾爪,做“高自由度基礎上的高精度”。人手有21個自由度,UMI的二指夾爪拿不穩手術刀,也按不了打火機,但高自由度的靈巧手可以。
星憶與這類路線的區別,不在于能不能低成本采到數據,而在于能否在更高自由度前提下,把精度、可訓練性和規模化同時做出來。
「暗涌」:所以你們的產品和服務也是tob的。
宋知珩:是的。路徑非常清晰:第一步,服務于高校和頂級實驗室(科研需求),也包括數采廠;第二步,切入機器人本體和模型廠商(訓練需求);第三步,觸達最終場景方(落地需求)。我們要建立一個從數采工具到在線引擎再到場景落地的完整商業閉環。售賣穿戴硬件和數據集,這是兩類標準產品。對于只想快速提升模型訓練效果的客戶,可以直接買成品數據集,我們有相應的技術支持,可以快速地幫助客戶完成對應的模型訓練。
「暗涌」:清華系和華為系都在做具身,你們怎么定義自己的獨特性?會不會覺得你們只做數據,缺乏端到端的能力?
宋知珩:華為系更擅長從通信、工程體系和底層架構去理解系統。我們不簡單歸結為派系差異,關鍵在于如何定義具身智能里最難、最稀缺的問題。
本體可以買,算法可以跑開源,但具備真機反饋的高精度高質量動作數據是買不到的。它是非標準化的、強依賴物理反饋的。我們要把這種最難規模化的“工匠手藝”數字化、標準化,讓它能像自來水一樣供應給所有大腦廠商。
「暗涌」:數據規模的天花板有多高?有人說需要百億條數據,有人說10億條就夠了,你怎么看?
宋知珩:這是一個效率問題。做模型的人想減少數據需求,做數據的人想提高質量和規模,最終會在中間match。
早期學界認為需要百億到千億條,也就是一億到十億小時,我們認為最終會落在一億小時這個量級。但這一億小時不是“加權平均”,而是最高質量的數據——就像人類基因花了四五億年演化,預訓練大模型需要這些高質量數據形成“具身基因”,然后再通過真機強化學習提升特定任務能力。
「暗涌」:有人說機器人行業的盡頭是國家級數據基礎設施,你認同嗎?你們會站隊嗎?
宋知珩:與其說是站隊,不如說是抱團。這個行業很難單打獨斗,需要國家隊、產業生態一起打造。
「暗涌」:你判斷具身智能什么時候能真正落地?星憶在這個過程中扮演什么角色?
宋知珩:3年進工廠,5年進家庭。
工廠指特定場景的單一任務,通過真機強化學習提高正確率到99%以上;家庭指不同環境,需要模型具備泛化能力,同時又有安全、隱私等方面的要求。目前行業整體仍處于POC階段,純端到端方案的準確率通常只有70%–80%,尚不足以支撐穩定落地,仍需依賴人工監督或rule-based機制進行兜底。
在全球具身智能版圖中,Physical Intelligence和Generalist更聚焦模型與通用策略的上層突破,而星憶切入的,是更難被替代的一層:以高質量、規模化的真實物理數據積累,定義AGI時代的通用行動接口。
「暗涌」:你們的團隊配置很跨界——清華學術背景、智元和鎂伽量產經驗,這種組合如何轉化為競爭力?
宋知珩:很多人把具身智能理解成模型、硬件或場景的單點競爭,但更底層的競爭,是把真實世界經驗轉化為機器人能力的系統效率競爭。我們團隊真正的競爭力,在于將學術、工程和產業最難接上的鏈路,在團隊內部充分打通:我們既懂真實世界經驗如何被采集、對齊、表征并沉淀為可訓練資產,也懂模型如何基于這些資產完成學習,并在真實場景中持續驗證、校準和回流。
單點能力可以補,閉環能力很難長出來。下一階段具身智能真正拉開差距的,不是誰能做出一個更亮眼的模型、一個更好的硬件,或者一個更能傳播的Demo,而是誰能率先把高標準數據資產的規模化生產能力建立起來,并把它做成一套從真實世界持續學習、持續回流、持續長出能力的系統。誰先把這套系統做出來,誰才更有機會定義下一階段具身智能的產業路徑。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.