文|邱曉芬
編輯|蘇建勛
一句話介紹
「智域基石」是一家致力于構建具身智能時代數據入口與訓練輸入基礎設施的公司,其核心使命是將海量、雜亂的原始物理世界數據,精準編譯成直接面向機器人任務成功率的高質量訓練輸入。
團隊介紹
「智域基石」CEO楊哲軒為前PingCAP核心成員,擁有大規模分布式系統與底層架構設計的背景,也是連續創業者,負責多家公司商業化業務。
「智域基石」CTO徐良威有著騰訊、小鵬機器人的從業背景,是實戰經驗豐富的機器人軟硬件專家,熟悉具身智能算法對于數據的需求,也有豐富硬件落地的經驗。
「智域基石」COO為張計業,前華為地市總經理,曾擔任具身智能公司「穹徹智能」生態負責人。
融資進展
完成數千萬元天使輪融資,資方包括四家機器人廠商,包括靈初智能、穹徹智能、浙江人形、智平方(拼音序)。
產品及業務
目前,「智域基石」計劃在全國建立起面積超一萬平方的真機數據采集工廠,工廠中機器人數量超400臺、異構硬件形態超10種。
他們預計在2026年內積累超過200PB異構數據。在今年第二季度,「智域基石」將從真機數據生產,全面拓展至 Ego-Centric(第一人稱視角)領域,牢牢掌控模型的后訓練與預訓練的數據入口,通過數據編譯層,將原始數據加工成高質量語料,可直接作為模型訓練輸入。
![]()
△ego centric 設備的概念圖
在數據生產和加工方面,「智域基石」團隊將大數據行業的技術理念和架構,引入到了具身智能領域,搭建了一套打破“廢料堆砌”的自動化“數據編譯管線”,主要特點包括——
①數據質檢環節:過往面對海量數據,其他類型公司往往采用傳統抽檢,導致高達95%的無效噪音混入訓練集。而「智域基石」引入了分布式計算與彈性伸縮架構,對機器人采集的視覺、深度、關節位姿和力觸覺等多模態數據進行全量質檢,在源頭直接剔除無效的“數據膨脹”。
②數據底座重構(具身智能專屬的異構湖倉):真實物理世界的數據天然具有高熵、多源異構以及采樣頻率嚴重異步(如視覺30Hz與關節控制500Hz的落差)的特征,傳統的簡單存儲極易讓數據淪為無法訓練的“多模態黑盒”。
為此,「智域基石」率先將成熟的數據湖倉( Data Lakehouse )架構引入并深度改造為具身智能專屬底座。該架構不僅實現了對超大規模非結構化數據的統一納管,更依托自研的數據引擎,在底層完成了視覺、深度、力觸覺與關節位姿等復雜維度在毫秒級別的高精度"時空戳對齊"。
這一步直接跨越了模態間的時空錯位,將混沌的物理記錄徹底錨定為大模型可解析的高價值時序資產。
![]()
△數據管線示意圖
③數據編譯:這是最核心的“精煉”過程。不僅僅是去噪、增廣與重定向,系統會將非標數據進行“技能原子化”,提取出帶有明確動作意圖與物理約束的“語義片段”,并為數據建立版本號與血緣追蹤,確保資產可追溯。
④智能檢索與組配:針對行業“按小時買數據”的價值錯位,團隊推出了自研的查詢引擎,用類似SQL的方式,對海量物理數據中的場景、技能、動作基元進行語義化調用。
例如,當客戶算法團隊提出特定的訓練需求時,摒棄傳統的盲目海選與人工拼湊,「智域基石」的數據交付專家只需在后臺輸入簡捷的代碼指令(如:精準調取“廚房場景”中“拿杯子”任務、且特定驗證成功率>95%的數據),系統即可快速響應,快速召回并組配出符合要求的結構化技能流。這種將非標需求轉化為標準化系統指令的能力,極大提升了交付效率與準確度。
⑤標準化打包與彈性交付:在完成檢索與組配后,系統會自動將提取的結構化片段,打包為帶有版本號(如v2.4.0)、開箱即用的標準化訓練數據集。
面對單次交付動輒高達數百TB的超大規模交易量級,「智域基石」構建了彈性的交付體系:既支持兼容S3等云原生架構的云端專線直連與授權調用,也支持針對極高數據安全要求的高吞吐線下物理陣列(硬盤)交付。這種靈活的資產分發模式,不僅實現了自動化交付,更徹底打通了從數據精煉廠到客戶算力集群的“最后一公里”。
通過構建這套強大的自動化“數據編譯管線”,「智域基石」實現了商業模式上的關鍵躍升:雖然前端物理世界的高保真數據采集仍需依賴專業人力與真機工廠,但在核心的數據加工與海量交付環節,系統徹底實現了與傳統“人海戰術”的解耦。
商業模式
為了穩步推進“數據精煉廠”的商業落地,智域基石規劃了三階段商業演進路線,逐步實現從數據生產,到數據精煉,再到行業基礎設施構建的跨越:
第一階段(2026-2027):核心目標是搶占高質量物理數據入口。對標英偉達 EgoScale 路線,自研 Ego-Centric(第一人稱視角)穿戴設備以獲取稀缺的預訓練語料;同時聯合政企與頭部機器人廠商建設真機采集工廠,沉淀后訓練工業數據。目前,通過為頭部客戶提供定制化的結構化訓練輸入,公司在手訂單已近億元。
第二階段(2027-2029):隨著核心管線的打磨成熟,業務將從"數據生產和精煉"轉向"標準化資產訂閱"。將前期沉淀的通用動作與場景,提煉為開箱即用的行業標準數據集。通過長期框架協議與場景庫增量更新服務,實現單點數據資產的重復變現,大幅提升利潤率并覆蓋更廣泛的客戶群。
第三階段(2029+):開放 API 與開發者生態,構建通用基座,全面升級為具身智能通用數據基礎設施,構建數據交易市場與開發者生態,最終以共建共享的姿態,實現數據資產的規模化分發與全生態復用。
Founder思考
①具身智能數據存在核心矛盾
在「智域基石」CEO楊哲軒看來,當前具身智能賽道正面臨一場隱蔽的"供給危機":行業有龐大的訓練需求,也不缺乏海量的原始數據,但真正稀缺的是將混沌的物理記錄,穩定、高效地"編譯"為高信噪比訓練輸入的基礎設施能力。大量未經深度結構化處理的多模態采集記錄,往往淪為消耗模型算力的"數據廢料"。
這一現象的底層矛盾,源于具身智能數據處理天然處于“交叉學科的空白地帶”。現階段,機器人算法團隊雖然深刻理解模型對物理規律、動作約束與任務語義的精細需求,卻往往受制于工程瓶頸,難以建立工業級的大規模數據流水線;而傳統的AI數據標注廠商,盡管具備勞動力密集型的規模化生產經驗,卻由于缺乏對機器人運動學、力觸覺反饋以及多模態時空對齊等底層邏輯的認知,其產出質量難以滿足大模型走向真實場景的苛刻標準。
隨著具身智能數據量級正迎來指數級的躍升,這種“懂算法的不懂工程量產,懂量產的不懂機器人硬件”的結構性錯位,不僅推高了行業的試錯成本,更成為了制約具身大模型跨越物理鴻溝的最大掣肘。
②人力密集型的數采工廠沒有壁壘
要在具身智能數據業務上建立真正的商業壁壘并實現規模化盈利,單純依靠傳統的人力密集型管理優化是行不通的,必須通過技術架構重構,系統性地降低數據加工的綜合成本。
「智域基石」CEO楊哲軒指出,人力成本具有天然的剛性,且隨著規模擴張,管理效率必將觸及上限。面對大模型日益龐大的PB級數據吞吐需求,僅靠“堆人頭”的傳統模式無法形成長期的核心競爭力。真正的商業解法在于,依托高度自動化的“數據管線”來實現加工流程的規模化,這是攤薄固定成本、提升邊際收益的最優路徑。
客觀預期下,隨著這套管線工程化與自動化能力的不斷迭代,未來「智域基石」在核心數據加工環節的人力需求有望降低至少50%。楊哲軒認為,通過硬核的技術手段,實事求是地達成數據產能與人力投入的有效解耦,才是企業真正走向高毛利基礎設施的立足之本。
③2026年是具身智能跨越商業鴻溝的關鍵檢驗節點
伴隨2023年以來的投本體,投模型,投零部件的浪潮,當前具身智能落地的卡點已經形成共識:“數據是瓶頸”。楊哲軒判斷,2026年,隨著數據方向的創業公司如雨后春筍一般產生,具身智能領域的數據量也預計將增長數十倍以上,達到千萬小時級別。
為此,今明兩年正是一個關鍵檢驗節點——當數據總量的瓶頸被大幅緩解后,若大模型在真實場景中的任務成功率與泛化能力依然無法取得實質性突破,整個行業將面臨嚴峻的信心重估與生存大考。
而跨越這一節點的關鍵,已不再是粗放的數據堆砌,而是如何將海量物理記錄真正"編譯"為高效的訓練輸入。智域基石將自己定義為這個"編譯器"——具身智能時代的數據基礎設施建造者。
end
end
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.