網易首頁 > 網易號 > 正文申請入駐

首個實時端側部署世界模型，20萬小時人類視頻，BeingBeyond實現「兩級躍遷」

2026-04-14 08:05:27　來源: AI科技評論

廣東舉報

分享至

當世界模型首次在端側實現實時運行，具身智能由此真正邁入可規模化復制的階段。

在具身智能浪潮回涌的這兩年，仿真、真機與人類視頻，始終構成數據來源的“鐵三角”。從早期研究對仿真數據的高度依賴，到去年各地真機數采中心的集中爆發，再到今年，人類視頻正逐漸走向舞臺中央，成為驅動模型能力躍遷的關鍵變量。

4月14日，BeingBeyond（智在無界）發布最新具身世界模型Being-H0.7。在將人類視頻規模擴展至 20 萬小時的基礎上，該模型首次將人類視頻學習建立在“隱式推理”的世界模型范式上，并在 6 項國際權威評測中取得綜合第一的成績，進一步展示了其在連續動態場景、流體、柔性物體及復雜物理交互中的能力邊界。

主頁鏈接:

https://research.beingbeyond.com/being-h07

論文鏈接:

https://research.beingbeyond.com/projects/being-h07/being-h07.pdf

從1000到 20 萬小時，

人類視頻路線開創者的長期主義

時間回到 2025 年，整個行業仍沉浸在 Physical Intelligence（PI）系列所帶來的突破之中。沿著這一范式，各大廠商開始大規模建設真機數據采集體系，試圖以“更多真實數據”驅動模型能力提升。

但在彼時，智在無界基于長期多模態預訓練的經驗，已率先意識到這一路徑的內在瓶頸：數據工廠所產生的樣本，在背景、任務、物體乃至操作軌跡上高度同質，容易讓模型過擬合于封閉環境，難以泛化到真實世界的復雜場景。

幾乎同期，NVIDIA 在 GR00T 中提出“數據金字塔”框架，將數據劃分為塔尖（真實數據）、塔身（合成數據）與塔底（人類視頻）。當行業仍在加碼“塔尖”時，智在無界則將目光投向塔底——人類視頻所蘊含的規模與多樣性。

正如其創始人、北京大學盧宗青教授所判斷：

“人類視頻天然與真實世界對齊，其分布式采集帶來的多樣性，是集中式真機數采難以替代的。它更有潛力成為具身模型的核心燃料。”

基于這一判斷，盧宗青與其團隊于2025年 7 月發布了 Being-H0——全球首個以大規模人類視頻為核心預訓練數據，并成功部署到機器人系統中的具身模型。將數據規模首次提升至 1000 小時，H0標志著“人類視頻驅動具身學習”路線的正式確立。

作為這一技術路線的開創者，智在無界并未止步。僅隔數月，團隊于今年 1 月推出 Being-H0.5，將規模擴展至 1.5 萬小時，成為全球首個邁入“萬小時級”人類視頻預訓練的玩家。這一進展顯著早于 NVIDIA 的 DreamDojo、EgoScale 及 Generalist AI 的 GEN-1 等后續工作，體現出團隊在該方向上的前瞻布局。借助人類結構作為通用操作模板，H0.5 已展現出顯著的跨本體、跨場景泛化能力。

4月14日，在Generalist AI推出GEN1不到兩周之時，智在無界推出的Being-H0.7進一步將這一路線推向極致——人類視頻總量提升至 20 萬小時，全世界僅有GEN-1達到這一規模。

相比前代H0.5，Being-H0.7 最重要的突破是提出了一種世界模型新范式：基于海量人類視頻，以隱式推理的方式進行訓練。

以 NVIDIA 的 Cosmos Policy、DreamZero 等為代表的視頻生成式世界模型路線，通過“生成未來畫面”的方式來輔助動作生成。這類方法能得到不錯的可視化結果，但卻存在兩大局限：其一是計算開銷極高，無法實時端側部署；其二是2D圖像的生成無法精確對真實物理空間進行動力學建模（如流體，柔性物體等），容易停留在“視覺合理”而非“物理正確”。

作為世界模型，Being-H0.7舍棄了這種低效的動力學建模，其設計更貼近人類的行為方式：

在高速運動中，人類并不會逐幀預測未來畫面，而是依賴一種長期經驗積累形成的“物理直覺”——對運動趨勢、受力結果及操作后果的快速判斷。比如看到迎面而來的乒乓球時，運動員不會在腦海中想象下一秒的所有細節，而是會下意識地調動手臂準確揮動球拍。

為了讓模型具有類似“非想象式”的快速判斷能力，Being-H0.7通過在模型內部引入一塊“思考空間”用于潛空間推理，將當前觀察、任務目標以及對未來的判斷壓縮到這一中間表示中，再由它統一指導未來的動作生成。

如果說隱式推理為模型提供了理解世界的機制，那么海量人類視頻則提供了能力的“來源”。

人類的物理直覺不僅來自個體經驗，也源于物種長期演化積累的運動經驗。對于模型而言，只有在足夠規模與多樣性的行為數據中，才能內化類似的規律。

基于此，智在無界構建了超過 20 萬小時的人類操作視頻數據。通過對海量真實行為的學習，模型能夠在潛移默化中捕捉物體運動規律、交互模式及失敗邊界，從而形成更穩定的泛化能力。

在實驗結果上，Being-H0.7 在 6 項世界權威具身評測中取得綜合第一（其中 4 項登頂全球榜首）。更關鍵的是，H0.7的世界理解與交互能力已經體現在真實環境中：它可以在高速傳送帶上完成動態分揀與上架；跟隨移動容器進行精確傾倒；預測滑動物體軌跡并完成接取；也能在狹小空間內完成插入、定量倒液，甚至處理柔性物體等任務。

全球首個端側實時部署

率先突破世界模型商業瓶頸

作為具身模型賽道的領頭羊，除了在人類視頻學習這一技術路線上的持續引領，以及在數據規模與模型能力上的長期領先，智在無界在模型商業化部署層面，同樣處于全球第一梯隊。

早在今年 1 月發布 Being-H0.5-2B 時，智在無界便率先實現了模型在 NVIDIA Jetson Orin NX 端側算力上的實時部署，并順利通過長時間運行的穩定性驗證。即便在今天，依然鮮有國內具身模型公司擁有此項能力。

這一工程能力的背后，是團隊長期積累的大規模多模態預訓練與系統落地經驗。圍繞實際部署需求，智在無界自研了一整套推理優化體系，覆蓋模型量化、壓縮蒸餾、CUDA 算子編譯以及異步推理調度等關鍵環節，實現了從訓練到部署的全鏈路打通。

在具身智能賽道上，智在無界始終堅持“兩條曲線”并行推進：一條是以人類視頻為核心的數據 Scaling Law，不斷抬升模型理解世界的能力上限；另一條則是推理成本與延遲曲線，持續壓縮模型在真實機器人系統中的部署成本與響應時延。

在這一理念下，Being-H0.7 的部署被進一步優化至極致：其平均推理延遲低至3.61 ms/step，推理速度相比業內以效率著稱的模型（如 Fast-WAM）提升超過10 倍，顯存占用僅為同類方案的約 50%。與 Cosmos-policy、DreamZero 等視頻生成式世界模型相比，其推理效率更是實現了50 倍以上的提升。

更具標志性的是，智在無界首次在端側計算平臺Orin NX（約 75 TOPS）上，實現了 Being-H0.7 的實時部署。這意味著，其已成為業內首個在同等算力芯片上完成世界模型實時運行的團隊。

端側算力、世界模型、實時運行——這三者長期以來被認為難以兼顧，而智在無界在同一系統中同時實現，意味著其在推理成本、模型能力與系統效率這三個關鍵維度上，均已達到當前行業的最先進水平。

人類視頻預訓練+數采閉環

驅動通用能力與專家能力的“兩級躍遷”

從 H0 到 H0.5，再到如今的 Being-H0.7，作為人類視頻路線的開創者，智在無界在不到一年的時間內，實現了模型能力與數據規模的三次迭代。目前，團隊已構建起超過 20 萬小時的人類視頻數據體系，并預計在今年底進一步擴展至 100 萬小時量級。

這一前所未有的數據規模，為 Being-H 系列模型帶來了高度多樣化的真實世界分布，顯著提升了跨場景泛化能力，推動模型實現“通用能力”的關鍵躍遷。相比之下，依賴封閉環境與集中式采集的數據工廠，盡管在規模與可控性上具備優勢，但在分布多樣性與真實復雜性方面存在天然瓶頸，難以支撐模型真正走向開放世界。

如果說大規模人類視頻數據奠定了“通用能力”的基礎，那么第一視角人類數據的采集體系，則成為模型邁向“專家能力”的關鍵支點。然而在當前行業中，數據采集與模型訓練普遍割裂，導致大量高成本數據難以被有效利用。“過去一年我們收集了大量外部數據，也經歷過一次性丟棄數千小時數據的情況，”盧宗青指出，“當前數采體系仍處于早期階段，與大模型領域成熟的數據管線相比，仍存在明顯差距。”

對于具身領域來說，要彌合這一割裂，就必須同時具備大規模預訓練和高質量數據采集的能力：只有深度參與大規模預訓練，才能建立對數據的敏感度，從而設計出合理的數據格式、配比與數采硬件；高質量的數據采集體系，則如同為模型提供精準的“營養配方”，決定其能力上限。基于這一認知，智在無界率先打通了“大規模預訓練—數據采集”的閉環，成為業內少數具備全鏈路能力的團隊。

這一閉環優勢的集中體現之一，是智在無界團隊不久前發布的BeingBeyond U1，作為全球首款 Real DexUMI 設備，U1，實現了“無本體、低成本、真實場景”的規模化數據采集，可同步獲取視覺、動作與觸覺等多模態信號，并將人手精細操作高保真映射至機器人靈巧手。相比傳統真機采集，U1 的數據獲取效率提升超過 10 倍，同時實現“所采即所得”，無需重定向即可直接用于訓練，顯著降低了數據使用門檻與精度損耗。

這一能力有效彌補了現有數采方案在工業流水線等高精度場景中的關鍵短板，使模型能夠快速掌握復雜裝配、柔性交互等專家級技能，在實際任務中將成功率提升至 90% 以上。隨著 U1 進入真實的工業流水線等專業場景，Being-H0.7 進一步完成了從“通用”到“專家”的能力躍遷：一方面依托大規模人類視頻與世界模型架構，實現對復雜物理環境的理解與泛化；另一方面借助高質量場景化數據，深入垂直領域，獲得高精度、可落地的專家能力。

這也揭示了具身智能商業化的核心路徑：通用能力解決“能用”，而專家能力決定“好用”。以通用能力為底座，以場景化數據為抓手，逐步向垂直領域深化，正是具身智能走向規模化落地的“最后一公里”。

尾聲H0.7首個世界模型商業化部署

智在無界重塑具身模型賽道

從“能理解”到“能行動”，從“實驗室指標”到“真實世界生產力”，Being-H0.7 的意義，已經不止于一次模型性能的躍升，而是對具身智能落地路徑的一次關鍵重構。當世界模型首次在端側實現實時運行，長期被視為“不可能三角”的能力、成本與效率，開始在同一系統中收斂，具身智能也由此真正邁入可規模化復制的階段。

更深層次來看，這一突破并非孤立發生：其背后是人類視頻預訓練所支撐的通用能力底座，是“隱式推理”所帶來的世界理解范式躍遷，也是數據閉環體系驅動的專家能力持續進化。三者疊加，使得模型不再只是“會做任務”，而是逐漸具備在開放環境中穩定工作的能力。

當行業仍在不同路徑之間反復試探時，智在無界通過 H0.7 給出了一條更具確定性的答案——以人類視頻為核心燃料，以世界模型為認知與行動中樞，以端側部署為落地形態，打通從數據到模型、從理解到執行的完整鏈路。這不僅是一次模型發布，更像是具身智能從“技術競賽”走向“產業基礎設施”的分水嶺時刻。隨著 H0.7 的落地，具身模型的競爭邏輯，正在被重新定義。

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.