BeingBeyond發(fā)布最強(qiáng)世界模型，具身行業(yè)開啟“大腦紀(jì)元”

2026-04-14 13:22:26　來源: 36氪

北京舉報

分享至

當(dāng)20萬個小時的人類視頻，被壓縮進(jìn)一塊端側(cè)芯片，會意味著什么？

或許這代表著第一個可端側(cè)部署、可商用的具身世界模型，真的來了。

這也是人類視頻路線的開創(chuàng)者BeingBeyond，在這個具身世界模型走向分水嶺時，所交出的滿分答卷。

當(dāng)機(jī)器人從Demo表演走向真實環(huán)境，難以真正理解環(huán)境、理解任務(wù)，更難在變化中持續(xù)做出判斷。越來越多的人意識到——機(jī)器人學(xué)習(xí)行動的方式，本身就值得重來一遍。

作為基于大規(guī)模人類行為數(shù)據(jù)訓(xùn)練、能夠在不同機(jī)器人之間遷移，并在真實環(huán)境中執(zhí)行復(fù)雜任務(wù)的具身智能世界模型，Being-H0.7，正是BeingBeyond對這個問題的最新回答。

Being-H0.7放棄了高算力、高延遲、難以部署的視頻生成式方案，轉(zhuǎn)而用一種更接近人類物理直覺的隱空間推理方式，在模型內(nèi)部直接完成對未來狀態(tài)和動作結(jié)果的判斷。

這也使得Being-H0.7能夠進(jìn)一步把世界模型壓進(jìn)端側(cè)硬件與實時運(yùn)行場景，成為業(yè)內(nèi)首個可在端側(cè)部署，可商用的世界模型。

而BeingBeyond作為業(yè)內(nèi)首個提出人類視頻預(yù)訓(xùn)練的玩家，在過去不長的時間內(nèi)，即對外展現(xiàn)了人類視頻預(yù)訓(xùn)練、模型部署和數(shù)據(jù)采集閉環(huán)全棧技術(shù)體系。

這套閉環(huán)的技術(shù)體系正在讓具身智能由通用基座+專家能力的兩級躍遷，成為行業(yè)可規(guī)模化落地的契機(jī)所在。對于一個長期停留在展示層面的行業(yè)來說，BeingBeyond作為深耕具身大腦模型的代表性玩家，巨大的商業(yè)價值正在被看見。

論文鏈接:

https://research.beingbeyond.com/projects/being-h07/being-h07.pdf

理解世界的另一條路

具身智能走到今天，行業(yè)其實已經(jīng)默認(rèn)了一套相對主流的技術(shù)推進(jìn)邏輯：先讓機(jī)器人能動起來，再讓它準(zhǔn)確地動，最后再去逼近更復(fù)雜的任務(wù)理解與執(zhí)行能力。

沿著這條思路，過去幾年行業(yè)逐漸形成了幾種主流方法。第一類是VLA，第二類是世界模型，第三類是直接通過遙操作采集真機(jī)數(shù)據(jù)，它們分別對應(yīng)三種不同的期待：VLA希望解決“理解”，世界模型希望解決“預(yù)測”，遙操作希望解決“落地”。

這些方法都有價值，也推動了機(jī)器人能力的快速進(jìn)展。問題在于，它們大多建立在訓(xùn)練數(shù)據(jù)主要來自機(jī)器人本體本身，這一相對有限的前提。這意味著，模型學(xué)到的能力很容易被鎖定在特定硬件、特定任務(wù)和特定場景里。

尤其是世界模型這條路，到了真實部署階段，問題會暴露得更明顯。

英偉達(dá)的Cosmos Policy、DreamZero等方案，仍然在沿著預(yù)測下一步畫面的方式，希望通過想象未來的視頻幀來輔助當(dāng)前動作決策。但一方面，視頻生成本身對算力要求高，很難做到端側(cè)實時運(yùn)行；另一方面，圖像終究是二維信息，對流體、柔性物體、復(fù)雜接觸等三維動力學(xué)過程的表達(dá)非常有限，很多時候只能生成看起來合理、但卻難以支撐真實操作的動作。

在這個節(jié)點(diǎn)，BeingBeyond給出了另一種判斷。在他們看來，如果機(jī)器人最終要面對的是人類世界，那么訓(xùn)練它的數(shù)據(jù)也不應(yīng)該只是機(jī)器人自己產(chǎn)生的數(shù)據(jù)，而應(yīng)該是規(guī)模更大、分布更接近真實世界的人類行為數(shù)據(jù)。

比起讓機(jī)器人反復(fù)學(xué)習(xí)“某一只手怎么抓某一個物體”，更關(guān)鍵的可能是先讓它理解，人類在真實世界里是如何完成動作、組織任務(wù)、處理交互的。

這也是BeingBeyond選擇從人類視頻出發(fā)的原因。相比依賴真機(jī)和遙操作，人類視頻的規(guī)模更大、場景更多、任務(wù)更豐富，能夠為模型提供一種更接近真實分布的行為先驗。沿著這條路徑，機(jī)器人有機(jī)會學(xué)到跨場景、跨任務(wù)、跨本體遷移的行動能力。

基于這種思路，Being-H0.7沒有繼續(xù)沿著視頻生成式世界模型往前推，而是轉(zhuǎn)向了一條更接近人類物理直覺的路線。Being-H0.7在模型內(nèi)部引入一塊隱空間，用來壓縮當(dāng)前觀察、任務(wù)目標(biāo)和對未來變化的判斷，再由這塊中間表示直接指導(dǎo)動作生成。

這種做法更像人類在現(xiàn)實中的反應(yīng)方式。打乒乓球時，運(yùn)動員不會先在腦子里生成下一秒的完整畫面，再決定怎么揮拍；更多時候，依賴的是長期經(jīng)驗積累下來的快速判斷，知道物體會怎么運(yùn)動、受力之后會發(fā)生什么、什么動作大概率會失敗。Being-H0.7試圖讓模型學(xué)到的，正是這種接近“潛意識”的物理直覺。

為了讓這種判斷真正成立，BeingBeyond又往前補(bǔ)了一層基礎(chǔ)：超過20萬小時的人類視頻預(yù)訓(xùn)練。海量人類行為數(shù)據(jù)的意義，不只是規(guī)模大，更在于其中天然包含了大量隱含的物理規(guī)律和任務(wù)結(jié)構(gòu)。模型在這些數(shù)據(jù)里學(xué)到的，也不只是動作本身，而是動作背后的條件、結(jié)果和約束。

在實驗結(jié)果上，Being-H0.7在6項榜單上H0.7綜合排名全球第一（其中4項登頂），成為當(dāng)前覆蓋能力范圍最廣的具身世界模型之一。

最終，Being-H0.7把世界模型的信息壓縮了至少百倍，開始真正進(jìn)入端側(cè)硬件和實時運(yùn)行場景，Being-H0.7可在端側(cè)計算平臺Orin NX（約75TOPS）上進(jìn)行實時部署。這意味著，BeingBeyond也成為業(yè)內(nèi)首個在同等算力芯片上部署世界模型實時運(yùn)行的團(tuán)隊。

機(jī)器人的下一步進(jìn)化

在具身智能這樣一個高度工程導(dǎo)向的領(lǐng)域里，路徑分歧往往來自一個并不“技術(shù)”的源頭——團(tuán)隊如何定義問題。

機(jī)器人本體，是中國大多數(shù)團(tuán)隊的起點(diǎn)，畢竟這是中國團(tuán)隊更擅長、也更容易落地的一條路徑。順著這個起點(diǎn)，大家往往圍繞具體硬件優(yōu)化控制策略，通過遙操作積累數(shù)據(jù)，再在單一本體上反復(fù)打磨模型能力。

這種方式既是能力結(jié)構(gòu)的延續(xù)，也是一條更容易走通的路徑，在很長一段時間里推動了機(jī)器人能力的快速提升。但它也在無形中強(qiáng)化了一個前提——數(shù)據(jù)來自機(jī)器人本體本身，能力也隨之被鎖定在具體硬件和場景之中。

BeingBeyond的起點(diǎn)與大多數(shù)中國團(tuán)隊并不相同，這種差異，很大程度上來自創(chuàng)始人盧宗青看待問題的方式。和許多圍繞具體本體反復(fù)打磨控制策略的團(tuán)隊不同，作為科學(xué)家，盧宗青更習(xí)慣先追問一個更前置的問題：如果目標(biāo)是通用能力，模型究竟應(yīng)該從什么樣的數(shù)據(jù)里學(xué)習(xí)？

對于多數(shù)機(jī)器人團(tuán)隊來說，數(shù)據(jù)首先是遙操作、是真機(jī)、是和具體硬件強(qiáng)綁定的；但對他來說，機(jī)器人最終要面對的是人類所處的物理世界，那么更接近真實任務(wù)分布的數(shù)據(jù)，未必只存在于機(jī)器人本體上，也可能首先存在于人類行為本身。

基于這種認(rèn)知，BeingBeyond最早在業(yè)內(nèi)提出了以人類視頻進(jìn)行模型預(yù)訓(xùn)練，并以此構(gòu)建了一套模型訓(xùn)練、部署、數(shù)據(jù)采集的閉環(huán)技術(shù)能力體系。

沿著這一思路，團(tuán)隊逐步發(fā)展出以人類行為為核心的訓(xùn)練范式。一方面，通過大規(guī)模人類視頻構(gòu)建行為先驗，讓模型不再從零學(xué)習(xí)動作；另一方面，通過統(tǒng)一動作空間，將不同機(jī)器人本體映射到同一表達(dá)體系中，使這些先驗?zāi)軌蛟诓煌布g遷移。再結(jié)合多模態(tài)建模能力，將視覺、語言與動作統(tǒng)一到同一序列中進(jìn)行訓(xùn)練，形成所謂的human-centric learning路徑。

Being-H系列模型是這一認(rèn)知路徑的自然延伸。

稍早的Being-H0.5已經(jīng)驗證了一個關(guān)鍵假設(shè)，即在足夠規(guī)模的人類行為數(shù)據(jù)與多本體數(shù)據(jù)共同作用下，模型可以在不同機(jī)器人之間遷移，并在復(fù)雜任務(wù)中保持穩(wěn)定表現(xiàn)。通用模型第一次在跨本體維度上接近專用模型的能力邊界。

Being-H0.7，則開始強(qiáng)化在真實環(huán)境中的穩(wěn)定性與任務(wù)完成度——包括在更復(fù)雜場景下的連續(xù)操作能力、多步驟任務(wù)中的誤差控制，以及不同本體之間更高效的適配能力。

H0.5證明human-centric learning能走通，而H0.7證明了這條路能真正走進(jìn)現(xiàn)實場景。

在這套體系里，Being-H系列解決的是最上層的問題：即機(jī)器人如何獲得通用能力。Being-Dex處理的是更貼近業(yè)務(wù)的一層——這些能力如何在具體場景中快速落地；而U1則把問題再往前推一步，回答高質(zhì)量數(shù)據(jù)從哪里來、如何持續(xù)獲得。

三者對應(yīng)的是一個相對清晰的結(jié)構(gòu)：模型層提供通用具身智能的基座能力，適配層把新任務(wù)的學(xué)習(xí)周期壓縮到30分鐘級，數(shù)據(jù)層則通過靈巧手?jǐn)?shù)據(jù)采集系統(tǒng)，將數(shù)據(jù)范式從過去的夾爪操作，推進(jìn)到更接近真實人類操作的表達(dá)方式。BeingBeyond搭建了從數(shù)據(jù)采集，到模型訓(xùn)練，再到任務(wù)部署的生產(chǎn)鏈。

這樣的閉環(huán)，在過去很長一段時間里很難見到。原因在于，具身智能的三個關(guān)鍵要素長期是割裂的：數(shù)據(jù)難以規(guī)模化獲取，模型能力不足以支撐跨場景泛化，而部署又高度依賴具體本體。

全新產(chǎn)業(yè)結(jié)構(gòu)下的機(jī)會

最近幾年，能夠觀察到業(yè)內(nèi)一個明顯的趨勢是，本體與具身大腦開始分化，并且整個市場的目光包括資本，開始越來越多的聚焦在具身大腦板塊。

這種趨勢建立在幾個前提之上：

一是數(shù)據(jù)的變化。以人類視頻為代表的海量數(shù)據(jù)，讓具身模型第一次擁有了可以持續(xù)擴(kuò)展的訓(xùn)練來源；二是模型能力的變化，大模型在多模態(tài)建模上的進(jìn)展，使視覺、語言和動作的統(tǒng)一建模成為可能；三是工程體系的變化，數(shù)據(jù)、訓(xùn)練和部署逐漸形成閉環(huán)，開始能夠在真實環(huán)境中反復(fù)迭代。

這進(jìn)一步帶來的變化是，越來越多機(jī)器人本體公司，選擇把智能外置。

從商業(yè)角度看，自研模型的成本依然很高。一套完整的具身模型體系，意味著持續(xù)的數(shù)據(jù)投入、算力開銷和團(tuán)隊建設(shè)，年成本往往在千萬級別以上，而外部模型一旦具備通用能力，可以在多個場景中復(fù)用，邊際成本明顯更低。

從效率角度看，本體公司更現(xiàn)實的需求，是快速上線新任務(wù)、在不同場景中復(fù)用能力，同時控制研發(fā)投入，而不是從零開始反復(fù)訓(xùn)練模型。

當(dāng)本體和大腦不再必須綁定在一起，分工的空間就出現(xiàn)了。隨之而來的一個問題是，什么樣的具身大腦公司具備真正的價值？在行業(yè)越來越聚焦到落地可行性的當(dāng)下，毫無疑問的是，距離大規(guī)模商業(yè)化的距離越近，其價值越能被看見。

目前業(yè)內(nèi)的一個共識是，“通用能力打底、專家能力專精”，則是通往規(guī)模化落地的一個最可行路徑。

BeingBeyond所構(gòu)建的人類視頻打底，為模型場景及構(gòu)型的泛化提供基礎(chǔ)，即所謂的通用能力；而在垂直落地場景落地的專家能力，U1完美彌合了真實場景數(shù)據(jù)采集的最后一塊拼圖，為模型提供大規(guī)模高質(zhì)量的真實場景專家數(shù)據(jù)。

這種從人類視頻路線開始，到數(shù)據(jù)采集的閉環(huán)，讓BeingBeyond的行業(yè)價值被看見。作為少數(shù)同時具備人類視頻預(yù)訓(xùn)練、模型部署和數(shù)據(jù)采集閉環(huán)全棧自研能力的公司之一，BeingBeyond目前已與國內(nèi)多家頭部具身本體公司建立了合作關(guān)系。

變化正在發(fā)生。曾經(jīng)每家具身公司都試圖同時做本體、數(shù)據(jù)和模型，投入重、鏈條長，也很難快速做出成果；未來，更清晰的具身智能的產(chǎn)業(yè)結(jié)構(gòu)或許會逐漸形成，一類公司專注機(jī)器人本體和場景落地，另一類公司專注通用智能能力的提供。

從這個角度看，Being-H0.7的出現(xiàn)，更像是一個信號，具身智能開始從各自為戰(zhàn)，走向更明確的分工體系。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.