人物簡介
賈鵬|至簡動力創(chuàng)始人兼CEO,曾任理想汽車智駕技術(shù)研發(fā)負責人,主導多項關(guān)鍵技術(shù)研發(fā)。此前在英偉達、IBM任職,經(jīng)驗深厚。2025年他進入具身智能領(lǐng)域,創(chuàng)立至簡動力,提出創(chuàng)新架構(gòu),半年獲五輪20億融資。
在近日舉辦的GTC上,賈鵬以新身份首次深入剖析了具身智能通用能力與工業(yè)高要求之間的矛盾,并重點分享了至簡動力在基座模型上的突破性實踐——基于「大一統(tǒng)」的基座模型架構(gòu),其團隊已可實現(xiàn)在短短20分鐘內(nèi),實現(xiàn)下游任務100%的成功率。
骨感現(xiàn)實中的巨大鴻溝
在具身智能實際的落地過程中,存在一個巨大的現(xiàn)實鴻溝:目前具身智能的整體泛化能力比較差,尤其在靈巧操作任務上,幾乎沒有任何泛化能力可言,大多數(shù)場景中都存在落地難題。
為了制作Demo,大家往往會針對單一任務大量采集數(shù)據(jù)。可即便如此,很多精細操作任務的成功率也難以提高。與此相對的是,在工廠等應用場景中,只有達到100%的成功率,才能真正形成生產(chǎn)力,對用戶產(chǎn)生價值。
“通用能力的不足與用戶的高要求之間存在著巨大鴻溝,這也是具身智能發(fā)展至今仍未大規(guī)模落地的真正原因。”
賈鵬介紹稱,至簡動力(Simplexity Robotics)希望以極簡架構(gòu)破解復雜難題——通過打造簡單統(tǒng)一的底層框架,致力于讓通用基座模型兼具「高泛化性」與「100%任務成功率」,跨越落地鴻溝,形成真正的工業(yè)生產(chǎn)力。
要想達成這一目標,需要在四個方面努力:
1、構(gòu)建高上限的基礎(chǔ)模型;2、更高效的數(shù)據(jù)采集方式;3、確保模型能快速達到100%的成功率;4、實現(xiàn)端側(cè)的實時推理和訓練
![]()
他尤其指出,很多工廠對節(jié)拍和延時有非常高的要求,系統(tǒng)必須具備實時的推理能力。同時,很多工廠因為保密原因不允許接入外網(wǎng),因此具身模型必須部署在端側(cè),這極具挑戰(zhàn)。
三大技術(shù)流派的利與弊
賈鵬介紹稱,目前具身智能模型的技術(shù)路線并不收斂,行業(yè)內(nèi)還存在路線之爭,主要分為以下三個流派:
1、雙系統(tǒng)范式:利用一個較大的VLM進行指令的理解和任務的拆解,再通過一個較小的、端到端的VLA模型做快速的執(zhí)行。
2、端到端的VLA模型:它將指令理解、任務拆解以及動作生成合為一個整體,端到端地去完成任務。
3、世界模型:這是最近比較熱門的路線,它不再以傳統(tǒng)的VLM作為基礎(chǔ),而是基于視頻生成模型或者是高斯?jié)姙R生成模型,實現(xiàn)對世界的理解、預測以及動作的生成。
![]()
這三條路線都有各自的優(yōu)勢和不足。
1、雙系統(tǒng)基于VLM對任務的拆解和調(diào)度,其優(yōu)點是可以處理長程任務。但由于雙系統(tǒng)是由兩個不同的模型構(gòu)成的,二者運行幀率不同,因此協(xié)同與聯(lián)合訓練都非常困難。
“事實上,我們團隊是全球最早提出并量產(chǎn)雙系統(tǒng)的團隊,因此踩過非常多的坑。”
2、端到端VLA模型普遍基于預訓練的VLM去做具身的指令微調(diào)。在此過程中,大家都發(fā)現(xiàn)災難性遺忘是不可避免的:第一是視覺能力的遺忘,第二是語言的思維鏈(CoT)能力的遺忘。
“行業(yè)已普遍認為視覺是具身智能中最重要的模態(tài),那么一旦視覺識別能力下降,對靈巧操作的影響就非常大。因此,很多VLA模型訓練出來之后,泛化能力幾乎為零。”
3、世界模型相對于雙系統(tǒng)和端到端VLA,是一個巨大的范式變化——它從「以語言為中心」轉(zhuǎn)向「以視覺為中心」、從「以理解為主」轉(zhuǎn)向「以生成為主」。
不過,該方法同樣伴隨著語言中的幻覺問題。所以目前世界模型在靈巧操作上的性能并沒有超過VLA。同時它還有一個劣勢,就是對算力的要求非常高。
基座模型的「大一統(tǒng)」設(shè)計哲學
在此背景下,至簡動力認為,所有的模型設(shè)計都應追求結(jié)構(gòu)簡單。隨著數(shù)據(jù)的增加,這種沒有太多人為先驗設(shè)計的結(jié)構(gòu),上限反而會更高。
首先賈鵬認為,具身基礎(chǔ)模型需要四種能力:
1、多模態(tài)理解與建構(gòu):它需要對語言指令、任務邏輯、3D空間及其時序變化以及本體自身的狀態(tài)進行統(tǒng)一的理解和建構(gòu),這意味著模型的輸入天生就是多模態(tài)的,而且多模態(tài)之間必須進行統(tǒng)一的建模和編碼,而非簡單的跨模態(tài)對齊。
2、閉環(huán)交互與多模態(tài)生成:模型在理解指令和任務的基礎(chǔ)之上,需要與世界進行交互,而這個交互一定是閉環(huán)的——動作會改變世界,同時世界的變化也會影響動作。這就意味著需要同時對世界的變化和動作進行聯(lián)合生成和預測,所以模型的輸出也是多模態(tài)的。
3、快慢思考:模型對實時性的要求非常高,所以其結(jié)構(gòu)必須非常適合端側(cè)的推理。但僅僅是條件反射式的響應還是不夠的,它需要具備在關(guān)鍵時刻深入思考的能力,并且能根據(jù)工況自適應地調(diào)整思考的速度。
4、自我評估與調(diào)整:模型還需要具備對自身狀態(tài)作出評估的能力,并且根據(jù)評估的狀態(tài)調(diào)整動作的生成。
綜上所述,這樣的模型實際上綜合了雙系統(tǒng)、端到端VLA和世界模型的所有優(yōu)點。“所以,未來通用的具身基座模型,一定是一個大一統(tǒng)的模型。”所謂「大一統(tǒng)」,是四個方面的一體化:
?多模態(tài)理解的一體化、多模態(tài)生成的一體化、快慢思考的一體化,以及策略(Policy)和價值(Critic)的一體化。
“我們心目的大一統(tǒng)模型,是只使用單一的Transformer網(wǎng)絡,就能實現(xiàn)多模態(tài)的理解和生成。但是對于我們至簡這樣的初創(chuàng)團隊來說,從零訓練一個原生多模態(tài)的模型是非常困難的。”
在此背景下,至簡破局的方法是采用MoT (Mixture-of-Transformer)架構(gòu)。這是一種在已有模型之上實現(xiàn)原生多模態(tài)能力的架構(gòu),其核心思想是,讓不同的模態(tài)通過共享的attention層層實現(xiàn)跨模態(tài)的信息交互。
![]()
“它的輸入被統(tǒng)一為Token序列,不同模態(tài)保留獨立的QKV和FFN網(wǎng)絡,但是通過共享的attention層進行聯(lián)合建模。”
相比于從零訓練原生多模態(tài)模型,MoT的優(yōu)勢在于它可以復用已有的單模態(tài)預訓練模型,成本非常低。此外,它可以靈活擴展新模態(tài),便于靈巧操作的拓展。
同時,通過實踐,至簡團隊發(fā)現(xiàn)擴散模型在3D動作生成的效果上明顯優(yōu)于自回歸模型。而由于MoT的不同子網(wǎng)絡可采用不同的訓練目標,所以它天然兼容了自回歸和擴散兩種生成方式。
至簡基座模型LaST?
賈鵬介紹稱,至簡動力的具身基座模型LaST?,將理解和生成合一,引入了高效的時空多模態(tài)CoT,將VLA和世界模型的優(yōu)點結(jié)合在一起,在緊湊的隱空間中對物理世界進行建模和預測。
在隱空間(Latent space)中,LaST?會同時自回歸地預測二維圖像、三維點云以及本體的感知狀態(tài),實現(xiàn)了多模態(tài)的思維鏈,獲得優(yōu)秀的空間推理能力。同時,多模態(tài)的時空CoT也被擴展到未來的關(guān)鍵幀上,實現(xiàn)了時序上的預測和生成。
經(jīng)過大規(guī)模的預訓練,MoT實現(xiàn)了在快慢系統(tǒng)的統(tǒng)一架構(gòu)中自主切換,有效地實現(xiàn)了深度思考與快速響應之間的無縫交互,從而實現(xiàn)了更高的推理效率,并保證了高幀率、低延時的要求。
![]()
至簡團隊在仿真任務和真實場景上評估了LaST?的效率。結(jié)果顯示,在仿真和真實場景中,LaST?均實現(xiàn)了SOTA,大幅超越了之前的基座模型,同時比顯式的CoT方法實現(xiàn)了約14倍的加速。
在長程任務中,LaST?也具備很好的容錯能力,即使中間被故意打斷,它也能從錯誤中快速恢復。
「每個模態(tài)僅需一個Token」
“我們發(fā)現(xiàn),2D視覺語義、3D空間結(jié)構(gòu)以及機器人自身狀態(tài)都需納入考量——模態(tài)越豐富,精細操作成功率越高。由此,多模態(tài)建模產(chǎn)生的大量Token引發(fā)業(yè)界擔憂,因其或許會降低模型推理效率。”
但賈鵬指出,實際上,每個模態(tài)僅需一個Token,再增加Token也并不會顯著提高成功率。
![]()
“我們還發(fā)現(xiàn),持續(xù)預測幀數(shù)越多,模型效果越好。不過,實際部署中,不同難度任務所需的預測時長不同。通過大規(guī)模預訓練,模型能自適應調(diào)整預測時長,以最佳推理速度完成任務,這實現(xiàn)了另一種形式的快慢系統(tǒng)。”
根據(jù)評估結(jié)果,LaST?在真實和仿真場景中均達SOTA水平,遠超之前基座模型,且比顯式CoT方法加速約14倍。長程任務中,LaST?容錯能力強,即便中間被打斷,也能快速從錯誤中恢復。
![]()
如何應對「災難性遺忘」?
在上文提到的「VLM具身微調(diào)的災難性遺忘」問題中,影響最大的是視覺能力的遺忘。可以發(fā)現(xiàn),隨著VLM模型層數(shù)的加深,視覺特征會逐漸減弱甚至消失。
相比之下,MoT是個非常靈活的架構(gòu),可以將視覺特征注入到更深層的Transformer層中,大幅提升模型性能。
在評估實驗中,LaST?模型僅通過數(shù)十條數(shù)據(jù)就能實現(xiàn)煎雞蛋、盛爆米花,甚至使用筷子這樣復雜的操作。
其中一個案例展示是「3D樂高積木搭建」——先由人搭建積木,并故意遮擋攝像頭,不讓模型看到人是拼搭過程。之后模型會根據(jù)最終狀態(tài)和空白時的初始狀態(tài),推理出整個搭建過程,并驅(qū)動機械臂復刻出相同的形狀。
![]()
“它有自己的思路,搭建過程可能跟人完全不同。我們通過語言的思維鏈描述搭建邏輯和過程,并最終通過動作生成實現(xiàn)積木拼搭。”
數(shù)據(jù)規(guī)模化的最佳方案
目前行業(yè)獲取數(shù)據(jù)有以下幾種方法:
1、合成數(shù)據(jù):可以快速實現(xiàn)數(shù)據(jù)的規(guī)模化,但在柔性物體、可變形物體、透明物體和流體的模擬上存在不足,對觸覺、力覺的模擬上也有所欠缺,無法滿足落地的需求。
2、真機數(shù)據(jù)采集:真機采集和真實任務的Domain Gap是最小的,但是效率非常低下。
3、遙操作:這種半真機采集效率非常高,但其硬件往往需要末端執(zhí)行器和真機保持一致,大大地限制了使用范圍。
4、Ego-centric數(shù)據(jù):基于人類第一視角的視頻,數(shù)據(jù)來源非常廣泛。但實踐下來,此類數(shù)據(jù)質(zhì)量并不高,在需要力、觸覺等精細操作的場景下,僅僅依靠視頻是不夠的。
至簡動力選擇的是便攜式手套進行數(shù)據(jù)采集。它既能保證數(shù)據(jù)采集的效率,也能保證數(shù)據(jù)的質(zhì)量,同時還能很方便地擴展到更多的模態(tài),比如說觸覺、力覺等等。
![]()
“我們認為這是目前數(shù)據(jù)規(guī)模化的最佳方案。這些數(shù)據(jù)不僅可以適配到不同形態(tài)的靈巧手上,同時也能適配到二指和三指夾爪上。”
針對垂直領(lǐng)域任務,高質(zhì)量的SFT數(shù)據(jù)至關(guān)重要。在工廠落地場景中,傳統(tǒng)真機采集往往是不可行的。相比之下,便攜式數(shù)據(jù)手套不僅不影響正常作業(yè),還能通過額外收益提升工人配合度。實踐證明,這種高精度的人手采集數(shù)據(jù)完全能滿足SFT對數(shù)據(jù)質(zhì)量的嚴苛要求,顯著提升了模型在下游任務中的抓取精度與成功率。
強化學習
從99%到100%的最后一公里
如何讓一個通用模型在單一任務上實現(xiàn)100%的成功率?強化學習(RL)已經(jīng)成為行業(yè)共識,但它也存在兩大問題:
1、效率極其低下:具身的強化學習監(jiān)督信號非常稀疏,往往只有動作完成和未完成兩種結(jié)果。為了增加過程監(jiān)督信號,大家往往通過人工干預提供稠密的Reward信號,但隨之而來的負面問題是效率極其低下。
2、容易過擬合:經(jīng)過強化學習之后,模型往往失去了泛化性,過擬合到了單一場景,甚至只是小幅度地挪動一下目標物體的位置,模型都會失效。
賈鵬團隊發(fā)現(xiàn),強化學習,尤其是RLVR,并不會創(chuàng)造新的知識,它只是重新調(diào)整了模型輸出的概率分布,強化學習的能力上限仍然是由基座模型的能力決定的。
![]()
為解決RL問題,至簡動力采取了虛實結(jié)合的方法,提出了Twin-RL框架。
“我們通過3D GS(高斯?jié)姙R)把場景重建為虛擬的數(shù)字孿生。在虛擬環(huán)境中,訓練的并非具體操作,而是放大模型的探索空間,并且通過并行訓練大幅提升探索的效率。另一方面,我們可以鎖定模型更容易出錯的位置,來指導真機的強化學習,提升效率。”
同時,當前的強化學習大多數(shù)都是針對動作(Action)的強化,但是Action往往只有成功和失敗兩種狀態(tài),監(jiān)督十分稀疏。而至簡動力的基座模型具備了稠密的時空特征,可以針對過程中的特征進行更加稠密和更加高效的強化訓練。
![]()
基于此,至簡也提出了DoubleRL強化學習框架,在特征生成和動作生成兩個層面進行雙重的強化學習,效果和效率進一步提升。
“在大多數(shù)下游任務中,我們都可以在20分鐘內(nèi)實現(xiàn)100%的成功率,而且這個成功率是具備泛化性的成功率,在任意位置都能達到100%。”
![]()
由此看來,至簡動力已經(jīng)形成了一套行之有效的方法論:更高上限的一體化模型、更高效的數(shù)據(jù)采集方式、更高效的強化學習框架、端側(cè)的推理引擎和訓練框架。通過這套方法論,至簡可以在保證模型泛化性的同時,在最短的時間內(nèi)實現(xiàn)單一任務的100%成功率。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.