337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

至簡動力賈鵬:用「極簡」架構(gòu),讓機器人20分鐘即達100%成功率

0
分享至

人物簡介

賈鵬|至簡動力創(chuàng)始人兼CEO,曾任理想汽車智駕技術(shù)研發(fā)負責人,主導多項關(guān)鍵技術(shù)研發(fā)。此前在英偉達、IBM任職,經(jīng)驗深厚。2025年他進入具身智能領(lǐng)域,創(chuàng)立至簡動力,提出創(chuàng)新架構(gòu),半年獲五輪20億融資。

在近日舉辦的GTC上,賈鵬以新身份首次深入剖析了具身智能通用能力與工業(yè)高要求之間的矛盾,并重點分享了至簡動力在基座模型上的突破性實踐——基于「大一統(tǒng)」的基座模型架構(gòu),其團隊已可實現(xiàn)在短短20分鐘內(nèi),實現(xiàn)下游任務100%的成功率。

骨感現(xiàn)實中的巨大鴻溝

在具身智能實際的落地過程中,存在一個巨大的現(xiàn)實鴻溝目前具身智能的整體泛化能力比較差,尤其在靈巧操作任務上,幾乎沒有任何泛化能力可言,大多數(shù)場景中都存在落地難題。

為了制作Demo,大家往往會針對單一任務大量采集數(shù)據(jù)。可即便如此,很多精細操作任務的成功率也難以提高。與此相對的是,在工廠等應用場景中,只有達到100%的成功率,才能真正形成生產(chǎn)力,對用戶產(chǎn)生價值。

“通用能力的不足與用戶的高要求之間存在著巨大鴻溝,這也是具身智能發(fā)展至今仍未大規(guī)模落地的真正原因。”

賈鵬介紹稱,至簡動力(Simplexity Robotics)希望以極簡架構(gòu)破解復雜難題——通過打造簡單統(tǒng)一的底層框架,致力于讓通用基座模型兼具「高泛化性」與「100%任務成功率」,跨越落地鴻溝,形成真正的工業(yè)生產(chǎn)力。

要想達成這一目標,需要在四個方面努力:

1、構(gòu)建高上限的基礎(chǔ)模型;2、更高效的數(shù)據(jù)采集方式;3、確保模型能快速達到100%的成功率;4、實現(xiàn)端側(cè)的實時推理和訓練



他尤其指出,很多工廠對節(jié)拍和延時有非常高的要求,系統(tǒng)必須具備實時的推理能力。同時,很多工廠因為保密原因不允許接入外網(wǎng),因此具身模型必須部署在端側(cè),這極具挑戰(zhàn)。

三大技術(shù)流派的利與弊

賈鵬介紹稱,目前具身智能模型的技術(shù)路線并不收斂,行業(yè)內(nèi)還存在路線之爭,主要分為以下三個流派:

1、雙系統(tǒng)范式:利用一個較大的VLM進行指令的理解和任務的拆解,再通過一個較小的、端到端的VLA模型做快速的執(zhí)行。

2、端到端的VLA模型:它將指令理解、任務拆解以及動作生成合為一個整體,端到端地去完成任務。

3、世界模型:這是最近比較熱門的路線,它不再以傳統(tǒng)的VLM作為基礎(chǔ),而是基于視頻生成模型或者是高斯?jié)姙R生成模型,實現(xiàn)對世界的理解、預測以及動作的生成。



這三條路線都有各自的優(yōu)勢和不足。

1、雙系統(tǒng)基于VLM對任務的拆解和調(diào)度,其優(yōu)點是可以處理長程任務。但由于雙系統(tǒng)是由兩個不同的模型構(gòu)成的,二者運行幀率不同,因此協(xié)同與聯(lián)合訓練都非常困難。

“事實上,我們團隊是全球最早提出并量產(chǎn)雙系統(tǒng)的團隊,因此踩過非常多的坑。”

2、端到端VLA模型普遍基于預訓練的VLM去做具身的指令微調(diào)。在此過程中,大家都發(fā)現(xiàn)災難性遺忘是不可避免的:第一是視覺能力的遺忘,第二是語言的思維鏈(CoT)能力的遺忘。

“行業(yè)已普遍認為視覺是具身智能中最重要的模態(tài),那么一旦視覺識別能力下降,對靈巧操作的影響就非常大。因此,很多VLA模型訓練出來之后,泛化能力幾乎為零。”

3、世界模型相對于雙系統(tǒng)和端到端VLA,是一個巨大的范式變化——它從「以語言為中心」轉(zhuǎn)向「以視覺為中心」、從「以理解為主」轉(zhuǎn)向「以生成為主」。

不過,該方法同樣伴隨著語言中的幻覺問題。所以目前世界模型在靈巧操作上的性能并沒有超過VLA。同時它還有一個劣勢,就是對算力的要求非常高

基座模型的「大一統(tǒng)」設(shè)計哲學

在此背景下,至簡動力認為,所有的模型設(shè)計都應追求結(jié)構(gòu)簡單。隨著數(shù)據(jù)的增加,這種沒有太多人為先驗設(shè)計的結(jié)構(gòu),上限反而會更高。

首先賈鵬認為,具身基礎(chǔ)模型需要四種能力:

1、多模態(tài)理解與建構(gòu):它需要對語言指令、任務邏輯、3D空間及其時序變化以及本體自身的狀態(tài)進行統(tǒng)一的理解和建構(gòu),這意味著模型的輸入天生就是多模態(tài)的,而且多模態(tài)之間必須進行統(tǒng)一的建模和編碼,而非簡單的跨模態(tài)對齊。

2、閉環(huán)交互與多模態(tài)生成:模型在理解指令和任務的基礎(chǔ)之上,需要與世界進行交互,而這個交互一定是閉環(huán)的——動作會改變世界,同時世界的變化也會影響動作。這就意味著需要同時對世界的變化和動作進行聯(lián)合生成和預測,所以模型的輸出也是多模態(tài)的

3、快慢思考:模型對實時性的要求非常高,所以其結(jié)構(gòu)必須非常適合端側(cè)的推理。但僅僅是條件反射式的響應還是不夠的,它需要具備在關(guān)鍵時刻深入思考的能力,并且能根據(jù)工況自適應地調(diào)整思考的速度。

4、自我評估與調(diào)整:模型還需要具備對自身狀態(tài)作出評估的能力,并且根據(jù)評估的狀態(tài)調(diào)整動作的生成。

綜上所述,這樣的模型實際上綜合了雙系統(tǒng)、端到端VLA和世界模型的所有優(yōu)點。“所以,未來通用的具身基座模型,一定是一個大一統(tǒng)的模型。”所謂「大一統(tǒng)」,是四個方面的一體化:

?多模態(tài)理解的一體化、多模態(tài)生成的一體化、快慢思考的一體化,以及策略(Policy)和價值(Critic)的一體化。

“我們心目的大一統(tǒng)模型,是只使用單一的Transformer網(wǎng)絡,就能實現(xiàn)多模態(tài)的理解和生成。但是對于我們至簡這樣的初創(chuàng)團隊來說,從零訓練一個原生多模態(tài)的模型是非常困難的。”

在此背景下,至簡破局的方法是采用MoT (Mixture-of-Transformer)架構(gòu)。這是一種在已有模型之上實現(xiàn)原生多模態(tài)能力的架構(gòu),其核心思想是,讓不同的模態(tài)通過共享的attention層層實現(xiàn)跨模態(tài)的信息交互。



“它的輸入被統(tǒng)一為Token序列,不同模態(tài)保留獨立的QKV和FFN網(wǎng)絡,但是通過共享的attention層進行聯(lián)合建模。”

相比于從零訓練原生多模態(tài)模型,MoT的優(yōu)勢在于它可以復用已有的單模態(tài)預訓練模型,成本非常低。此外,它可以靈活擴展新模態(tài),便于靈巧操作的拓展。

同時,通過實踐,至簡團隊發(fā)現(xiàn)擴散模型在3D動作生成的效果上明顯優(yōu)于自回歸模型。而由于MoT的不同子網(wǎng)絡可采用不同的訓練目標,所以它天然兼容了自回歸和擴散兩種生成方式。

至簡基座模型LaST?

賈鵬介紹稱,至簡動力的具身基座模型LaST?,將理解和生成合一,引入了高效的時空多模態(tài)CoT,將VLA和世界模型的優(yōu)點結(jié)合在一起,在緊湊的隱空間中對物理世界進行建模和預測。

在隱空間(Latent space)中,LaST?會同時自回歸地預測二維圖像、三維點云以及本體的感知狀態(tài),實現(xiàn)了多模態(tài)的思維鏈,獲得優(yōu)秀的空間推理能力。同時,多模態(tài)的時空CoT也被擴展到未來的關(guān)鍵幀上,實現(xiàn)了時序上的預測和生成。

經(jīng)過大規(guī)模的預訓練,MoT實現(xiàn)了在快慢系統(tǒng)的統(tǒng)一架構(gòu)中自主切換,有效地實現(xiàn)了深度思考與快速響應之間的無縫交互,從而實現(xiàn)了更高的推理效率,并保證了高幀率、低延時的要求。



至簡團隊在仿真任務和真實場景上評估了LaST?的效率。結(jié)果顯示,在仿真和真實場景中,LaST?均實現(xiàn)了SOTA,大幅超越了之前的基座模型,同時比顯式的CoT方法實現(xiàn)了約14倍的加速。

在長程任務中,LaST?也具備很好的容錯能力,即使中間被故意打斷,它也能從錯誤中快速恢復。

「每個模態(tài)僅需一個Token」

“我們發(fā)現(xiàn),2D視覺語義、3D空間結(jié)構(gòu)以及機器人自身狀態(tài)都需納入考量——模態(tài)越豐富,精細操作成功率越高。由此,多模態(tài)建模產(chǎn)生的大量Token引發(fā)業(yè)界擔憂,因其或許會降低模型推理效率。”

但賈鵬指出,實際上,每個模態(tài)僅需一個Token,再增加Token也并不會顯著提高成功率。



“我們還發(fā)現(xiàn),持續(xù)預測幀數(shù)越多,模型效果越好。不過,實際部署中,不同難度任務所需的預測時長不同。通過大規(guī)模預訓練,模型能自適應調(diào)整預測時長,以最佳推理速度完成任務,這實現(xiàn)了另一種形式的快慢系統(tǒng)。

根據(jù)評估結(jié)果,LaST?在真實和仿真場景中均達SOTA水平,遠超之前基座模型,且比顯式CoT方法加速約14倍。長程任務中,LaST?容錯能力強,即便中間被打斷,也能快速從錯誤中恢復。



如何應對「災難性遺忘」?

在上文提到的「VLM具身微調(diào)的災難性遺忘」問題中,影響最大的是視覺能力的遺忘。可以發(fā)現(xiàn),隨著VLM模型層數(shù)的加深,視覺特征會逐漸減弱甚至消失。

相比之下,MoT是個非常靈活的架構(gòu),可以將視覺特征注入到更深層的Transformer層中,大幅提升模型性能。

在評估實驗中,LaST?模型僅通過數(shù)十條數(shù)據(jù)就能實現(xiàn)煎雞蛋、盛爆米花,甚至使用筷子這樣復雜的操作。

其中一個案例展示是「3D樂高積木搭建」——先由人搭建積木,并故意遮擋攝像頭,不讓模型看到人是拼搭過程。之后模型會根據(jù)最終狀態(tài)和空白時的初始狀態(tài),推理出整個搭建過程,并驅(qū)動機械臂復刻出相同的形狀。



“它有自己的思路,搭建過程可能跟人完全不同。我們通過語言的思維鏈描述搭建邏輯和過程,并最終通過動作生成實現(xiàn)積木拼搭。”

數(shù)據(jù)規(guī)模化的最佳方案

目前行業(yè)獲取數(shù)據(jù)有以下幾種方法:

1、合成數(shù)據(jù):可以快速實現(xiàn)數(shù)據(jù)的規(guī)模化,但在柔性物體、可變形物體、透明物體和流體的模擬上存在不足,對觸覺、力覺的模擬上也有所欠缺,無法滿足落地的需求。

2、真機數(shù)據(jù)采集:真機采集和真實任務的Domain Gap是最小的,但是效率非常低下。

3、遙操作:這種半真機采集效率非常高,但其硬件往往需要末端執(zhí)行器和真機保持一致,大大地限制了使用范圍。

4、Ego-centric數(shù)據(jù):基于人類第一視角的視頻,數(shù)據(jù)來源非常廣泛。但實踐下來,此類數(shù)據(jù)質(zhì)量并不高,在需要力、觸覺等精細操作的場景下,僅僅依靠視頻是不夠的。

至簡動力選擇的是便攜式手套進行數(shù)據(jù)采集。它既能保證數(shù)據(jù)采集的效率,也能保證數(shù)據(jù)的質(zhì)量,同時還能很方便地擴展到更多的模態(tài),比如說觸覺、力覺等等。



我們認為這是目前數(shù)據(jù)規(guī)模化的最佳方案。這些數(shù)據(jù)不僅可以適配到不同形態(tài)的靈巧手上,同時也能適配到二指和三指夾爪上。”

針對垂直領(lǐng)域任務,高質(zhì)量的SFT數(shù)據(jù)至關(guān)重要。在工廠落地場景中,傳統(tǒng)真機采集往往是不可行的。相比之下,便攜式數(shù)據(jù)手套不僅不影響正常作業(yè),還能通過額外收益提升工人配合度。實踐證明,這種高精度的人手采集數(shù)據(jù)完全能滿足SFT對數(shù)據(jù)質(zhì)量的嚴苛要求,顯著提升了模型在下游任務中的抓取精度與成功率。

強化學習

從99%到100%的最后一公里

如何讓一個通用模型在單一任務上實現(xiàn)100%的成功率?強化學習(RL)已經(jīng)成為行業(yè)共識,但它也存在兩大問題:

1、效率極其低下:具身的強化學習監(jiān)督信號非常稀疏,往往只有動作完成和未完成兩種結(jié)果。為了增加過程監(jiān)督信號,大家往往通過人工干預提供稠密的Reward信號,但隨之而來的負面問題是效率極其低下。

2、容易過擬合:經(jīng)過強化學習之后,模型往往失去了泛化性,過擬合到了單一場景,甚至只是小幅度地挪動一下目標物體的位置,模型都會失效。

賈鵬團隊發(fā)現(xiàn),強化學習,尤其是RLVR,并不會創(chuàng)造新的知識,它只是重新調(diào)整了模型輸出的概率分布,強化學習的能力上限仍然是由基座模型的能力決定的。



為解決RL問題,至簡動力采取了虛實結(jié)合的方法,提出了Twin-RL框架。

“我們通過3D GS(高斯?jié)姙R)把場景重建為虛擬的數(shù)字孿生。在虛擬環(huán)境中,訓練的并非具體操作,而是放大模型的探索空間,并且通過并行訓練大幅提升探索的效率。另一方面,我們可以鎖定模型更容易出錯的位置,來指導真機的強化學習,提升效率。”

同時,當前的強化學習大多數(shù)都是針對動作(Action)的強化,但是Action往往只有成功和失敗兩種狀態(tài),監(jiān)督十分稀疏。而至簡動力的基座模型具備了稠密的時空特征,可以針對過程中的特征進行更加稠密和更加高效的強化訓練。



基于此,至簡也提出了DoubleRL強化學習框架,在特征生成和動作生成兩個層面進行雙重的強化學習,效果和效率進一步提升。

“在大多數(shù)下游任務中,我們都可以在20分鐘內(nèi)實現(xiàn)100%的成功率,而且這個成功率是具備泛化性的成功率,在任意位置都能達到100%。”



由此看來,至簡動力已經(jīng)形成了一套行之有效的方法論:更高上限的一體化模型、更高效的數(shù)據(jù)采集方式、更高效的強化學習框架、端側(cè)的推理引擎和訓練框架。通過這套方法論,至簡可以在保證模型泛化性的同時,在最短的時間內(nèi)實現(xiàn)單一任務的100%成功率。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
美國繞月飛船返回:遭受2800℃灼燒,隔熱罩最厚僅7.6厘米!

美國繞月飛船返回:遭受2800℃灼燒,隔熱罩最厚僅7.6厘米!

火星一號
2026-04-11 00:58:23
交易規(guī)則重大調(diào)整!A股風險警示股告別5%漲跌幅,涉超130股

交易規(guī)則重大調(diào)整!A股風險警示股告別5%漲跌幅,涉超130股

北京商報
2026-04-10 19:47:03
馬伊琍公布喜訊不到24小時,文章高調(diào)求"復合" 姚笛才是笑到最后

馬伊琍公布喜訊不到24小時,文章高調(diào)求"復合" 姚笛才是笑到最后

小椰的奶奶
2026-04-11 00:25:15
以色列,終成人類公敵!

以色列,終成人類公敵!

燕梳樓頻道
2026-04-10 15:02:39
“只是為了取樂”,以色列又大開殺戒

“只是為了取樂”,以色列又大開殺戒

南風窗
2026-04-10 17:21:14
全紅嬋后續(xù):四人已被帶走,全網(wǎng)追問群主,陳芋汐確認在群里!

全紅嬋后續(xù):四人已被帶走,全網(wǎng)追問群主,陳芋汐確認在群里!

眼光很亮
2026-04-10 13:53:56
江蘇一商場女廁360°無遮擋引熱議,商場回應:正在施工改造,新隔斷到貨后會安裝

江蘇一商場女廁360°無遮擋引熱議,商場回應:正在施工改造,新隔斷到貨后會安裝

大象新聞
2026-04-10 21:44:09
看笑了!大連國腳與浙江外援沖突后捂著嘴交流,都怕因罵人被處罰

看笑了!大連國腳與浙江外援沖突后捂著嘴交流,都怕因罵人被處罰

我愛英超
2026-04-10 22:30:45
53條中日航線3月取消全部航班

53條中日航線3月取消全部航班

第一財經(jīng)資訊
2026-04-10 12:59:47
美伊戰(zhàn)火打醒中東土豪!伊朗導彈一炸,阿聯(lián)酋連夜拔管法國大飛機

美伊戰(zhàn)火打醒中東土豪!伊朗導彈一炸,阿聯(lián)酋連夜拔管法國大飛機

青青子衿
2026-04-10 20:26:18
如愿以償!鄭麗文終于見到了大陸行最重要的人物!

如愿以償!鄭麗文終于見到了大陸行最重要的人物!

阿龍聊軍事
2026-04-10 18:02:00
3-0橫掃!神鋒帽子戲法,意甲爭四格局大亂,3隊積分最多僅差1分

3-0橫掃!神鋒帽子戲法,意甲爭四格局大亂,3隊積分最多僅差1分

足球狗說
2026-04-11 04:39:28
張雪峰離世18天,公司變化大!10點上班7點到,武亮做出三大承諾

張雪峰離世18天,公司變化大!10點上班7點到,武亮做出三大承諾

叨嘮
2026-04-10 19:29:26
難以置信啊!一餐吃掉562339.80元,上海一張消費清單刷爆網(wǎng)絡

難以置信啊!一餐吃掉562339.80元,上海一張消費清單刷爆網(wǎng)絡

火山詩話
2026-04-10 06:49:46
曝愛爾眼科醫(yī)院院長猥褻女經(jīng)理,強行摟抱,細節(jié)曝光,已被停職

曝愛爾眼科醫(yī)院院長猥褻女經(jīng)理,強行摟抱,細節(jié)曝光,已被停職

180視角
2026-04-10 14:27:07
全紅嬋后續(xù):香港媒體爆料,廣東體委撐腰,滬圈京圈打壓窮孩子!

全紅嬋后續(xù):香港媒體爆料,廣東體委撐腰,滬圈京圈打壓窮孩子!

眼光很亮
2026-04-10 14:29:21
路虎加完油逃單后續(xù):調(diào)查線索斷警方結(jié)案,為啥不查網(wǎng)友一語中的

路虎加完油逃單后續(xù):調(diào)查線索斷警方結(jié)案,為啥不查網(wǎng)友一語中的

潮鹿逐夢
2026-04-10 15:28:06
大外交|王毅訪朝延續(xù)高層互動勢頭,中朝多領(lǐng)域交流回暖

大外交|王毅訪朝延續(xù)高層互動勢頭,中朝多領(lǐng)域交流回暖

澎湃新聞
2026-04-10 20:02:30
169元路由器塞了星閃芯片,TP-LINK把牙膏擠爆了

169元路由器塞了星閃芯片,TP-LINK把牙膏擠爆了

薛定諤的BUG
2026-04-10 09:07:18
鄭麗文女保鏢火了!她的眼神讓全場震驚。

鄭麗文女保鏢火了!她的眼神讓全場震驚。

小貓娛樂叭叭
2026-04-09 21:03:31
2026-04-11 07:16:49
RoboX
RoboX
關(guān)注智能汽車、機器人在內(nèi)的具身智能前沿科技
237文章數(shù) 2關(guān)注度
往期回顧 全部

科技要聞

馬斯克狂發(fā)大火箭也養(yǎng)不起AI 年虧50億美元

頭條要聞

73歲騎友抄近路摔倒身亡 女兒:賠償問題無法達成共識

頭條要聞

73歲騎友抄近路摔倒身亡 女兒:賠償問題無法達成共識

體育要聞

17歲賺了一百萬美元,25歲被CBA裁員

娛樂要聞

黃景瑜王玉雯否認戀情!聚會細節(jié)被扒

財經(jīng)要聞

李強主持召開經(jīng)濟形勢專家和企業(yè)家座談會

汽車要聞

搭載第二代刀片電池及閃充技術(shù) 騰勢N8L閃充版預售35萬起

態(tài)度原創(chuàng)

本地
數(shù)碼
房產(chǎn)
健康
公開課

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

數(shù)碼要聞

聯(lián)想推出2026款來酷斗戰(zhàn)者“戰(zhàn)7000”筆記本,7699元起

房產(chǎn)要聞

28條新規(guī)落地!好房子,終于有了“廣州標準”!

干細胞抗衰4大誤區(qū),90%的人都中招

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版