![]()
近日,極佳視界(GigaAI)正式發(fā)布全新的「世界-動(dòng)作模型」(World-Action Model,簡(jiǎn)稱 WAM)—— GigaWorld-Policy。這款模型直擊現(xiàn)有具身大模型「推理慢、訓(xùn)練難」的行業(yè)痛點(diǎn),交出了一份堪稱驚艷的成績(jī)單:推理速度飆升 10 倍,訓(xùn)練效率提升 10 倍,真機(jī)任務(wù)成功率更是大幅上漲了 30%。GigaWorld-Policy 的發(fā)布,不僅全面刷新了主流 WAM 模型的性能上限,更意味著由世界模型驅(qū)動(dòng)的機(jī)器人,真正邁入了「高頻實(shí)時(shí)閉環(huán)控制」的落地新紀(jì)元。
![]()
- 項(xiàng)目主頁:https://gigaai-research.github.io/GigaWorld-Policy/
- 論文:https://arxiv.org/pdf/2603.17240
- 代碼:https://github.com/open-gigaai/giga-world-policy
![]()
視頻地址:https://mp.weixin.qq.com/s/1TtkZLC-gS4RoH8cyod7Zg?click_id=41
破局跨模態(tài)耦合:
「動(dòng)作為中心」架構(gòu)讓推理提速 10 倍
傳統(tǒng)的 WAM 架構(gòu)往往深陷于「視頻預(yù)測(cè)」的泥潭中:在推理階段需要同時(shí)生成未來視覺畫面與動(dòng)作,這種跨模態(tài)的深度耦合帶來了極高的計(jì)算延遲。為了打破這一瓶頸,GigaWorld-Policy 另辟蹊徑,創(chuàng)新性地提出了一種「以動(dòng)作為中心(Action-Centered)」的模型范式。
該架構(gòu)基于極佳視界輕量級(jí)世界模型 GigaWorld-0.5 打造,在底層結(jié)構(gòu)上實(shí)現(xiàn)了多模態(tài)表征的統(tǒng)一。它將視覺觀測(cè)、機(jī)器人狀態(tài)以及動(dòng)作序列映射到同一個(gè)嵌入空間中,通過單一的 Transformer 主干網(wǎng)絡(luò)進(jìn)行協(xié)同建模,徹底消除了傳統(tǒng)多分支架構(gòu)中的模態(tài)割裂感。其最核心亮點(diǎn)在于「訓(xùn)繁推簡(jiǎn)」的混合策略:
- 訓(xùn)練期「加碼」:模型引入了因果掩碼(Causal Mask)機(jī)制,將動(dòng)作 Token 與未來視覺 Token 進(jìn)行統(tǒng)一建模。這使得動(dòng)作預(yù)測(cè)任務(wù)能夠充分享受未來視覺動(dòng)態(tài)帶來的高密度監(jiān)督信號(hào)。
- 推理期「減負(fù)」:在實(shí)際部署中,模型果斷舍棄了沉重的視頻預(yù)測(cè)分支,僅保留輕量化的動(dòng)作生成模塊。
這種「卸下包袱」的設(shè)計(jì),從根本上規(guī)避了結(jié)構(gòu)性計(jì)算冗余。與 Motus、Cosmos Policy 等當(dāng)前主流模型相比,GigaWorld-Policy 在保證高質(zhì)量策略輸出的同時(shí),推理速度實(shí)現(xiàn)了 10 倍的跨越式提升,其緊湊的多視角拼接表征也大幅降低了顯存占用,為工業(yè)級(jí)的大規(guī)模部署鋪平了道路。
![]()
![]()
視頻地址:https://mp.weixin.qq.com/s/1TtkZLC-gS4RoH8cyod7Zg?click_id=41
壓榨視頻數(shù)據(jù)價(jià)值:
分層訓(xùn)練法帶來 10 倍效率飛躍
如何用更少的數(shù)據(jù)、更短的時(shí)間訓(xùn)練出聰明的「具身大腦」?GigaWorld-Policy 給出的答案是三段式高效訓(xùn)練 Pipeline,將海量視頻數(shù)據(jù)的價(jià)值挖掘到了極致:
- 通用物理世界預(yù)訓(xùn)練:首先,利用海量互聯(lián)網(wǎng)視頻數(shù)據(jù),讓 GigaWorld-0.5 建立起對(duì)通用物理規(guī)律和視覺動(dòng)態(tài)的基礎(chǔ)認(rèn)知。
- 具身場(chǎng)景沉浸式微調(diào):隨后,引入數(shù)千小時(shí)涵蓋第一人稱、真機(jī)及仿真的多源操作視頻。在這一階段,模型專攻「具身交互」場(chǎng)景,掌握特定空間下的時(shí)空演變規(guī)律。
- 極小樣本的動(dòng)作對(duì)齊:最后,在擁有強(qiáng)大「世界觀」的基礎(chǔ)上,僅需極少量的真機(jī)動(dòng)作標(biāo)簽數(shù)據(jù)進(jìn)行訓(xùn)練,即可將預(yù)訓(xùn)練世界模型與機(jī)器人的動(dòng)作預(yù)測(cè)精準(zhǔn)對(duì)齊,快速打通「觀測(cè) - 動(dòng)作 - 未來視覺」的因果映射。
這種「基礎(chǔ)能力大規(guī)模預(yù)訓(xùn)練 + 任務(wù)適配小樣本微調(diào)」的分層范式,相較傳統(tǒng) VLA 訓(xùn)練方案,實(shí)現(xiàn)了整體訓(xùn)練效率 10 倍提升。
![]()
真機(jī)實(shí)測(cè)霸榜:
成功率絕對(duì)值暴漲 30%
拋開理論數(shù)據(jù),真機(jī)實(shí)操才是檢驗(yàn)具身智能的唯一標(biāo)準(zhǔn)。在涵蓋了抓取、裝配、物品整理等多種典型機(jī)器人任務(wù)的嚴(yán)苛評(píng)測(cè)中,GigaWorld-Policy 在「成功率 - 推理速度」的權(quán)衡曲線上找到了當(dāng)前行業(yè)的最優(yōu)解,是唯一同時(shí)實(shí)現(xiàn)高成功率與高實(shí)時(shí)控制頻率的模型。
- 成功率斷層領(lǐng)先GigaWorld-Policy 在真機(jī)任務(wù)中的平均成功率逼近 85%。面對(duì) Cosmos-Policy 等強(qiáng)勁對(duì)手,其成功率絕對(duì)值提升了超過 30%。即便對(duì)比某些主打極速推理的 Pi 系列模型,它依然憑借對(duì)物理世界規(guī)律的深刻理解穩(wěn)占上風(fēng)。
- 跨越實(shí)時(shí)控制門檻:對(duì)比 Motus,GigaWorld-Policy 不僅大幅縮減了顯存占用,更實(shí)現(xiàn)了 10 倍的推理提速。這種毫秒級(jí)的響應(yīng)能力至關(guān)重要——只有高效的執(zhí)行速度,機(jī)器人才能游刃有余地應(yīng)對(duì)現(xiàn)實(shí)環(huán)境中的動(dòng)態(tài)干擾和執(zhí)行誤差,這也是其高成功率的底層基石。
![]()
GigaWorld-Policy 的誕生,是對(duì)傳統(tǒng)具身智能策略學(xué)習(xí)的一次重要范式重構(gòu)。它切中了傳統(tǒng) WAM 架構(gòu)「推理延遲高、視覺與動(dòng)作表征耦合過深」的問題。在訓(xùn)練時(shí),利用未來視頻生成為動(dòng)作學(xué)習(xí)提供密集的動(dòng)力學(xué)約束;在推理時(shí),則輕裝上陣,實(shí)現(xiàn)了效率與性能的雙重躍升。GigaWorld-Policy 讓世界模型在機(jī)器人領(lǐng)域的落地應(yīng)用更具實(shí)用性,也為機(jī)器人在真實(shí)物理世界中的實(shí)時(shí)、高效操控,提供了一套極具價(jià)值的全新解法。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.