網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

推理成功率暴漲 30%！極佳視界發(fā)布全新世界模型GigaWorld-Policy

2026-03-30 13:27:50　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

近日，極佳視界（GigaAI）正式發(fā)布全新的「世界-動(dòng)作模型」（World-Action Model，簡(jiǎn)稱 WAM）—— GigaWorld-Policy。這款模型直擊現(xiàn)有具身大模型「推理慢、訓(xùn)練難」的行業(yè)痛點(diǎn)，交出了一份堪稱驚艷的成績(jī)單：推理速度飆升 10 倍，訓(xùn)練效率提升 10 倍，真機(jī)任務(wù)成功率更是大幅上漲了 30%。GigaWorld-Policy 的發(fā)布，不僅全面刷新了主流 WAM 模型的性能上限，更意味著由世界模型驅(qū)動(dòng)的機(jī)器人，真正邁入了「高頻實(shí)時(shí)閉環(huán)控制」的落地新紀(jì)元。

項(xiàng)目主頁：https://gigaai-research.github.io/GigaWorld-Policy/
論文：https://arxiv.org/pdf/2603.17240
代碼：https://github.com/open-gigaai/giga-world-policy

視頻地址：https://mp.weixin.qq.com/s/1TtkZLC-gS4RoH8cyod7Zg?click_id=41

破局跨模態(tài)耦合：

「動(dòng)作為中心」架構(gòu)讓推理提速 10 倍

傳統(tǒng)的 WAM 架構(gòu)往往深陷于「視頻預(yù)測(cè)」的泥潭中：在推理階段需要同時(shí)生成未來視覺畫面與動(dòng)作，這種跨模態(tài)的深度耦合帶來了極高的計(jì)算延遲。為了打破這一瓶頸，GigaWorld-Policy 另辟蹊徑，創(chuàng)新性地提出了一種「以動(dòng)作為中心（Action-Centered）」的模型范式。

該架構(gòu)基于極佳視界輕量級(jí)世界模型 GigaWorld-0.5 打造，在底層結(jié)構(gòu)上實(shí)現(xiàn)了多模態(tài)表征的統(tǒng)一。它將視覺觀測(cè)、機(jī)器人狀態(tài)以及動(dòng)作序列映射到同一個(gè)嵌入空間中，通過單一的 Transformer 主干網(wǎng)絡(luò)進(jìn)行協(xié)同建模，徹底消除了傳統(tǒng)多分支架構(gòu)中的模態(tài)割裂感。其最核心亮點(diǎn)在于「訓(xùn)繁推簡(jiǎn)」的混合策略：

訓(xùn)練期「加碼」：模型引入了因果掩碼（Causal Mask）機(jī)制，將動(dòng)作 Token 與未來視覺 Token 進(jìn)行統(tǒng)一建模。這使得動(dòng)作預(yù)測(cè)任務(wù)能夠充分享受未來視覺動(dòng)態(tài)帶來的高密度監(jiān)督信號(hào)。
推理期「減負(fù)」：在實(shí)際部署中，模型果斷舍棄了沉重的視頻預(yù)測(cè)分支，僅保留輕量化的動(dòng)作生成模塊。

這種「卸下包袱」的設(shè)計(jì)，從根本上規(guī)避了結(jié)構(gòu)性計(jì)算冗余。與 Motus、Cosmos Policy 等當(dāng)前主流模型相比，GigaWorld-Policy 在保證高質(zhì)量策略輸出的同時(shí)，推理速度實(shí)現(xiàn)了 10 倍的跨越式提升，其緊湊的多視角拼接表征也大幅降低了顯存占用，為工業(yè)級(jí)的大規(guī)模部署鋪平了道路。

視頻地址：https://mp.weixin.qq.com/s/1TtkZLC-gS4RoH8cyod7Zg?click_id=41

壓榨視頻數(shù)據(jù)價(jià)值：

分層訓(xùn)練法帶來 10 倍效率飛躍

如何用更少的數(shù)據(jù)、更短的時(shí)間訓(xùn)練出聰明的「具身大腦」？GigaWorld-Policy 給出的答案是三段式高效訓(xùn)練 Pipeline，將海量視頻數(shù)據(jù)的價(jià)值挖掘到了極致：

通用物理世界預(yù)訓(xùn)練：首先，利用海量互聯(lián)網(wǎng)視頻數(shù)據(jù)，讓 GigaWorld-0.5 建立起對(duì)通用物理規(guī)律和視覺動(dòng)態(tài)的基礎(chǔ)認(rèn)知。
具身場(chǎng)景沉浸式微調(diào)：隨后，引入數(shù)千小時(shí)涵蓋第一人稱、真機(jī)及仿真的多源操作視頻。在這一階段，模型專攻「具身交互」場(chǎng)景，掌握特定空間下的時(shí)空演變規(guī)律。
極小樣本的動(dòng)作對(duì)齊：最后，在擁有強(qiáng)大「世界觀」的基礎(chǔ)上，僅需極少量的真機(jī)動(dòng)作標(biāo)簽數(shù)據(jù)進(jìn)行訓(xùn)練，即可將預(yù)訓(xùn)練世界模型與機(jī)器人的動(dòng)作預(yù)測(cè)精準(zhǔn)對(duì)齊，快速打通「觀測(cè) - 動(dòng)作 - 未來視覺」的因果映射。

這種「基礎(chǔ)能力大規(guī)模預(yù)訓(xùn)練 + 任務(wù)適配小樣本微調(diào)」的分層范式，相較傳統(tǒng) VLA 訓(xùn)練方案，實(shí)現(xiàn)了整體訓(xùn)練效率 10 倍提升。

真機(jī)實(shí)測(cè)霸榜：

成功率絕對(duì)值暴漲 30%

拋開理論數(shù)據(jù)，真機(jī)實(shí)操才是檢驗(yàn)具身智能的唯一標(biāo)準(zhǔn)。在涵蓋了抓取、裝配、物品整理等多種典型機(jī)器人任務(wù)的嚴(yán)苛評(píng)測(cè)中，GigaWorld-Policy 在「成功率 - 推理速度」的權(quán)衡曲線上找到了當(dāng)前行業(yè)的最優(yōu)解，是唯一同時(shí)實(shí)現(xiàn)高成功率與高實(shí)時(shí)控制頻率的模型。

成功率斷層領(lǐng)先GigaWorld-Policy 在真機(jī)任務(wù)中的平均成功率逼近 85%。面對(duì) Cosmos-Policy 等強(qiáng)勁對(duì)手，其成功率絕對(duì)值提升了超過 30%。即便對(duì)比某些主打極速推理的 Pi 系列模型，它依然憑借對(duì)物理世界規(guī)律的深刻理解穩(wěn)占上風(fēng)。
跨越實(shí)時(shí)控制門檻：對(duì)比 Motus，GigaWorld-Policy 不僅大幅縮減了顯存占用，更實(shí)現(xiàn)了 10 倍的推理提速。這種毫秒級(jí)的響應(yīng)能力至關(guān)重要——只有高效的執(zhí)行速度，機(jī)器人才能游刃有余地應(yīng)對(duì)現(xiàn)實(shí)環(huán)境中的動(dòng)態(tài)干擾和執(zhí)行誤差，這也是其高成功率的底層基石。

GigaWorld-Policy 的誕生，是對(duì)傳統(tǒng)具身智能策略學(xué)習(xí)的一次重要范式重構(gòu)。它切中了傳統(tǒng) WAM 架構(gòu)「推理延遲高、視覺與動(dòng)作表征耦合過深」的問題。在訓(xùn)練時(shí)，利用未來視頻生成為動(dòng)作學(xué)習(xí)提供密集的動(dòng)力學(xué)約束；在推理時(shí)，則輕裝上陣，實(shí)現(xiàn)了效率與性能的雙重躍升。GigaWorld-Policy 讓世界模型在機(jī)器人領(lǐng)域的落地應(yīng)用更具實(shí)用性，也為機(jī)器人在真實(shí)物理世界中的實(shí)時(shí)、高效操控，提供了一套極具價(jià)值的全新解法。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.