剛剛，一口氣發(fā)3個王炸模型、亮出2026年AGI戰(zhàn)略，昆侖萬維夯爆了

2026-03-27 22:04:09　來源: 機(jī)器之心Pro

北京舉報

分享至

編輯｜杜偉

就在 27 日下午，在火熱進(jìn)行中的 2026 中關(guān)村論壇上，一家國產(chǎn)頭部 AI 廠商引爆了全場！

昆侖萬維，這家 2022 年便已「All in AGI 與 AIGC」的實力玩家，亮出了其實現(xiàn)通用人工智能終極目標(biāo)的最新「武器庫」。

作為兼具國家影響力和國際化視野的高規(guī)格論壇，一年一度的中關(guān)村論壇成為了匯聚國內(nèi)外產(chǎn)業(yè)界、學(xué)術(shù)界、投資界一線代表的舞臺。本屆論壇以「科技創(chuàng)新與產(chǎn)業(yè)創(chuàng)新深度融合」為主題，吸引了來自 100 多個國家和地區(qū)的上千名嘉賓參與。

在會上，昆侖萬維旗下天工 AI 重磅發(fā)布了全新 AI 游戲世界模型 Matrix-Game 3.0AI 視頻大模型 SkyReels V4AI 音樂大模型 Mureka V9，在繼續(xù)強(qiáng)化 AIGC 理解與生成能力的同時，進(jìn)一步推進(jìn) AI 對物理世界的建模與仿真。

一出手就是三大王炸，這三款大模型全都邁進(jìn)了世界第一梯隊，跑分成績尤為亮眼。

其中，SkyReels V4 在 Artificial Analysis 基準(zhǔn)測試中分別奪得「帶音頻文生視頻」和「帶音頻圖生視頻」榜單全球第一，以及圖生視頻（不帶音頻）榜單全球第二（截至 2026 年 3 月 18 日評測結(jié)果）。

在與 Suno V5、前代 Mureka V8 的較量中，Mureka V9 在音樂旋律性、音樂表現(xiàn)力、編配編曲等主觀指標(biāo)上全面勝出

Matrix-Game3.0 主頁：https://matrix-game-v3.github.io/
SkyReels V4 官網(wǎng)：https://www.skyreels.ai/
Mureka V9 官網(wǎng)：https://www.mureka.cn/

在三大新模型集中亮相之外，昆侖萬維對外公布了其2026 AGI 戰(zhàn)略，為完成「實現(xiàn)通用人工智能，讓每個人更好地塑造和表達(dá)自我」的使命給出了更清晰的路徑指引，并釋放出了一個明確的信號：未來三年，AI 發(fā)展將從全模態(tài)能力突破進(jìn)入到平臺化構(gòu)建階段。

天工 AI 董事長兼 CEO 周亞輝

在昆侖萬維的戰(zhàn)略設(shè)想中，在底層全模態(tài)基礎(chǔ)模型與中間層超級智能體之外，還要向上拓展應(yīng)用層，探索更豐富的產(chǎn)品形態(tài)，包括面向內(nèi)容消費(fèi)與生產(chǎn)的短劇平臺DramaWave、面向音樂創(chuàng)作與分發(fā)的平臺Mureka以及面向互動娛樂的游戲世界貓森學(xué)園

當(dāng)這三層實現(xiàn)協(xié)同運(yùn)轉(zhuǎn)，AI 的形態(tài)也隨之發(fā)生變化：不再是一個個孤立的模型或工具，而是一個可以持續(xù)運(yùn)轉(zhuǎn)的系統(tǒng)。

隨著這套體系慢慢跑起來，AI 原生的平臺經(jīng)濟(jì)將開始走向落地。屆時，每一個創(chuàng)作者將擁有匹敵一家公司的全棧生產(chǎn)力。

記得住、跑得久、跑得快

世界模型補(bǔ)齊關(guān)鍵短板

自去年 5 月開源 Matrix-Game 系列 1.0 版本以來，昆侖萬維對交互式世界模型的探索一直沒有停歇。之后 8 月繼續(xù)開源 Matrix-Game 2.0，其被打造成為了業(yè)界首個實時長序列交互式世界模型，在鍵盤按鍵的控制下可以做到分鐘級的實時互動。

此次，Matrix-Game 3.0 補(bǔ)齊了世界模型存在的三大短板：記不住（記憶）、跑不久（長時程）和跑不動（實時 + 分辨率）。其核心價值在于對這些短板進(jìn)行解構(gòu)，貫通數(shù)據(jù)、記憶與實時生成三大環(huán)節(jié)，推動系統(tǒng)從生成片段邁向運(yùn)行世界。

首先數(shù)據(jù)層面，構(gòu)建可無限擴(kuò)展的世界模型數(shù)據(jù)引擎。Matrix-Game 3.0 在數(shù)據(jù)形態(tài)、生產(chǎn)方式和工程層面均給出了創(chuàng)新性解法。

數(shù)據(jù)形態(tài)上，補(bǔ)上過去互聯(lián)網(wǎng)數(shù)據(jù)缺失的關(guān)鍵一環(huán)，從傳統(tǒng)的純視頻升級為同時包含視頻、位姿、動作乃至提示詞的多模態(tài)對齊數(shù)據(jù)；生產(chǎn)方式上，采用 Unreal Engine 合成數(shù)據(jù) + 真實 3A 游戲采集的雙管線體系；工程上，從探索、采集到標(biāo)注與質(zhì)檢全流程自動化運(yùn)行。

一套流程走下來，世界模型不再受限于數(shù)據(jù)獲取，而開始擁有一臺可以不斷產(chǎn)出「世界」的數(shù)據(jù)引擎。

其次模型架構(gòu)層面，在算力效率與記憶能力之間建立起了一套協(xié)同機(jī)制，同時實現(xiàn) 720p 實時生成與分鐘級長時序穩(wěn)定演化這兩個目標(biāo)

為此，Matrix-Game 3.0 在訓(xùn)練階段重構(gòu)視頻生成范式之外，著力解決了「控制信號注入」和「長時序抗漂移」兩個關(guān)鍵問題。

整體架構(gòu)概覽

控制層面將用戶動作顯式引入模型，其中鼠標(biāo)信號通過 Self-Attention 直接作用于當(dāng)前視覺生成，保證即時交互準(zhǔn)確響應(yīng)；鍵盤動作則通過 Cross-Attention 注入，負(fù)責(zé)引導(dǎo)整體運(yùn)動趨勢，使模型在長序列中依然保持穩(wěn)定的行為方向。兩者協(xié)同，實現(xiàn)高質(zhì)量與控制性的統(tǒng)一。

長時序穩(wěn)定性層面引入 Error Buffer 機(jī)制，顯式建模生成幀與真實幀之間的誤差，并作為條件回注模型；同時通過對歷史幀進(jìn)行誤差擾動訓(xùn)練，讓模型在訓(xùn)練階段就習(xí)慣偏差，在推理時具備抗誤差累積能力，避免隨時間推移出現(xiàn)結(jié)構(gòu)漂移與內(nèi)容崩壞。

這套機(jī)制讓模型不只是完成生成任務(wù)，更能在持續(xù)演化過程中保持一致性與可控性，真正具備了長時間穩(wěn)定運(yùn)行的能力。

Memory 注入

記憶層面通過一個統(tǒng)一的 DiT 框架，將長期記憶、局部歷史幀以及當(dāng)前預(yù)測目標(biāo)進(jìn)行聯(lián)合建模，從而在保證生成連續(xù)性的同時，實現(xiàn)跨時間的信息利用。

長時序一致性蒸餾

最后推理部署層面，讓高分辨率下的實時運(yùn)行成為可能

Matrix-Game 3.0 采用具備長期記憶能力、且能夠抵抗誤差累積的基礎(chǔ)模型作為教師模型進(jìn)行蒸餾，并利用「上一段輸出作為下一段輸入」的多段式聯(lián)合訓(xùn)練，強(qiáng)化模型長時序連續(xù)推理能力，使其在生成過程中能夠保持記憶與穩(wěn)定性。同時結(jié)合模型量化與 VAE decoder 蒸餾等優(yōu)化手段，將模型壓縮至約 5B 規(guī)模，并在 720p 分辨率下實現(xiàn)實時生成

不僅如此，隨著模型規(guī)模繼續(xù)擴(kuò)展，Matrix-Game 3.0 依然可以實現(xiàn)真實場景泛化、第一 / 第三人稱多視角一致性與長時序穩(wěn)定運(yùn)行，其中MoE-28B 模型已將生成時長推進(jìn)至分鐘級

1 分鐘游戲畫面生成

與前代一樣，昆侖萬維已經(jīng)開放了 Matrix-Game 3.0 的代碼與模型權(quán)重：

GitHub 地址：https://github.com/SkyworkAI/Matrix-Game/tree/main/Matrix-Game-3
Hugging Face 地址：https://huggingface.co/Skywork/Matrix-Game-3.0

告別音畫拼接

AI 視頻走向原生一體生成

其實，昆侖萬維的視頻大模型在前段時間已經(jīng)在社區(qū)引發(fā)了熱議。在 Artificial Analysis 文生視頻（帶音頻) 賽道擊敗 Sora 2、Veo 3.1 之后，SkyReels V4 的能力得到了社區(qū)的高度認(rèn)可。

作為 SkyReels 系列的最新版本，SkyReels V4 在 V1（短劇創(chuàng)作）、V2（無限時長電影生成）和 V3（多模態(tài)視頻生成）的基礎(chǔ)上，進(jìn)化為「全模態(tài)音視頻聯(lián)合生成、修復(fù)與編輯」的大一統(tǒng)模型。從此，AI 視頻不只是簡單地生成一段畫面，而是像人類一樣具備基本的敘事能力。

這一變化的背后，離不開 SkyReels V4 在底層架構(gòu)、全模態(tài)控制、強(qiáng)化學(xué)習(xí)范式、效率優(yōu)化等多個層面的系統(tǒng)性升級。

首先也是最關(guān)鍵的變化：其從底層架構(gòu)重寫音視頻生成方式，采用原生音畫一體的雙流 MMDiT 架構(gòu)，替代「先畫面、后音頻」的串行方式，將音視頻在同一語義空間中聯(lián)合建模。

為此，模型采用對稱雙分支設(shè)計，音頻與視頻共享同一文本編碼器，在統(tǒng)一語義空間中完成理解與生成，最終實現(xiàn)口型、動作與聲音的精確對應(yīng)。同時，引入額外的文本控制以增強(qiáng)視頻語義穩(wěn)定性，并通過聯(lián)合訓(xùn)練讓音視頻在生成階段就保持協(xié)同，而不是依賴后期對齊。

AI 視頻的生產(chǎn)方式，從多模態(tài)拼接走向原生一體生成。

其次，SkyReels V4實現(xiàn)了生成、編輯與修復(fù)的大一統(tǒng)，使視頻創(chuàng)作具備更細(xì)粒度的調(diào)度能力。

能力上支持首尾幀、多幀、多圖、運(yùn)動等參考方式，覆蓋從生成到精細(xì)編輯的全流程需求，包括元素增刪、風(fēng)格遷移與水印處理。同時能夠基于網(wǎng)格圖直接生成結(jié)構(gòu)完整的敘事片段，從源頭解決角色走形與場景跳躍問題。機(jī)制上將生成、編輯與修復(fù)收斂為同一套掩碼補(bǔ)繪框架；同時引入?yún)⒖紙D像 / 視頻作為上下文，使角色特征與場景風(fēng)格可以被穩(wěn)定鎖定，在跨幀中持續(xù)保持一致。

接下來，SkyReels V4結(jié)合使用強(qiáng)化學(xué)習(xí)體系與工程優(yōu)化策略來增質(zhì)提效

為了使視頻內(nèi)容兼具邏輯連貫性、物理合理性與美學(xué)質(zhì)感，引入全模態(tài)語義 Reward 體系，對生成結(jié)果進(jìn)行實時校正，減少邏輯偏差與物理錯誤；同時采用階梯式課程學(xué)習(xí)，從低分辨率、短時長任務(wù)過渡到高復(fù)雜度生成，逐步建立穩(wěn)定的敘事能力與表達(dá)能力。

為了降低計算開銷，采用「低分辨率全序列 + 高分辨率關(guān)鍵幀」的聯(lián)合生成策略，再結(jié)合超分與幀插值來恢復(fù)畫質(zhì)，保證整體一致性的同時降低計算壓力。同時引入 VSA 稀疏注意力，最終將計算成本降低約 3 倍，實現(xiàn) 1080P 分辨率、32FPS 幀率、15 秒時長的影院級內(nèi)容生成

SkyReels V4 的一整套方案，不以成本為代價換取畫質(zhì)，而是在兩者之間建立平衡，使高質(zhì)量視頻生成具備了規(guī)模化生產(chǎn)的可行性。

當(dāng)然，數(shù)據(jù)層面的重構(gòu)也是這套體系高效運(yùn)作的關(guān)鍵。SkyReels-V4 構(gòu)建了一套覆蓋圖像、視頻、音頻的統(tǒng)一數(shù)據(jù)體系，通過「真實 + 合成」雙管線保證數(shù)據(jù)規(guī)模，配合多維質(zhì)控與結(jié)構(gòu)化 caption，對齊音畫與語義表達(dá)，為全模態(tài)生成提供穩(wěn)定的數(shù)據(jù)基礎(chǔ)。

我們來看下實戰(zhàn)效果，提示詞是這樣的：「電影級賽博朋克風(fēng)視頻：動態(tài)跟拍一艘深色流線型飛船（@ ship-1）在未來都市中高速飛行。鏡頭始終位于飛船后方，藍(lán)色尾焰明亮，穿梭于高樓峽谷之間。城市充滿紅白藍(lán)霓虹與霧靄背景，冷色調(diào)與高反差光影營造氛圍。攝像機(jī)隨飛船滾轉(zhuǎn)傾斜，光粒與光流增強(qiáng)速度感。一鏡到底，沉浸式高速飛行體驗。」

從生成到創(chuàng)作

讓好聽變成一種可控能力

自兩年前問世以來，昆侖萬維的音樂大模型一再地帶給我們驚喜。

幾天前，Mureka V8 在 Artificial Analysis 的 vocals（人聲）和 instrumental（樂器）榜單上雙雙登頂，綜合實力超越了 Suno V4.5、Udio v1.5 Allegro、Lyria 2 等國際主流 AI 音樂模型。

這也讓人更加期待，下一代 Mureka 會以怎樣的方式改寫音樂生成的邊界。剛剛亮相的 Mureka V9，果然沒有讓人失望。

此次，Mureka V9 圍繞音樂創(chuàng)作過程中最關(guān)鍵、最影響結(jié)果的幾大環(huán)節(jié)進(jìn)行全方位優(yōu)化：

表達(dá)更到位：歌詞、情緒與段落推進(jìn)能夠更精準(zhǔn)地對齊，想表達(dá)的點(diǎn)基本能落到該落的位置。
成品感更強(qiáng)：混音、音色與空間感更統(tǒng)一，整體聽感更接近一首完成度較高的作品。
人聲更克制：該唱的時候唱到位，不該出現(xiàn)時不過度介入，表達(dá)更干凈。
反饋更快：從輸入到出結(jié)果，鏈路更順暢，試錯和迭代成本明顯降低。
結(jié)果不易撞車：旋律與編排的重復(fù)感下降，同一方向下也能跑出更多變化。

這些能力的提升建立在MusiCoT（Music Chain-of-Thought）技術(shù)底座的持續(xù)優(yōu)化之上：

模型不再停留在根據(jù)提示詞生成聲音，而是以更接近真實創(chuàng)作流程的方式去組織一段音樂：理解段落結(jié)構(gòu)、把握表達(dá)重點(diǎn)，并決定每一段該唱什么、怎么唱、如何推進(jìn)。

這樣一來，生成結(jié)果更少地偏離創(chuàng)作者原本的想法，表達(dá)更貼近預(yù)期，也更穩(wěn)定。基于此，音樂也不再只是用來聽的內(nèi)容，而開始變成一種拿來表達(dá)自我的語言

我們來聽下面這段旋律，提示詞為「新靈魂 / 私密爵士人聲作品。靈感：日落閣樓工作室，暖光中浮塵輕揚(yáng)。核心：氣聲近距離男聲 + 溫暖 Rhodes 鋼琴。氛圍：安靜、懷舊、時光靜止 —— 復(fù)古閣樓里，金色陽光緩緩?fù)高^百葉窗褪去。」

在音樂生成能力繼續(xù)進(jìn)化之外，Mureka V9 進(jìn)一步的目標(biāo)，是想把「好聽」從偶發(fā)結(jié)果變成一件可以穩(wěn)定做出來的事情

實現(xiàn)方法也很直接，把「好聽」拆解開，從歌詞落點(diǎn)、情緒是否貼合，到結(jié)構(gòu)與旋律是否順暢，一步步去校準(zhǔn)和優(yōu)化，讓整套創(chuàng)作過程變得可復(fù)用、可積累，而不是每次都從頭碰運(yùn)氣。從長期來看，這一點(diǎn)比單次生成質(zhì)量更加關(guān)鍵。

當(dāng)「好聽」可以被拆解和控制之后，創(chuàng)作方式也隨之發(fā)生根本性變化：AI 音樂不再是一次性生成的結(jié)果，而變成一個可以反復(fù)嘗試、局部調(diào)整、持續(xù)迭代的過程。

傳統(tǒng)的創(chuàng)作邏輯是一次生成就直接定稿，Mureka V9 則不然，先生成多個版本進(jìn)行探索，再從中篩選，對局部進(jìn)行調(diào)整，然后二次或多次生成與優(yōu)化。在這個過程中，創(chuàng)作者的主要工作也開始發(fā)生變化，將更多時間花在審美與取舍上。

可以說，Mureka V9 已經(jīng)不滿足于只做一個音樂生成工具，而是在往創(chuàng)作平臺走。它想做的也不再是一次性的成品，而是一種可以反復(fù)修改、持續(xù)演化的版本化作品。音樂創(chuàng)作者用它提高效率，優(yōu)化工作流；普通用戶用它表達(dá)自我。

或許，一個屬于 AI 音樂時代的「Spotify」已經(jīng)出現(xiàn)，一邊連接創(chuàng)作與消費(fèi)，一邊承接內(nèi)容與分發(fā)。

「3+1」戰(zhàn)略：AGI 路徑更加清晰

當(dāng)我們將天工 AI 的三大模型放在一起看，就會發(fā)現(xiàn)，它們不僅分別對應(yīng)游戲、視頻與音樂三個賽道的單點(diǎn)能力升級，也在共同補(bǔ)齊一套更完整的能力結(jié)構(gòu)：

Matrix-Game 3.0 聚焦「世界如何被建模與交互」、SkyReels V4 解決「內(nèi)容如何被規(guī)模化生成」，Mureka V9 關(guān)注「情感與表達(dá)如何被精準(zhǔn)控制」。

在這一框架下，通往 AGI 終極目標(biāo)所需的能力組合更加清晰。而昆侖萬維發(fā)布的 2026 AGI 戰(zhàn)略，則在這些能力之上給出了路徑上的獨(dú)到思考。

我們可以用「3+1」來描述這一戰(zhàn)略的完整布局，其中3 指的是三大場景大模型，即游戲、視頻與音樂；1 指的是天工超級智能體

依托三大場景大模型持續(xù)突破多模態(tài)能力邊界，同時借助天工超級智能體（Skywork Super Agents）對這些 AI 能力進(jìn)行統(tǒng)一調(diào)度。

天工超級智能體于去年 5 月發(fā)布，核心能力可以歸納為三點(diǎn)：一是跨任務(wù)一體化執(zhí)行，二是以 Deep Research 為核心的信息處理，三是多 Agent 模塊的分工與協(xié)作。隨著今年 OpenClaw 的爆火，Skywork 推出了 SkyClaw，打造云端 AI 原生助理；同時上線首批 6 大官方 Skills，將能力封裝為可直接調(diào)用的工具。

基于此，天工超級智能體補(bǔ)上了「能力如何被高效調(diào)用」的關(guān)鍵一環(huán)，通過將不同能力串聯(lián)成完整的執(zhí)行鏈路，使任務(wù)從理解、生成到交付，一氣呵成。

與此同時，昆侖萬維還在圍繞「平臺 + 超級智能體 + 開發(fā)者 + 創(chuàng)作者」，搭建一套更加開放的生態(tài)協(xié)同體系。

一方面，將多模態(tài)能力以統(tǒng)一入口對外開放，降低門檻，使開發(fā)者與創(chuàng)作者能夠更直接地調(diào)用這些能力進(jìn)行開發(fā)與創(chuàng)作；另一方面，通過與產(chǎn)業(yè)伙伴的合作，將 AI 能力落地到游戲、視頻與音樂等具體場景中，逐步完成從技術(shù)到應(yīng)用的轉(zhuǎn)化。

當(dāng)能力、調(diào)度與場景形成閉環(huán)，AGI 的未來才更加可期。

文中視頻、音頻鏈接：https://mp.weixin.qq.com/s/g5-Y-7H1hfovmyBcB6WSqQ

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.