編輯|杜偉
就在 27 日下午,在火熱進(jìn)行中的 2026 中關(guān)村論壇上,一家國產(chǎn)頭部 AI 廠商引爆了全場!
昆侖萬維,這家 2022 年便已「All in AGI 與 AIGC」的實力玩家,亮出了其實現(xiàn)通用人工智能終極目標(biāo)的最新「武器庫」。
![]()
作為兼具國家影響力和國際化視野的高規(guī)格論壇,一年一度的中關(guān)村論壇成為了匯聚國內(nèi)外產(chǎn)業(yè)界、學(xué)術(shù)界、投資界一線代表的舞臺。本屆論壇以「科技創(chuàng)新與產(chǎn)業(yè)創(chuàng)新深度融合」為主題,吸引了來自 100 多個國家和地區(qū)的上千名嘉賓參與。
在會上,昆侖萬維旗下天工 AI 重磅發(fā)布了全新 AI 游戲世界模型 Matrix-Game 3.0AI 視頻大模型 SkyReels V4AI 音樂大模型 Mureka V9,在繼續(xù)強(qiáng)化 AIGC 理解與生成能力的同時,進(jìn)一步推進(jìn) AI 對物理世界的建模與仿真。
一出手就是三大王炸,這三款大模型全都邁進(jìn)了世界第一梯隊,跑分成績尤為亮眼。
其中,SkyReels V4 在 Artificial Analysis 基準(zhǔn)測試中分別奪得「帶音頻文生視頻」和「帶音頻圖生視頻」榜單全球第一,以及圖生視頻(不帶音頻)榜單全球第二(截至 2026 年 3 月 18 日評測結(jié)果)。
![]()
在與 Suno V5、前代 Mureka V8 的較量中,Mureka V9 在音樂旋律性、音樂表現(xiàn)力、編配編曲等主觀指標(biāo)上全面勝出
![]()
- Matrix-Game3.0 主頁:https://matrix-game-v3.github.io/
- SkyReels V4 官網(wǎng):https://www.skyreels.ai/
- Mureka V9 官網(wǎng):https://www.mureka.cn/
在三大新模型集中亮相之外,昆侖萬維對外公布了其2026 AGI 戰(zhàn)略,為完成「實現(xiàn)通用人工智能,讓每個人更好地塑造和表達(dá)自我」的使命給出了更清晰的路徑指引,并釋放出了一個明確的信號:未來三年,AI 發(fā)展將從全模態(tài)能力突破進(jìn)入到平臺化構(gòu)建階段。
![]()
天工 AI 董事長兼 CEO 周亞輝
在昆侖萬維的戰(zhàn)略設(shè)想中,在底層全模態(tài)基礎(chǔ)模型與中間層超級智能體之外,還要向上拓展應(yīng)用層,探索更豐富的產(chǎn)品形態(tài),包括面向內(nèi)容消費(fèi)與生產(chǎn)的短劇平臺DramaWave、面向音樂創(chuàng)作與分發(fā)的平臺Mureka以及面向互動娛樂的游戲世界貓森學(xué)園
當(dāng)這三層實現(xiàn)協(xié)同運(yùn)轉(zhuǎn),AI 的形態(tài)也隨之發(fā)生變化:不再是一個個孤立的模型或工具,而是一個可以持續(xù)運(yùn)轉(zhuǎn)的系統(tǒng)。
![]()
隨著這套體系慢慢跑起來,AI 原生的平臺經(jīng)濟(jì)將開始走向落地。屆時,每一個創(chuàng)作者將擁有匹敵一家公司的全棧生產(chǎn)力。
記得住、跑得久、跑得快
世界模型補(bǔ)齊關(guān)鍵短板
自去年 5 月開源 Matrix-Game 系列 1.0 版本以來,昆侖萬維對交互式世界模型的探索一直沒有停歇。之后 8 月繼續(xù)開源 Matrix-Game 2.0,其被打造成為了業(yè)界首個實時長序列交互式世界模型,在鍵盤按鍵的控制下可以做到分鐘級的實時互動。
此次,Matrix-Game 3.0 補(bǔ)齊了世界模型存在的三大短板:記不住(記憶)、跑不久(長時程)和跑不動(實時 + 分辨率)。其核心價值在于對這些短板進(jìn)行解構(gòu),貫通數(shù)據(jù)、記憶與實時生成三大環(huán)節(jié),推動系統(tǒng)從生成片段邁向運(yùn)行世界。
![]()
首先數(shù)據(jù)層面,構(gòu)建可無限擴(kuò)展的世界模型數(shù)據(jù)引擎。Matrix-Game 3.0 在數(shù)據(jù)形態(tài)、生產(chǎn)方式和工程層面均給出了創(chuàng)新性解法。
數(shù)據(jù)形態(tài)上,補(bǔ)上過去互聯(lián)網(wǎng)數(shù)據(jù)缺失的關(guān)鍵一環(huán),從傳統(tǒng)的純視頻升級為同時包含視頻、位姿、動作乃至提示詞的多模態(tài)對齊數(shù)據(jù);生產(chǎn)方式上,采用 Unreal Engine 合成數(shù)據(jù) + 真實 3A 游戲采集的雙管線體系;工程上,從探索、采集到標(biāo)注與質(zhì)檢全流程自動化運(yùn)行。
一套流程走下來,世界模型不再受限于數(shù)據(jù)獲取,而開始擁有一臺可以不斷產(chǎn)出「世界」的數(shù)據(jù)引擎。
其次模型架構(gòu)層面,在算力效率與記憶能力之間建立起了一套協(xié)同機(jī)制,同時實現(xiàn) 720p 實時生成與分鐘級長時序穩(wěn)定演化這兩個目標(biāo)
為此,Matrix-Game 3.0 在訓(xùn)練階段重構(gòu)視頻生成范式之外,著力解決了「控制信號注入」和「長時序抗漂移」兩個關(guān)鍵問題。
![]()
整體架構(gòu)概覽
控制層面將用戶動作顯式引入模型,其中鼠標(biāo)信號通過 Self-Attention 直接作用于當(dāng)前視覺生成,保證即時交互準(zhǔn)確響應(yīng);鍵盤動作則通過 Cross-Attention 注入,負(fù)責(zé)引導(dǎo)整體運(yùn)動趨勢,使模型在長序列中依然保持穩(wěn)定的行為方向。兩者協(xié)同,實現(xiàn)高質(zhì)量與控制性的統(tǒng)一。
長時序穩(wěn)定性層面引入 Error Buffer 機(jī)制,顯式建模生成幀與真實幀之間的誤差,并作為條件回注模型;同時通過對歷史幀進(jìn)行誤差擾動訓(xùn)練,讓模型在訓(xùn)練階段就習(xí)慣偏差,在推理時具備抗誤差累積能力,避免隨時間推移出現(xiàn)結(jié)構(gòu)漂移與內(nèi)容崩壞。
這套機(jī)制讓模型不只是完成生成任務(wù),更能在持續(xù)演化過程中保持一致性與可控性,真正具備了長時間穩(wěn)定運(yùn)行的能力。
![]()
Memory 注入
記憶層面通過一個統(tǒng)一的 DiT 框架,將長期記憶、局部歷史幀以及當(dāng)前預(yù)測目標(biāo)進(jìn)行聯(lián)合建模,從而在保證生成連續(xù)性的同時,實現(xiàn)跨時間的信息利用。
![]()
長時序一致性蒸餾
最后推理部署層面,讓高分辨率下的實時運(yùn)行成為可能
Matrix-Game 3.0 采用具備長期記憶能力、且能夠抵抗誤差累積的基礎(chǔ)模型作為教師模型進(jìn)行蒸餾,并利用「上一段輸出作為下一段輸入」的多段式聯(lián)合訓(xùn)練,強(qiáng)化模型長時序連續(xù)推理能力,使其在生成過程中能夠保持記憶與穩(wěn)定性。同時結(jié)合模型量化與 VAE decoder 蒸餾等優(yōu)化手段,將模型壓縮至約 5B 規(guī)模,并在 720p 分辨率下實現(xiàn)實時生成
不僅如此,隨著模型規(guī)模繼續(xù)擴(kuò)展,Matrix-Game 3.0 依然可以實現(xiàn)真實場景泛化、第一 / 第三人稱多視角一致性與長時序穩(wěn)定運(yùn)行,其中MoE-28B 模型已將生成時長推進(jìn)至分鐘級
![]()
1 分鐘游戲畫面生成
與前代一樣,昆侖萬維已經(jīng)開放了 Matrix-Game 3.0 的代碼與模型權(quán)重:
- GitHub 地址:https://github.com/SkyworkAI/Matrix-Game/tree/main/Matrix-Game-3
- Hugging Face 地址:https://huggingface.co/Skywork/Matrix-Game-3.0
告別音畫拼接
AI 視頻走向原生一體生成
其實,昆侖萬維的視頻大模型在前段時間已經(jīng)在社區(qū)引發(fā)了熱議。在 Artificial Analysis 文生視頻(帶音頻) 賽道擊敗 Sora 2、Veo 3.1 之后,SkyReels V4 的能力得到了社區(qū)的高度認(rèn)可。
![]()
作為 SkyReels 系列的最新版本,SkyReels V4 在 V1(短劇創(chuàng)作)、V2(無限時長電影生成)和 V3(多模態(tài)視頻生成)的基礎(chǔ)上,進(jìn)化為「全模態(tài)音視頻聯(lián)合生成、修復(fù)與編輯」的大一統(tǒng)模型。從此,AI 視頻不只是簡單地生成一段畫面,而是像人類一樣具備基本的敘事能力。
這一變化的背后,離不開 SkyReels V4 在底層架構(gòu)、全模態(tài)控制、強(qiáng)化學(xué)習(xí)范式、效率優(yōu)化等多個層面的系統(tǒng)性升級。
首先也是最關(guān)鍵的變化:其從底層架構(gòu)重寫音視頻生成方式,采用原生音畫一體的雙流 MMDiT 架構(gòu),替代「先畫面、后音頻」的串行方式,將音視頻在同一語義空間中聯(lián)合建模。
為此,模型采用對稱雙分支設(shè)計,音頻與視頻共享同一文本編碼器,在統(tǒng)一語義空間中完成理解與生成,最終實現(xiàn)口型、動作與聲音的精確對應(yīng)。同時,引入額外的文本控制以增強(qiáng)視頻語義穩(wěn)定性,并通過聯(lián)合訓(xùn)練讓音視頻在生成階段就保持協(xié)同,而不是依賴后期對齊。
AI 視頻的生產(chǎn)方式,從多模態(tài)拼接走向原生一體生成。
![]()
其次,SkyReels V4實現(xiàn)了生成、編輯與修復(fù)的大一統(tǒng),使視頻創(chuàng)作具備更細(xì)粒度的調(diào)度能力。
能力上支持首尾幀、多幀、多圖、運(yùn)動等參考方式,覆蓋從生成到精細(xì)編輯的全流程需求,包括元素增刪、風(fēng)格遷移與水印處理。同時能夠基于網(wǎng)格圖直接生成結(jié)構(gòu)完整的敘事片段,從源頭解決角色走形與場景跳躍問題。機(jī)制上將生成、編輯與修復(fù)收斂為同一套掩碼補(bǔ)繪框架;同時引入?yún)⒖紙D像 / 視頻作為上下文,使角色特征與場景風(fēng)格可以被穩(wěn)定鎖定,在跨幀中持續(xù)保持一致。
接下來,SkyReels V4結(jié)合使用強(qiáng)化學(xué)習(xí)體系與工程優(yōu)化策略來增質(zhì)提效
為了使視頻內(nèi)容兼具邏輯連貫性、物理合理性與美學(xué)質(zhì)感,引入全模態(tài)語義 Reward 體系,對生成結(jié)果進(jìn)行實時校正,減少邏輯偏差與物理錯誤;同時采用階梯式課程學(xué)習(xí),從低分辨率、短時長任務(wù)過渡到高復(fù)雜度生成,逐步建立穩(wěn)定的敘事能力與表達(dá)能力。
為了降低計算開銷,采用「低分辨率全序列 + 高分辨率關(guān)鍵幀」的聯(lián)合生成策略,再結(jié)合超分與幀插值來恢復(fù)畫質(zhì),保證整體一致性的同時降低計算壓力。同時引入 VSA 稀疏注意力,最終將計算成本降低約 3 倍,實現(xiàn) 1080P 分辨率、32FPS 幀率、15 秒時長的影院級內(nèi)容生成
SkyReels V4 的一整套方案,不以成本為代價換取畫質(zhì),而是在兩者之間建立平衡,使高質(zhì)量視頻生成具備了規(guī)模化生產(chǎn)的可行性。
當(dāng)然,數(shù)據(jù)層面的重構(gòu)也是這套體系高效運(yùn)作的關(guān)鍵。SkyReels-V4 構(gòu)建了一套覆蓋圖像、視頻、音頻的統(tǒng)一數(shù)據(jù)體系,通過「真實 + 合成」雙管線保證數(shù)據(jù)規(guī)模,配合多維質(zhì)控與結(jié)構(gòu)化 caption,對齊音畫與語義表達(dá),為全模態(tài)生成提供穩(wěn)定的數(shù)據(jù)基礎(chǔ)。
我們來看下實戰(zhàn)效果,提示詞是這樣的:「電影級賽博朋克風(fēng)視頻:動態(tài)跟拍一艘深色流線型飛船(@ ship-1)在未來都市中高速飛行。鏡頭始終位于飛船后方,藍(lán)色尾焰明亮,穿梭于高樓峽谷之間。城市充滿紅白藍(lán)霓虹與霧靄背景,冷色調(diào)與高反差光影營造氛圍。攝像機(jī)隨飛船滾轉(zhuǎn)傾斜,光粒與光流增強(qiáng)速度感。一鏡到底,沉浸式高速飛行體驗。」
![]()
從生成到創(chuàng)作
讓好聽變成一種可控能力
自兩年前問世以來,昆侖萬維的音樂大模型一再地帶給我們驚喜。
幾天前,Mureka V8 在 Artificial Analysis 的 vocals(人聲)和 instrumental(樂器)榜單上雙雙登頂,綜合實力超越了 Suno V4.5、Udio v1.5 Allegro、Lyria 2 等國際主流 AI 音樂模型。
![]()
這也讓人更加期待,下一代 Mureka 會以怎樣的方式改寫音樂生成的邊界。剛剛亮相的 Mureka V9,果然沒有讓人失望。
![]()
此次,Mureka V9 圍繞音樂創(chuàng)作過程中最關(guān)鍵、最影響結(jié)果的幾大環(huán)節(jié)進(jìn)行全方位優(yōu)化:
- 表達(dá)更到位:歌詞、情緒與段落推進(jìn)能夠更精準(zhǔn)地對齊,想表達(dá)的點(diǎn)基本能落到該落的位置。
- 成品感更強(qiáng):混音、音色與空間感更統(tǒng)一,整體聽感更接近一首完成度較高的作品。
- 人聲更克制:該唱的時候唱到位,不該出現(xiàn)時不過度介入,表達(dá)更干凈。
- 反饋更快:從輸入到出結(jié)果,鏈路更順暢,試錯和迭代成本明顯降低。
- 結(jié)果不易撞車:旋律與編排的重復(fù)感下降,同一方向下也能跑出更多變化。
這些能力的提升建立在MusiCoT(Music Chain-of-Thought)技術(shù)底座的持續(xù)優(yōu)化之上:
模型不再停留在根據(jù)提示詞生成聲音,而是以更接近真實創(chuàng)作流程的方式去組織一段音樂:理解段落結(jié)構(gòu)、把握表達(dá)重點(diǎn),并決定每一段該唱什么、怎么唱、如何推進(jìn)。
這樣一來,生成結(jié)果更少地偏離創(chuàng)作者原本的想法,表達(dá)更貼近預(yù)期,也更穩(wěn)定。基于此,音樂也不再只是用來聽的內(nèi)容,而開始變成一種拿來表達(dá)自我的語言
我們來聽下面這段旋律,提示詞為「新靈魂 / 私密爵士人聲作品。靈感:日落閣樓工作室,暖光中浮塵輕揚(yáng)。核心:氣聲近距離男聲 + 溫暖 Rhodes 鋼琴。氛圍:安靜、懷舊、時光靜止 —— 復(fù)古閣樓里,金色陽光緩緩?fù)高^百葉窗褪去。」
![]()
在音樂生成能力繼續(xù)進(jìn)化之外,Mureka V9 進(jìn)一步的目標(biāo),是想把「好聽」從偶發(fā)結(jié)果變成一件可以穩(wěn)定做出來的事情
實現(xiàn)方法也很直接,把「好聽」拆解開,從歌詞落點(diǎn)、情緒是否貼合,到結(jié)構(gòu)與旋律是否順暢,一步步去校準(zhǔn)和優(yōu)化,讓整套創(chuàng)作過程變得可復(fù)用、可積累,而不是每次都從頭碰運(yùn)氣。從長期來看,這一點(diǎn)比單次生成質(zhì)量更加關(guān)鍵。
當(dāng)「好聽」可以被拆解和控制之后,創(chuàng)作方式也隨之發(fā)生根本性變化:AI 音樂不再是一次性生成的結(jié)果,而變成一個可以反復(fù)嘗試、局部調(diào)整、持續(xù)迭代的過程。
傳統(tǒng)的創(chuàng)作邏輯是一次生成就直接定稿,Mureka V9 則不然,先生成多個版本進(jìn)行探索,再從中篩選,對局部進(jìn)行調(diào)整,然后二次或多次生成與優(yōu)化。在這個過程中,創(chuàng)作者的主要工作也開始發(fā)生變化,將更多時間花在審美與取舍上。
可以說,Mureka V9 已經(jīng)不滿足于只做一個音樂生成工具,而是在往創(chuàng)作平臺走。它想做的也不再是一次性的成品,而是一種可以反復(fù)修改、持續(xù)演化的版本化作品。音樂創(chuàng)作者用它提高效率,優(yōu)化工作流;普通用戶用它表達(dá)自我。
或許,一個屬于 AI 音樂時代的「Spotify」已經(jīng)出現(xiàn),一邊連接創(chuàng)作與消費(fèi),一邊承接內(nèi)容與分發(fā)。
![]()
「3+1」戰(zhàn)略:AGI 路徑更加清晰
當(dāng)我們將天工 AI 的三大模型放在一起看,就會發(fā)現(xiàn),它們不僅分別對應(yīng)游戲、視頻與音樂三個賽道的單點(diǎn)能力升級,也在共同補(bǔ)齊一套更完整的能力結(jié)構(gòu):
Matrix-Game 3.0 聚焦「世界如何被建模與交互」、SkyReels V4 解決「內(nèi)容如何被規(guī)模化生成」,Mureka V9 關(guān)注「情感與表達(dá)如何被精準(zhǔn)控制」。
在這一框架下,通往 AGI 終極目標(biāo)所需的能力組合更加清晰。而昆侖萬維發(fā)布的 2026 AGI 戰(zhàn)略,則在這些能力之上給出了路徑上的獨(dú)到思考。
我們可以用「3+1」來描述這一戰(zhàn)略的完整布局,其中3 指的是三大場景大模型,即游戲、視頻與音樂;1 指的是天工超級智能體
依托三大場景大模型持續(xù)突破多模態(tài)能力邊界,同時借助天工超級智能體(Skywork Super Agents)對這些 AI 能力進(jìn)行統(tǒng)一調(diào)度。
天工超級智能體于去年 5 月發(fā)布,核心能力可以歸納為三點(diǎn):一是跨任務(wù)一體化執(zhí)行,二是以 Deep Research 為核心的信息處理,三是多 Agent 模塊的分工與協(xié)作。隨著今年 OpenClaw 的爆火,Skywork 推出了 SkyClaw,打造云端 AI 原生助理;同時上線首批 6 大官方 Skills,將能力封裝為可直接調(diào)用的工具。
基于此,天工超級智能體補(bǔ)上了「能力如何被高效調(diào)用」的關(guān)鍵一環(huán),通過將不同能力串聯(lián)成完整的執(zhí)行鏈路,使任務(wù)從理解、生成到交付,一氣呵成。
![]()
與此同時,昆侖萬維還在圍繞「平臺 + 超級智能體 + 開發(fā)者 + 創(chuàng)作者」,搭建一套更加開放的生態(tài)協(xié)同體系。
一方面,將多模態(tài)能力以統(tǒng)一入口對外開放,降低門檻,使開發(fā)者與創(chuàng)作者能夠更直接地調(diào)用這些能力進(jìn)行開發(fā)與創(chuàng)作;另一方面,通過與產(chǎn)業(yè)伙伴的合作,將 AI 能力落地到游戲、視頻與音樂等具體場景中,逐步完成從技術(shù)到應(yīng)用的轉(zhuǎn)化。
當(dāng)能力、調(diào)度與場景形成閉環(huán),AGI 的未來才更加可期。
文中視頻、音頻鏈接:https://mp.weixin.qq.com/s/g5-Y-7H1hfovmyBcB6WSqQ
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.