![]()
編輯|楊文、+0
先給大家聽(tīng)?zhēng)资赘瑁虏履氖资?AI 生成的?
答案是:全部。
這些聽(tīng)起來(lái)與真人演唱無(wú)異的歌曲,均出自昆侖萬(wàn)維旗下的AI 音樂(lè)大模型 Mureka V8之手。
前幾天,昆侖萬(wàn)維旗下的視頻生成模型 SkyReels-V4,剛剛在 Artificial Analysis 的文生視頻(帶音頻)榜單中拿下第一。
緊接著,旗下 AI 音樂(lè)大模型 Mureka V8 又在同一機(jī)構(gòu)的榜單上,同時(shí)登頂 vocals(人聲)和 instrumental(樂(lè)器)雙榜第一,綜合實(shí)力超越 Suno V4.5、Udio v1.5 Allegro、Lyria 2 等國(guó)際主流 AI 音樂(lè)模型,成為目前全球綜合能力最強(qiáng)的 AI 音樂(lè)模型。
![]()
圖片來(lái)源:https://artificialanalysis.ai/music/leaderboard/vocals
![]()
圖片來(lái)源:https://artificialanalysis.ai/music/leaderboard/instrumental
Artificial Analysis 在業(yè)界素有「AI 領(lǐng)域 Gartner」之稱,是當(dāng)前全球最具影響力的 AI 大模型獨(dú)立評(píng)測(cè)機(jī)構(gòu)之一。它的評(píng)測(cè)強(qiáng)調(diào)獨(dú)立性,所有測(cè)試均由機(jī)構(gòu)內(nèi)部完成,不依賴 AI 實(shí)驗(yàn)室自行報(bào)告的數(shù)據(jù),評(píng)測(cè)結(jié)果曾被 OpenAI、Anthropic、Google 等全球頭部 AI 公司以及權(quán)威媒體認(rèn)可和引用。
在這樣的評(píng)測(cè)體系下拿到雙榜第一,說(shuō)明 Mureka V8 經(jīng)過(guò)了最嚴(yán)苛的第三方檢驗(yàn)。
當(dāng)然,好看的榜單還需要真實(shí)體驗(yàn)來(lái)印證。接下來(lái),我們還是老規(guī)矩,上手實(shí)測(cè)一番。
- 全球官網(wǎng):https://www.mureka.ai/
- 國(guó)內(nèi)官網(wǎng):https://www.mureka.cn/
一手實(shí)測(cè),這個(gè)中國(guó) AI 音樂(lè)模型有點(diǎn)東西
相比于之前版本,Mureka V8 最大的亮點(diǎn)是生成的音樂(lè)完全可以直接發(fā)行,人聲更富情感,旋律也更有記憶點(diǎn)。
Mureka V8 提供「簡(jiǎn)易」和「自定義」兩種模式。
「簡(jiǎn)易」模式下,只需輸入一段歌曲描述便能直接生成完整歌曲,還可上傳參考音頻,模型會(huì)在理解創(chuàng)作意圖的基礎(chǔ)上完成完整編曲、人聲演唱和混音輸出。
它支持中英文及多語(yǔ)種,段落結(jié)構(gòu)、情緒推進(jìn)、唱法選擇均可通過(guò)提示詞介入控制。
![]()
先來(lái)首硬核 Phonk,提示詞給的是「有種喝了第 4 杯濃縮咖啡帶來(lái)的亢奮」,聽(tīng)聽(tīng)看,是不是還沒(méi)到一半就開(kāi)始抖腿了?
![]()
或者輸入「生成一首春日小曲」,其他啥也不用管,不到 30 秒,Mureka V8 直出兩首輕松歡快的民謠。溫柔的演唱配合柔和的編曲,讓人聽(tīng)完就想出門曬太陽(yáng)。
![]()
說(shuō)唱風(fēng)格也能 hold 住。我們輸入提示詞:中文說(shuō)唱,男聲,歌詞關(guān)于城市里的漂泊與奮斗,節(jié)奏感強(qiáng),帶有嘻哈風(fēng)格的 beat。
![]()
咱先不聊音樂(lè)性,看看這歌詞寫的:「紅綠燈閃爍著這座城冷漠的頻率,無(wú)數(shù)個(gè)靈魂在斑馬線上交錯(cuò)浮沉,我抬頭看那云端上高聳的起重機(jī),正一點(diǎn)點(diǎn)吊起我那顆懸空的野心……這座城從不承諾誰(shuí)會(huì)衣錦還鄉(xiāng),只在每一個(gè)深夜里審視你的頑強(qiáng)」,很有畫面感和象征性的隱喻。
我們?cè)賮?lái)整個(gè)活,專門測(cè)一下 Mureka V8 的口條:生成一首高速中文流行說(shuō)唱,女聲主唱,歌詞包含大量繞口令和密集輔音,比如「四是四,十是十」,要求咬字清晰、節(jié)奏貼合鼓點(diǎn)、情緒有推進(jìn)。
![]()
有一說(shuō)一,聽(tīng)感很不錯(cuò),唱詞比很多年輕演員的臺(tái)詞還清晰(doge)。
如果懶得想提示詞,我們還可以使用「投骰子」功能,讓其隨機(jī)生成。那主題就五花八門了,什么打字機(jī)有節(jié)奏的敲擊聲、油漬里的彩虹色、抓不到的那只嗡嗡叫蚊子、健身房里嗓門巨大的肌肉男,啥都能拿來(lái)做成音樂(lè)。
![]()
(提示詞:抓不到那只嗡嗡叫的蚊子)
自定義模式就進(jìn)階一些,不僅可以選擇風(fēng)格和人聲,還能直接輸入歌詞,把一首歌從情緒到表達(dá)完全掌控在自己手里。
前段時(shí)間,一首叫《菩薩魚(yú)》的 AI 歌曲火遍全網(wǎng),它之所以爆火,是因?yàn)?AI 用慵懶冷峻的旋律和充滿反諷的哲思,唱出了人類在現(xiàn)實(shí)規(guī)訓(xùn)下的掙扎與無(wú)奈,那種反差感直擊靈魂。
順著這個(gè)思路,我們也來(lái)復(fù)刻一首。我們要用 AI 來(lái)唱一首「反抗 AI 與算法」的歌,主題是:科技沒(méi)有讓人更輕松,反而把我們變成了更精致的零件,讓人越發(fā)焦慮。
這一次,我們直接給 Mureka V8 喂入完整歌詞,并明確設(shè)定風(fēng)格。
![]()
大家可以直接跳轉(zhuǎn)到 30s、56s、2m26s 欣賞 Mureka V8 的神仙轉(zhuǎn)音。
![]()
拿下雙榜第一,AI 音樂(lè)如何擁有「靈魂」?
Mureka V8 在 Artificial Analysis(AA)評(píng)測(cè)中,人聲與樂(lè)器雙榜單取得第一的成績(jī),是其底層技術(shù)架構(gòu)長(zhǎng)期演進(jìn)的量變引起質(zhì)變。在過(guò)往的 AI 音樂(lè)生成賽道中,行業(yè)普遍面臨著旋律缺乏發(fā)展、編曲元素停滯不前、人聲機(jī)械化以及聽(tīng)感扁平化等核心技術(shù)瓶頸。Mureka V8 與即將發(fā)布的 V9,正是針對(duì)這些真實(shí)創(chuàng)作痛點(diǎn)給出的系統(tǒng)性技術(shù)解法。
不僅要「能出聲」,更要工業(yè)標(biāo)準(zhǔn)的「能打」
Mureka V8 的技術(shù)進(jìn)步,標(biāo)志著 AI 音樂(lè)從「實(shí)驗(yàn)性聲音段落」的生成,向具備完整審美價(jià)值的「音樂(lè)作品」邁進(jìn)。
在生成邏輯層面,V8 顯著提升了音樂(lè)的結(jié)構(gòu)完整性與動(dòng)態(tài)發(fā)展能力。與以往簡(jiǎn)單循環(huán)片段的輸出不同,V8 能夠構(gòu)建出清晰的主副歌對(duì)比、具有記憶點(diǎn)的旋律以及完整的段落結(jié)構(gòu)。
在聲學(xué)表現(xiàn)上,V8 在人聲的表現(xiàn)和編曲層次上也進(jìn)行了深度優(yōu)化。通過(guò)精準(zhǔn)匹配人聲音色與唱法,模型能賦予虛擬演唱者更強(qiáng)的「主唱存在感」與情感張力。
此外,混音與聲場(chǎng)構(gòu)建技術(shù)的提升,讓 V8 的配器更加飽滿,混響比例與空間層次接近專業(yè)音樂(lè)制作水準(zhǔn),顯著消除了早期 AI 音樂(lè)中的「粗糙感」與「干澀感」。
MusiCoT 構(gòu)建思維閉環(huán),讓 AI 真正「聽(tīng)懂」審美
支撐 Mureka 核心模型持續(xù)進(jìn)化的基礎(chǔ)技術(shù),是昆侖萬(wàn)維自研的MusiCoT(Music Chain-of-Thought)技術(shù)體系。自 2024 年初啟動(dòng)以來(lái),研發(fā)團(tuán)隊(duì)逐步完成了評(píng)測(cè)、后訓(xùn)練與強(qiáng)化學(xué)習(xí)的技術(shù)閉環(huán)。
![]()
Mureka 自研基于 MusiCoT 的自回歸模型音樂(lè)生成技術(shù)(來(lái)源:MusiCoT.github.io)
與傳統(tǒng)依賴文本提示進(jìn)行線性自回歸生成、容易偏離人類創(chuàng)作模式的模型不同,MusiCoT 在技術(shù)鏈路上進(jìn)行了創(chuàng)新重構(gòu)。它引入了中間推理機(jī)制,使模型在生成具體的音頻 token 之前,能夠先自主「思考」并預(yù)定義整體的音樂(lè)結(jié)構(gòu)、風(fēng)格與樂(lè)器配置。同時(shí),該體系底層依托 CLAP(對(duì)比語(yǔ)言-音頻預(yù)訓(xùn)練)架構(gòu),在同一個(gè)表征空間內(nèi)對(duì)文本與音頻進(jìn)行對(duì)齊訓(xùn)練。
這種深層次的協(xié)同建模能力,使模型在旋律推進(jìn)、段落表達(dá)與音色安排之間建立了內(nèi)在一致性。通過(guò)將復(fù)雜的音樂(lè)理論轉(zhuǎn)化為模型可理解的推理鏈路,MusiCoT 成功地將主觀的「好聽(tīng)」轉(zhuǎn)化為了可高頻復(fù)現(xiàn)的系統(tǒng)性能力,讓 AI 具備了駕馭宏大音樂(lè)敘事的基礎(chǔ)。
V9 提前看:攻克詞不達(dá)意,讓每一次創(chuàng)作都如你所愿
在 V8 打下的音質(zhì)與樂(lè)感基礎(chǔ)上,Mureka V9 將技術(shù)演進(jìn)的重點(diǎn)放在了「創(chuàng)作意圖的可控表達(dá)」上。如果說(shuō) V8 主要解決的是「質(zhì)感」問(wèn)題,V9 則致力于消除 AI 生成與創(chuàng)作者意圖之間的「表達(dá)偏差」。
V9 進(jìn)一步深化了 MusiCoT 的細(xì)粒度控制能力,優(yōu)化了推理鏈路,顯著提高了文本到音樂(lè)的處理效率與生成速度。在控制精度方面,V9 實(shí)現(xiàn)了對(duì)段落內(nèi)文本的精準(zhǔn)把控,能夠準(zhǔn)確理解歌詞中的語(yǔ)義重心、情緒轉(zhuǎn)折與演唱意圖,從而確保歌詞在對(duì)應(yīng)的音樂(lè)段落中得到「恰如其分」的表達(dá),同時(shí)有效減少了無(wú)意義的哼唱和模糊的唱詞。
此外,V9 在生成結(jié)果的多樣性與混音質(zhì)量上持續(xù)優(yōu)化,推動(dòng) AI 音樂(lè)技術(shù)從「高質(zhì)感生成」向影視、游戲等全場(chǎng)景賦能的「精準(zhǔn)定制」邁進(jìn)。
3 月 27 日,Mureka V9 將在昆侖萬(wàn)維相關(guān)發(fā)布活動(dòng)中正式亮相,屆時(shí)其完整能力邊界也將進(jìn)一步揭曉。
![]()
結(jié)語(yǔ):
從 SkyMusic 到 V9,
昆侖萬(wàn)維這條路走了多遠(yuǎn)
回看 Mureka 的進(jìn)化軌跡,這次登頂并非一蹴而就。
早在 2024 年 2 月,昆侖萬(wàn)維就開(kāi)始搞 AI 音樂(lè)大模型研發(fā),不過(guò)彼時(shí)還在用一個(gè)叫 SkyMusic 的內(nèi)測(cè)版本跑通最基礎(chǔ)的訓(xùn)練、推理和評(píng)測(cè)閉環(huán),目標(biāo)也只是實(shí)現(xiàn)端到端「能用」。
此后兩年,昆侖萬(wàn)維幾乎每隔幾個(gè)月就有一次技術(shù)躍遷。
![]()
2024 年 4 月,中英文版本上線天工,開(kāi)始驗(yàn)證線上交付與穩(wěn)定迭代;8 月做了首個(gè)超大規(guī)模版本,聽(tīng)感和音質(zhì)有明顯提升,獨(dú)立產(chǎn)品也同步上線;11 月,多語(yǔ)種工程化落地,能力從雙語(yǔ)變成多語(yǔ)種,可維護(hù)可迭代;2025 年,MusiCoT 和更系統(tǒng)化的評(píng)測(cè)、后訓(xùn)練、強(qiáng)化學(xué)習(xí)跑成閉環(huán),模型進(jìn)入有節(jié)奏、有方向的長(zhǎng)期進(jìn)化;2026 年 1 月,Mureka V8 正式發(fā)布,并在短短 2 個(gè)月登頂國(guó)際權(quán)威榜單。
AI 音樂(lè)的邊界,還遠(yuǎn)沒(méi)有到頭。
技術(shù)歸根結(jié)底是為表達(dá)服務(wù),下次想寫首歌記錄生活,或者給自己的 Vlog 配個(gè)專屬 BGM,不妨去官網(wǎng)親自捏一首試試。
至于它的真實(shí)聽(tīng)感到底能不能打動(dòng)你?你的耳朵說(shuō)了算。
文中視頻、音頻鏈接:https://mp.weixin.qq.com/s/Gnc7WHgdvneyPoUN-peTUA
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.