內容轉載自播客節目「Alphaist Partners」。Alphaist Partners 關注 AI、機器人和硬件領域的早期創業者。
過去一年,AI 音樂可能是生成式 AI 領域最出圈的 ToC 應用賽道之一。Suno 剛剛完成了 2.5 億美金的融資,年化收入超過 2 億美金,吸引了千萬級用戶。
與 Suno 不同的是,AI 音樂平臺 ACE Studio 選擇了一條截然不同的路徑,從制作人、電影配樂者等專業用戶切入 AI 音樂市場,幫助他們更快速地把 idea 變成 release ready 的作品。
不到一年的時間,ACE Studio 實現了超千萬美元的 ARR。25 年 12 月初,2.0 版本上線,3 個月時間月收入翻了三倍,達到 200 萬美元。
近期,Alphaist Partners 合伙人陳哲(Peter)對話了 ACE 的創始人 Joe(郭靖),聊了聊 7 年艱難創業經歷、如何在 Suno 這座「大山」的存在下成功打入 AI 音樂市場,以及他對于 AI 音樂的一些思考。
為了方便閱讀,Founder Park 對原對話內容進行了適當調整。
??關注 Founder Park,最及時最干貨的創業分享
超 22000 人的「AI 產品市集」社群!不錯過每一款有價值的 AI 應用。
邀請從業者、開發人員和創業者,飛書掃碼加群:
進群后,你有機會得到:
最新、最值得關注的 AI 新品資訊;
不定期贈送熱門新品的邀請碼、會員碼;
最精準的 AI 產品曝光渠道
01ACE Studio,更像是音樂人的「Cursor」
Peter:ACE Studio 跟 Suno 最大的區別是什么?
Joe:大家如果關注 AI 可能會想,Cursor 跟 Lovart 的區別是什么?Lovart 更偏向于一句話讓你一鍵生成你想要的項目,Cursor 更多的是一個 human in the loop 的 IDE,只不過被 AI 加持了。今天的 ACE Studio 更像是 Cursor——完全基于 AI 的新能力,重新創造工作流、重新塑形創作環境的音樂人的 IDE。而 Suno 更偏向于一鍵生成的 model as a product,用戶輸入一個 prompt 就生成一首音樂,門檻很低,但很難編輯。
我們跟 Suno 正好反過來——先從 professionals 切入,用更好的對音樂創作工作流的理解去打造更好的模型、更好的專家反饋,再賦能 consumer 端。我們的模型也比 Suno 更輕、更快,可以在 3090 上幾秒鐘就能生成一首完整歌曲。今天世界上所有的 AI 音樂模型,開源和閉源的,都做不到我們這樣的速度,或者在同樣速度下有我們這樣的 quality。
Peter:在專業級市場,ACE Studio 發布之前其實并沒有什么競爭對手?
Joe:對,用 AI 的方式重塑專業音樂創作的工作流,這件事幾乎是我們首創的,目前也是我們比較領先的。
Peter:AI 在打破專業和非專業用戶之間的壁壘上,有哪些例子?
Joe:國內有一個非常有名的頭部音樂教育機構在用我們來教學。他的一個徒弟是三線城市的音樂老師,開了一個兩個月的培訓班讓小朋友學會寫 prompt、生成歌曲。結果很神奇——他教的初中、高中小朋友在兩個月內創作出非常有趣的歌曲。然后一個震撼的事情發生了——他把其中一些比較好的作品代理到版權公司放到流媒體平臺,其中一首歌在 QQ 音樂上連續好幾周是 number one,最終版權分成接近 500 萬人民幣。
你可以想象這個震撼的程度——一個高中小朋友跟媽媽說給我報個興趣班,399 塊錢,學了兩個月后拿了 500 萬人民幣回家。這個信號已經非常強烈。一部分人還在懷疑 AI 是不是有靈魂,但另一部分 underdog 已經在用 AI 做的音樂系統性地賺到很大的錢了。
這讓我們看到 AI 音樂可能甚至是一個大于音樂本身的事情,因為它會徹底讓人類幾千年來都長期需要的內容模式真正實現普惠化。音樂是一個很獨特的東西,代表人類情緒的延伸。所有人都有情緒,每個人的情緒都不一樣,但不是所有人都有能力用音樂去表達。今天主流的現象是人們在別人的音樂上 echo 自己的情緒,用別人的歌作為情緒抒發的代餐。如果能真的讓你用自己的音樂去表達自己的情緒,是不是一個 ten times better 的事情?是不是一個更大的市場?
Peter:做一款專業工具,最大的門檻或者困難點是什么?
Joe:我們會發現一個很有趣的現象——如果你做 C 端產品,想象一下今天抖音把所有功能都干掉,沒有本地生活、沒有加好友、沒有點贊評論,只有上下滑和推薦算法,抖音可能短時間內 DAU 都不會下降,因為對于 C 端產品,主 use case 占用戶 90% 以上的注意力和價值。
但專業產品正好反過來。專業產品要盡可能覆蓋更多的 corner case,又 somehow 整合在一個優雅的工作流里,這需要你對專業人士創作的工作流有非常深刻的理解。比如我們跟 Suno Studio 有一個巨大區別——Suno Studio 是網頁版產品,因為它從 consumer 做起,天然想法是 producer 端也整合在 webapp 里。但網頁端產品有很多需求對專業用戶來講是滿足不了的,比如插件。專業創作者需要連接到自己的 workstation 里面,這個插件很難用網頁端實現。而 ACE Studio 雖然自己是獨立的 IDE,但同時也做了插件,可以橋接到傳統音樂創作者的 workstation 里面,讓他們可以無縫接入到已有 workflow 中。
在模型能力上,Suno 偏向于全部都是 end to end 的 generative model,我們也有一套 end to end generative 的 model 跟 Suno 能力不相上下。但同時我們有很多專家模型——可以輸入音符輸出高質量的歌聲,輸入音符輸出高質量的樂器。音符的語言是專業用戶經常 speak 的語言,專業用戶最大的需求在于精準表達自己的想法。
不僅僅是質量問題。今天大家能看到 AI 生成的音樂在質量上對普通人來講已經跟專業人士做出來的沒有區別了,但為什么今天 Suno 或者所有 AI 生成的音樂在互聯網上還沒有打造出一個超級明星、一個創作者為中心的 IP?因為 AI 是一個相對黑盒的隨機事件,即使一個創作者把歌曲做好了,他如何保持自己獨特的個性化、獨特的風格是很難的。
02AI 音樂,是最接近可直接消費的 AI 生成內容
Peter:ACE Studio 作為專業級工具,對音樂的基礎單元——音符有完整的控制和創作能力,本質上也是一種 human in the loop 的創作方法?
Joe:對。音符之于代碼確實是音樂底層邏輯和技術世界底層邏輯的對應。我覺得未來音樂創作的顆粒度即使在專業工具之內也會逐漸提升。為什么內容持續有 human in the loop 的價值?因為內容沒有標準答案,沒有 verifiable 的 reward。你喜歡什么、我喜歡什么,這很難通過確定一個目標來解決。比如搖滾樂剛被發明的時候,什么 AI 可以幫助發明搖滾樂這樣偉大的劃時代的音樂類型?沒有任何 AI 能做到,因為類型被發明之前訓練數據里沒有這個類型,AI 無法學習。而一個類型剛被發明出來的時候,用戶對它的評價也是褒貶不一、有巨大爭議的,所以強化學習也沒辦法在早期獎勵一個真正革命性的發明。
End to end 的 AI approach 可以很好地讓人 involve 到內容創作里邊,但很難幫助人真正探索出劃時代的、改變人類的內容形式。所以長期來講 end to end 跟 human in the loop 是結合的——end to end 可以快速讓人進入創作的心流,當所有人都能幾秒鐘上手、創作質量都差不多的時候,競爭的維度就變成誰能夠更可控地創造出自己想要表達的精確 idea、精確感覺,而不僅僅是比質量。
Peter:所以,更獨特的、更有創造力的內容一直是被獎勵和傳播的。
Joe:對。拿照相機來舉例——照相機出現之前,畫師最大的價值是把人畫得更真實。但照相機出來后,人們開始思考繪畫到底是什么、藝術到底是什么,開始出現現代主義、抽象主義。
Peter:你前邊提到,AI 音樂不只是效率工具升級,甚至有可能大于音樂本身。AI 音樂市場到底有多大?
Joe:這件事今天沒辦法算清楚,只能有一些定性判斷。當 AI 視頻出現時,所有人的想象都是每個人都可以做自己的電影——如果每個人能創造自己的電影,這個市場遠大于電影行業本身。但問題在于今天 AI video 離普通人可以消費的電影還有很大距離,因為電影有太多元素——鏡頭節奏、表演、劇情設計。
但你會發現今天 AI 音樂好像是最接近 AI 直出的內容能夠直接讓終端消費者消費的。今天 AI 音樂的問題反而不是沒有供給,而是消費端的平臺在打壓這樣的供給——因為跟傳統既得利益產生了沖突。騰訊音樂也好、Spotify 也好,你上傳 AI 音樂它對你是歧視的,會貼上 AI 生成的標簽。但這個勢頭已經擋不住了,AI 出來的大量作品已經超過人類的效果,能夠批量產生 hit song、過億播放。
Peter:從終端消費者角度,大家并不在乎它是不是 AI 生成的?
Joe:對,消費者 always 是不在乎的。一個普通人去聽 AI 音樂平臺的 playlist,你很難區別它到底是 AI 的還是人類的。大家可以想想看這件事有多可怕——AI 直出的內容已經能直接讓消費者消費了,哪個領域今天接近這一點?
03自建專家模型矩陣,不止一個模型
Peter:Studio 2.0 發布三個月,你觀察的用戶是怎么使用和擁抱新一代產品的?
Joe:隨著我們給用戶在 Studio 2.0 里面開放的不同模型能力的多樣性和質量提升,形成了一種明顯的涌現感——每一個能力是一個原子,用戶在這些原子中排列組合會產生出很多連我們自己都意想不到的 workflow。比如有人通過自己哼唱一個 idea,獲得大概的想法,然后通過我們的 vocal to MIDI 模型把哼唱變成樂譜,再把樂譜通過 AI instrument 變成小提琴的聲音,再通過 music enhancer 把音樂 idea 直接生成出品級的完整歌曲——整個 workflow 全部在 ACE Studio 里面完成。做出了好萊塢史詩級的弦樂配樂作品。
今天沒有一個 AI 工具能獨立達到這樣的效果。這里面不乏好萊塢的音樂制作人、格萊美獲獎者這些行業頂端的人,他們也在用這樣的 workflow。
Peter:在模型能力方面展開介紹下?其他通用大模型公司有辦法復現或超越你們的模型能力嗎?
Joe:首先我們不止一個模型。剛才的 workflow 里就有旋律識別模型、樂器合成模型、基于音頻 prompt 的端到端音樂生成模型,還有跟 Suno 類似的輸入 prompt 直接生成音樂的模型、音頻分軌的模型、對音樂進行續寫或在下面加一個軌道的 stem generation 模型。
所有這些模型,理論上在一個產品公司里我們不應該自己 train,但音樂領域第三方或開源模型很少,所以反而倒逼我們做成了自己 train 模型、自己擁有模型壁壘的產品公司,這是我們比較獨特的地方。大廠如果想做這件事,需要沉下心來在音樂產業里不斷理解和思考用戶需求,不斷構建每一個專有模型,這些模型可能都需要專有的數據、專有的標注,是一個極耗時的成本。目前完全沒有可見的路徑是大模型會內生地長出音樂創作能力,仍然需要調用外部的音樂創作模型。
Peter:訓練自己一系列專用模型需要什么樣的數據?
Joe:千差萬別。比如我們的歌聲模型,數據就是在錄音棚里精致采集的專業歌手的錄音級數據,由專業音樂家去標注,量級可能也就 1 萬小時左右。而端到端的音樂生成模型,可能就會用到上百萬小時甚至更多的完整音樂數據。我們通過版權公司買到音樂授權,加上開源社區捐贈的數據,通過內部的合成數據生成管線再排列組合,最終達到了兩三千萬首、一兩百萬小時的數據集。
我們是用 Audio LLM 做預標注,然后用人來清洗數據、調出更精的標注,再去強化學習這個 Audio LLM 讓它更精準。那么問題來了——今天如果給你聽一段音樂,上面有個描述說"這是一個典型的 drum and bass 風格的律動",普通人你是否能判斷這個標注是正確還是錯誤的?如果對一個沒有音樂 knowhow 的團隊來做這件事,就相當于瞎子在做圖片生成的模型,很難評估。
04Flux 式商業模式:免費是漏斗,閉源是變現
Peter:2.0 產品發布以來,你們在用戶群跟用戶畫像上有什么變化?
Joe:ACE Music 是 for consumer 的,ACE Studio 是 for professional 的,但即使在 ACE Studio 上,我們發現引入更多端到端音樂生成模型后,"professional"的定義發生了一種彌散效果。原先我們認為的 professional 是 music producer——這些人可以啟動制作軟件,有各種硬核設備。但音樂制作人和懂音樂的人之間還有巨大的人數 gap。比如音樂老師,全中國幾千萬的琴童,學琴、學唱歌、會彈吉他、業余時間玩樂隊,這些人我們理解都是今天的 new professionals,但他們并不都是 music producer。
在 ACE Studio 2.0 上我們看到大量這些跟音樂相關的人——他們懂一些音樂,會彈鋼琴,也把自己當做 new professionals,已經在認真創作音樂了。比如有一個在馬來西亞的用戶,他用 ACE Studio 做的歌已經在跟劉德華的電影合作了,但他之前不是音樂制作人,也不會用傳統制作軟件,他只是一個從小喜歡唱歌、會彈琴、有很好音樂審美的人,就用 ACE Studio 做出了非常專業的作品。所以即使"專業"這個定義在 AI 加持下也在發生變化——當更輕的門檻和更強大的能力出現時,哪些人是專業人士這個定義本身也在變化。
Peter:ACE Music 作為市場后進者,怎么跟 Suno 競爭?
Joe:很多 Suno-like 的產品其實很難殺出血路。因為 Suno 有全世界最好的模型,你的模型接近但差一點點,這很難構建增長——用戶花一份錢,有更好的為什么要用差一點的?所以我想了很久。
短期的答案是開源和免費。Suno 今天是云端自持的封閉生態,沒有第三方 API。如果跟用戶說"我們有個類似 Suno 的產品,模型比他差一點但便宜",用戶不會感興趣。但如果說"我們有一個跟 Suno 差不多的模型,完全免費,且你可以下載到自己電腦上在本地運行和訓練,用自己的音樂把模型訓練成你想要的樣子和審美"——這是一個巨大的賣點。所以我們把模型做得極快,在一張 3090 GPU 上 11 秒可以生成一首完整的音樂,在 A100 上兩秒就可以。端側的運行和訓練成為了可能性,這是我們短期去跟 Suno 競爭、撕開口子的手段。
但長期來講開源只是手段,真正在戰略上有可能讓我們取勝的不是開源,而是開放生態。這就是為什么我說 ACE 是全球首個開放生態的 AI 音樂平臺——我們應該不遺余力地利用這個世界上現存的所有音樂相關模型:我們自己的開源模型、別的開源模型、甚至閉源但可以提供 API 的音樂模型。比如 OpenAI 在做 AI 音樂模型,ElevenLabs 已經做了,千問也在做,MiniMax 的音樂模型效果也非常好。
Suno 一直在走封閉生態的路線,它跟版權公司的和解造成了平臺上只允許它自己的模型存在。但你看任何一個領域,哪怕是資源集中度大到像大語言模型這樣的領域,今天都已經出現了百花齊放的趨勢——開源跟閉源很接近,不同廠商的模型各有千秋,在此之上構建 agent 的產品才能受到系統性賦能。我們想做的事情完全一樣:我們相信所有音樂模型加在一起肯定能打敗 Suno。
Peter:過去兩三年在 Studio 產品上的工作,對今天推出 Music 有什么直接幫助?
Joe:因為我們先從專業用戶切入,專業用戶在創作過程中給了很多對模型、對音樂質量的反饋和洞見。就像 Midjourney 在強化學習過程中有一個 300 人的頂端 artist 用戶池,只用這些人的反饋來進行強化學習,所以它能打造出全世界審美最好的圖片社區。同樣,ACE Studio 的切入點就是跟最頂級音樂人提供工具,這些人的反饋無論對模型還是對 feature 的建議,都幫助我們構建更好的 AI 音樂平臺。
Peter:ACE Music 使用開源和免費模型的模式,靠什么賺錢?
Joe:我在開源這件事上研究了挺多,發現一個很有趣的現象——Flux 在圖片領域的開源上建構了很好的商業模式。首先開源一個小模型,然后半開源一個中模型——效果更好也是開源但商用需要授權許可,再做一個閉源的大模型提供 API。小模型因為開源,大量開發者會替你傳播,在各種場景里構建用戶習慣。當用戶習慣和模型的聲量被構建起來后,真正有付費能力的用戶不介意花更多錢使用更好的閉源版本。
在 ACE Music 上直接使用這一版模型還是免費的——這是漏斗最上層,讓更多人被 involve 進來、對這事情感興趣,最終形成付費轉化。
Peter:按照 Studio 現在的增長趨勢,今年全年可能做到 3000 萬美元的收入。現在 Studio 的毛利是什么情況?
Joe:推理成本很低,因為模型都是自建的,有很好的推理優化框架——每掙 100 塊錢大概花五六塊錢做推理。營銷上大概花 20 塊錢,因為要持續找到用戶來 onboard,也是持續教育用戶的過程。年費是 200 美金,還有一檔 264 美金。我們還會賣兩年訂閱,因為這個領域用戶的消費習慣更傾向于買更長周期的產品。
Peter:專業市場天花板在什么高度?
Joe:24 年整個音樂專業市場的軟硬件售賣加在一起是 150 億美金,單說軟件將近 80 億美金——各種效果器、音源、插件,加在一起就干一件事:讓創作者最終創作出那個 3 分 45 秒的 MP3 音頻。而這個過程為什么需要這么復雜的工具鏈?比如今天用傳統數字音樂工作站,光環境 setup 對一個小白來講可能就花一周時間。這些所有東西加在一起一年能賣 150 億美金,ACE Studio 未來是否至少可以吃下這個市場的 10%、20%?這是我們看到專業市場的保底天花板。
05在創業最艱難時,看著 Suno 從 day one 做到了世界級水平
Peter:我們認識快 7 年了,從 19 年天使輪剛開始做 ACE 虛擬歌姬的時候就認識。這些年看到你經歷了非常多,是什么讓你一直在做這件事情?
Joe:一種畫面感。從 day one 我就看到了——音樂不應該是少數人壟斷的高級形式,而應該是每一個人表達自己的方式,自古以來就是這樣。原始人在發明語言之前就已經發明了音樂了,創作音樂本質上就是自己情緒的表達,是根植在人的基因里的本能。
那是什么讓音樂創作變成高門檻的事情?不是音樂本身,而是技術發展的形態——以數字信號處理為基礎的技術底層建構出來的軟硬件生態,倒逼創作者必須先學幾年的音樂制作技術和樂理。如果能發明一種全新的方式,讓普通人把自己的情緒注入進去,創造出其他人也能欣賞和消費的音樂,這就是會徹底改變的正確的事情。這句話一直在我心里,從來沒有變過。
Peter:過往創業經歷中有哪些特別痛苦或至暗的時刻?
Joe:我們在 22 年初完成了一筆融資,那時候整個 AIGC 的勢頭還沒有起來。我們有一段時間不夠 focus——也做過 agent 項目、聲音的語音生成、聲音陪伴。事后反思,我們做的所有其他決定本質上都是在回避 AI 音樂這個核心問題——是否能用 AI 真正創作出可消費性的音樂。做到 22 年的時候我們已經開始自我懷疑,因為一直做一直沒做出來。但那個時候恰恰是這件事情開始 work 的時候——22 年 Suno 第一個版本發布了。
但在那個過程中我們被太多東西分散精力,被牽扯在國內一個相對井底之蛙的狀態里,技術 vision 不夠豐富。我們既誤判了 Suno 訓練的成本,又誤判了這件事的潛力——看著它一路從名不見經傳慢慢一點點突破,變成今天這個樣子。那個時候對我來講極度痛苦——我看到公司有好幾個項目在同時做,每一個都很難 100% 投入。同時我反過來問自己到底相信什么,conviction 到底是什么,為什么在做這些事情。我發現它其實是一種恐懼或回避。
在 24 年初,我跟兩個合伙人第一次去美國參加一個音樂展,在飛機上討論了十幾個小時,得到一個結論——我們應該把所有項目都砍掉,all in AI music。那個對話和決定非常重要也非常艱難,但做完之后坦白講從 24 年中開始我們才進入了增長軌道。
這是我最大的成長——可能出發過早、長期沒有技術變量、長期做不出 traction,從其他路徑找出路,但最終發現只是沒等到那個技術變量,而別人在你眼前把你的愿景、夢想做到了世界級水平。我們在 24 年才開始反應過來要追趕模型,開始訓練自己的音樂大模型。25 年初做了第一次開源,那個模型當時是開源領域的 SOTA,但跟 Suno 最好的模型還有巨大差距。再到今天 26 年初我們第二版開源模型達到了很接近 Suno 的水平。
Peter:如果回到兩年前,你會對當時的自己或者想做同樣事情的人有什么建議?
Joe:第一盡快出海,第二盡快跟世界上最優秀、最前沿的一幫人混在一起。跟你的用戶、跟你的技術領先者離得越快越近越好。
06對于 AI 音樂來說,個性化才是最重要的競爭要素
Joe:今天大家能看到 AI 生成的音樂在質量上對普通人來講已經跟專業人士做出來的沒有區別了,但為什么今天 Suno 或者所有 AI 生成的音樂在互聯網上還沒有打造出一個超級明星、一個創作者為中心的 IP?
Joe:比如像土搖滾 94 年紅磡那種風格——竇唯、張楚、唐朝樂隊的那種感覺,今天用 AI 能生成嗎?生成不了。生成出來的東西可能過于完美和統一了,一個模型它最終會去擬合一個分布,但人類喜歡的東西的分布是極度多樣性的。
我前段時間刷 Instagram,看到一個很火的網紅歌手參加美國達人秀。他的歌是一個非常機器、有點 hiphop 的 beat,然后唱的就是說話一樣的念詞——非常尷尬地站在舞臺上說話,也不是激昂的 rap。但他在 Instagram 上有幾百萬粉絲,內容在 Spotify 上銷量都非常好。這就是典型的個性化內容,今天讓任何一個 AI 音樂模型不去進行專門的微調都很難生成出來。
所以我們想在基模型上構建大量 Lora,每個人可以把自己的個性引入進來。長期來講 AI 賦能音樂一定走向 personalized,而不是所有人都統一聽 Suno 生成出來的那種全部很華麗的東西。
Peter:對于傳統音樂分發渠道,核心價值會不會因為 AI 音樂的普及而被顛覆?
Joe:一定會的。音樂流媒體平臺的巨大成本來自版權,而這個版權是存量市場——人類的心智面積就這么多,占領了心智面積就可以持續產生收入。但這也意味著行業迭代更新相對緩慢、創新更難、普通人參與方式更少。AI 完全可以打破這一點——比如它可以讓老 IP 被重演。今天 AI Remix,你可以把任何一個名人的歌送進去模型 Remix 成你喜歡的樣子,消費音樂的方式已經變了,創作也是一種消費了。傳統流媒體平臺要不要重新定義人跟音樂的交互方式?要不要重塑產品形態或商業模式?如果重塑了,是否會得罪已有的版權方?這就是老商業模式很難轉型的原因。
Peter:你自己會去涉及內容分發環節嗎?
Joe:一定會的。ACE Music day one 就是一個創作跟消費的社區,會逐漸跟 ACE Studio 打通。我們認為未來的 AI 音樂創作跟消費是一體化的,從 day one 就應該做在一起。
Peter:對于 AI 音樂來說,長期來看最重要的競爭要素是什么?
Joe:我覺得是某種形式的用戶 IP 或用戶的個性化資產。比如聲音——我們聽了那么多歌,問周圍普通人最喜歡的音樂為什么喜歡,可能 90% 是關注歌手的演唱,聲音構建了音樂一致性的個性或風格。如何保有音樂里的個性化資產——保有聲音、vocal,持續創造統一唱腔、統一風格的內容,在互聯網上構建長期 IP 和粉絲忠誠度——這件事長期來講肯定是最重要的競爭要素。
Peter:你們為什么選擇在 LA 而不是硅谷?
Joe:首先市場在美國或歐洲,所以我們一定要跟市場離得更近。當時在選灣區還是洛杉磯,其實就是靠近資本更多還是靠近用戶更多。對我們來講,靠近用戶這件事更本質。洛杉磯是全球音樂制作的中心,格萊美在這里,我們所在的位置名字就叫 Studio City——大量的影視、音樂 studio 都在這。搬過來后在這個房子里接待用戶,很多格萊美獲獎者都已經接待了不下十次,他們過來坐坐聊一下,我們給他看新功能、問他使用體驗,大家非常近。
Peter:在 2026 年,對于 ACE 來說最重要的幾件事情是什么?
Joe:最重要的事情是把 ACE Music 跟 ACE Studio 的完整生態打通,變成一個統一的開放的 AI 音樂生產平臺——真正形成每個人都能創造出自己個性化音樂的產品,而不僅僅是所有人都創作統一的、好聽但沒有個性的音樂。
這里面有很多手段——比如用 agent 去創作音樂,用 agent 幫你 plan 創作 idea,到每一個環節應該用什么模型去排列組合;比如模型的自主訓練,每個人都可以 fine tune 自己的模型,host 自己的模型甚至分享;比如音樂的多模態化——我們認為未來的音樂一定是視頻的,每個音樂都應該有一個對應的視頻,對已有視頻配上合理的音樂也是目前沒被解決的問題。
Peter:如果 ACE 成功了,10 年以后行業會是什么樣子?
Joe:AI 會徹頭徹尾地改變音樂產業——音樂如何被消費、如何被生產、如何在線下場景里跟人互動、你和偶像如何互動、如何社交——所有方方面面都會被 AI 全部重構。如果 ACE 有幸成為這里面最重要的生態系統,來接管音樂的產生、分發、消費甚至線下演藝,那么它將是一個至少幾千億美金以上的基礎設施。
![]()
轉載原創文章請添加微信:founderparker
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.