網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

對(duì)談Fish Audio：千萬ARR、12個(gè)月13倍增長，我們正進(jìn)入AI Voice 2.0的技術(shù)爆發(fā)期

2026-02-26 22:37:34　來源: FounderPark

北京舉報(bào)

分享至

文章轉(zhuǎn)載自「Alphaist Partners」，F(xiàn)P進(jìn)行了部分刪減。

基模正在走向全面的多模態(tài)，Gemini、豆包都已經(jīng)具有了文字、視覺和語音功能了，獨(dú)立的語音模型還有存在的必要嗎？

ElevenLabs 活得很好，F(xiàn)ish Audio 也活得很好。

過去一年，F(xiàn)ish Audio 實(shí)現(xiàn)了 13 倍增長，達(dá)到了 10 million 的 ARR，月活超過 100 萬。這家全球第二大 AI 語音平臺(tái)，擁有 350 萬用戶和 110 萬 UGC 聲音模型，核心產(chǎn)品 S1 是世界首個(gè)支持自然語言情感控制的 TTS 模型。

Fish Audio S1模型效果

更反直覺的是，他們最核心的數(shù)據(jù)壁壘，來自傳統(tǒng)公司會(huì)直接扔掉的「臟數(shù)據(jù)」——吵架聲、爭論聲、興奮的討論聲。

Alphaist Partners 合伙人陳哲（Peter）和 Fish Audio 兩位聯(lián)合創(chuàng)始人聊了聊：CEO Rissa（前 Meta/Amazon 增長與開發(fā)者社區(qū)負(fù)責(zé)人）與 CTO 冷月（00 后，前英偉達(dá)算法研究員）。從技術(shù)信仰到商業(yè)飛輪，從股權(quán)危機(jī)到團(tuán)隊(duì)重組，這是一個(gè)關(guān)于「AI 語音 2.0」的完整創(chuàng)業(yè)故事。

注：The Alphaist 是一檔深度對(duì)話欄目，關(guān)注技術(shù)與創(chuàng)業(yè)的第一性原理，聚焦正在改變世界的早期創(chuàng)業(yè)者、工程師和產(chǎn)品探索者。Alphaist Partners 是一家專注于硬科技領(lǐng)域的美元基金，使命是賦能 Alpha 創(chuàng)業(yè)者，推動(dòng)人類社會(huì)進(jìn)步。

??關(guān)注 Founder Park，最及時(shí)最干貨的創(chuàng)業(yè)分享

超 19000 人的「AI 產(chǎn)品市集」社群！不錯(cuò)過每一款有價(jià)值的 AI 應(yīng)用。

邀請(qǐng)從業(yè)者、開發(fā)人員和創(chuàng)業(yè)者，飛書掃碼加群：

進(jìn)群后，你有機(jī)會(huì)得到：

最新、最值得關(guān)注的 AI 新品資訊；
不定期贈(zèng)送熱門新品的邀請(qǐng)碼、會(huì)員碼；
最精準(zhǔn)的 AI 產(chǎn)品曝光渠道

01從開源走向全球第二大語音生成平臺(tái)

Peter：簡單介紹下 Fish Audio？

Rissa：Fish Audio 是一個(gè) AI 語音生成平臺(tái)，目前已經(jīng)是世界第二大的 AI voice generation platform。我們提供多語言文本轉(zhuǎn)語音（TTS）和高精度聲音克隆，讓每個(gè)人都能擁有人類水平的 AI 配音能力。我們的用戶包括游戲開發(fā)者、ASMR artist、播客創(chuàng)作者以及各類 professional content creator，他們用我們的產(chǎn)品創(chuàng)作音頻內(nèi)容，提高生產(chǎn)效率，實(shí)現(xiàn)更有效的內(nèi)容商業(yè)化。

過去 12 個(gè)月內(nèi)我們實(shí)現(xiàn)了 13 倍的增長，達(dá)到了 10 million 的 ARR。我們積累了 350 萬用戶，月活超過 100 萬。我們也是業(yè)界最大的 UGC 聲音模型市場(chǎng)，有 110 萬個(gè) public voice models 在平臺(tái)上，用戶可以找到喜歡的角色來創(chuàng)作音頻內(nèi)容。流量上我們是全球第二大 AI 語音平臺(tái)，僅次于 ElevenLabs。因?yàn)槲覀兤鹪从陂_源項(xiàng)目 Fish Speech，各個(gè)開源 repository 累計(jì)超過 100K 的 GitHub Stars。過去一年我們還 launch 了世界上第一個(gè) open domain emotion control 的 TTS model，也就是我們的 S1 模型。

Peter： Fish Audio 的核心產(chǎn)品是什么？

冷月：目前我們線上的主要產(chǎn)品是 S1 模型，也是世界上第一個(gè)支持自然語言控制的 TTS 模型，可以通過文本描述情感、強(qiáng)調(diào)、速度等各種特征。在 S1 這一代我們開源了一個(gè)小模型叫 S1 Mini，下一代模型將在自然度、可控性、穩(wěn)定性和多說話人方面做出進(jìn)一步提升，同時(shí)我們預(yù)計(jì)會(huì)完全開源 S2 模型。

Peter：Fish Audio 的客戶現(xiàn)在是誰？誰在用你們的產(chǎn)品？

Rissa：我們起源于開源，所以最早的用戶是開源社區(qū)里的游戲開發(fā)者。過去一年客戶群體發(fā)生了很大的演化，主要分兩大類。第一類是 prosumer 創(chuàng)作者，他們直接在我們平臺(tái)上做內(nèi)容創(chuàng)作，包括 vlogger、博客主、有聲書作者、自媒體和游戲配音演員，用來給視頻或小程序做多語言配音。

第二類是 API 企業(yè)用戶，過去三個(gè)月內(nèi)突飛猛漲，已占我們 40% 的 revenue。主要分四大類：一是 AI 陪伴類社交應(yīng)用，如 Character.AI 這類產(chǎn)品；二是游戲公司和 To B 企業(yè)，用來做 NPC 對(duì)話和角色配音；三是 AI 內(nèi)容創(chuàng)作平臺(tái)，如 HeyGen、Vigo、Clokation 等；四是 real time voice agent，這部分量非常大，增長趨勢(shì)很強(qiáng)，主要用于實(shí)時(shí)客服、銷售和教育場(chǎng)景。

ElevenLabs 效果不夠好，語音需要大模型革命

Peter：為什么選擇做音頻模型這個(gè)方向？

冷月：大概兩三年前，我還沒從英偉達(dá)離職的時(shí)候，我們看到市場(chǎng)上語音領(lǐng)域并沒有特別好的 player，最著名的就是 ElevenLabs，當(dāng)時(shí)大概有 5000 萬到 1 億美金收入的規(guī)模。但說實(shí)話效果并不好。我個(gè)人對(duì) VTube 和語音合成、語音開源非常感興趣，發(fā)現(xiàn)沒有一個(gè)產(chǎn)品效果能達(dá)到我的預(yù)期——它們都不夠自然，尤其句子長了之后，語音生成會(huì)變得非常單調(diào)。

我們就想能不能解決這個(gè)問題，讓語音變得自然。我一直相信語音會(huì)是人類與 AI 交互非常重要的入口，就像圖像模態(tài)一樣。我們開始思考：要讓語音模型更自然，需要做什么？第一點(diǎn)，模型一定得大，一定得是自回歸架構(gòu)，一定得盡可能多地建模語義信息和聲學(xué)信息，做一個(gè)大一統(tǒng)的模型。沒有這樣的結(jié)構(gòu)，語音就沒辦法走到下一個(gè)階段。所以我們從 Fish Speech 開始研究端到端的語音模型，早期也遇到了很多困難，比如模型穩(wěn)定性、訓(xùn)練穩(wěn)定性等各種問題。

現(xiàn)在回過頭來看，當(dāng)時(shí)的選擇是完全正確的。在我們之后，Moshi、SESAME，到最近的千問 TTS，大家都不約而同地選擇了端到端建模語義和聲學(xué)信息，都使用了類似我們當(dāng)時(shí)采用的雙自回歸架構(gòu)。這讓我們從很早開始就在數(shù)據(jù)收集和強(qiáng)化學(xué)習(xí)管線上做出了很多領(lǐng)先于時(shí)代的工作。

Peter：你覺得獨(dú)立音頻模型的生存空間是暫時(shí)的還是持久的？音頻模型會(huì)被多模態(tài)大模型直接吸收進(jìn)去嗎？

冷月：「直接吸收」這個(gè)說法可能不太妥當(dāng)，并不是把語音數(shù)據(jù)扔進(jìn)去模型就練完了，沒那么簡單。但語音模型和文本模型、視覺模型一定會(huì)結(jié)合，形成更完善的 Omni Model，這是我一直相信的。

如果只是做最普通的 TTS 任務(wù)，現(xiàn)在很多工作已經(jīng)把它吸收進(jìn)去了，比如千問的 Omni Model 等。但如果要做更復(fù)雜、更富有情感、更可控的語音，整體數(shù)據(jù)集的構(gòu)建非常難，互聯(lián)網(wǎng)上不存在這種復(fù)雜標(biāo)注的文本和語音的 pair，這就構(gòu)成了護(hù)城河。我們更聚焦 content creator 市場(chǎng)的模型，不那么容易被吸收。相反，我們要做的是通過語音把文本和圖像模型整合到一起，構(gòu)建更低延遲、效果更好、可以對(duì)多模態(tài)進(jìn)行理解的 voice agent。

Peter：所以我的理解是，對(duì)情感和語義的細(xì)膩控制，讓我們?cè)谑袌?chǎng)里有一個(gè)獨(dú)特的位置。關(guān)于 AI voice 和 voice agent 的未來，你們?cè)趺纯矗?/strong>

冷月：現(xiàn)在絕大部分做 TTS 的公司都覺得 TTS 技術(shù)已經(jīng)到頭了，已經(jīng) good enough，再往上提升是 marginal 的，這是我們聽到非常多的聲音。但從我們的視角來看，能做的東西還有非常多——更好的可控性，基于 vision 的 control，比如給模型一個(gè)人物線稿或劇情分鏡，讓它據(jù)此配音，還有很多各種各樣的事情。只有把這些都做好了，我們才能真正服務(wù)好 content creator 用戶和 B2B 客戶。而絕大部分公司在目前階段就止步于此了。

吵架時(shí)情緒最真實(shí)，「臟數(shù)據(jù)」反而是寶藏

Peter：在音頻領(lǐng)域會(huì)有類似大語言模型的 Scaling Law 嗎？作為一家體量小得多的創(chuàng)業(yè)公司，我們相比大公司在數(shù)據(jù)或算力的積累上會(huì)有劣勢(shì)嗎？

冷月：這是一個(gè)很有意思的話題。如果單看最樸素的 TTS 任務(wù)，你會(huì)發(fā)現(xiàn)所有開源模型、閉源模型基本都止步于 1.5B、4B 這個(gè)規(guī)模——因?yàn)槟Ｐ统^ 4B 之后，對(duì)于純粹的 TTS 任務(wù)我們看不到更多提升。但如果我們想把語音做得更可控，想要 voice agent 能力，想要模型更好地思考，就需要更多參數(shù)——30B、100B。我們選擇了像大語言模型公司一樣采用 MOE 架構(gòu)，30 active 3、100 active 10，大概這些規(guī)模的模型作為下一代備選。

一個(gè) 30 active 3 的模型，訓(xùn)練和推理資源大概跟一個(gè) 6B 的 dense model 差不多，對(duì)我們來說完全可以 afford。這里有一個(gè)大部分人不知道的事實(shí)：絕大部分大公司雖然有 1 萬卡、10 萬卡來做大語言模型，但語音組的計(jì)算資源往往非常有限，能到幾百卡、一千卡的公司其實(shí)非常少，而我們已經(jīng)進(jìn)入第一梯隊(duì)了。

Peter：之前提到說未來會(huì)把圖片和文字吸收到語音骨干模型里，跟今天的多模態(tài)語言模型訓(xùn)練方式有什么本質(zhì)區(qū)別？

冷月：這兩件事殊途同歸，但我們認(rèn)為獲得高質(zhì)量文本數(shù)據(jù)比獲得高質(zhì)量語音數(shù)據(jù)更簡單，因?yàn)槭袌?chǎng)上已有很多成熟的文本模型，可以作為 online distillation 的數(shù)據(jù)來源。舉個(gè)例子，我們拿自己的端到端模型給定一個(gè)語音，輸出一個(gè)文本答案，再把這個(gè)答案和對(duì)應(yīng)文本給到一個(gè) teacher model，就可以算出整個(gè) sequence 的 log probability 和 logits，做在線蒸餾，學(xué)習(xí)和克隆教師模型的行為。

現(xiàn)在不用太多成本就能打造出解決 95% 問題的文本模型，已經(jīng)變得非常簡單。但絕大部分公司對(duì)語音數(shù)據(jù)的積累——尤其是高自然度、多音軌、情感豐富的語音數(shù)據(jù)——還沒有開始。這種數(shù)據(jù)在互聯(lián)網(wǎng)上極其稀缺，所以我們往文本和圖像理解方向邁進(jìn)，比他們往語音走要快得多。

Peter：你們?cè)跀?shù)據(jù)上的投入會(huì)是什么量級(jí)？

冷月：我們預(yù)計(jì)今年 Q1、Q2 在數(shù)據(jù)上的投入會(huì)達(dá)到百萬美金級(jí)別。

Peter：需要在不同語種上都有相應(yīng)的采集？

冷月：對(duì)，不只是不同語種，還有不同的任務(wù)類型。我們?cè)缒攴高^一個(gè)錯(cuò)——從互聯(lián)網(wǎng)上爬完數(shù)據(jù)后直接用原始分布訓(xùn)練 TTS 模型，導(dǎo)致模型對(duì)播客的能力表現(xiàn)特別好，但在創(chuàng)作類、陪伴類、電影和動(dòng)漫配音方面表現(xiàn)就差了很多。數(shù)據(jù)分布本身非常重要，我們內(nèi)部有一套不同語種數(shù)據(jù)分布的目標(biāo)指標(biāo)，從不同數(shù)據(jù)源精確匹配每個(gè)位置需要什么樣的數(shù)據(jù)、需要多少數(shù)據(jù)，來構(gòu)建每一代模型的 data recipe。

Peter：那是不是所有數(shù)字音頻內(nèi)容——電影、戲劇、播客——都可能成為訓(xùn)練原料？

冷月：所有可得的數(shù)據(jù)都有價(jià)值，但不同數(shù)據(jù)有不同的版權(quán)風(fēng)險(xiǎn)。我們的策略是在合法前提下，盡可能從多元數(shù)據(jù)源獲取數(shù)據(jù)，包括已過版權(quán)保護(hù)期的電影、動(dòng)漫、播客，以及真人聊天對(duì)話等。

Peter：像電影這種高質(zhì)量影視內(nèi)容有大量豐富的語音和表現(xiàn)力，傳統(tǒng)互聯(lián)網(wǎng)大廠或內(nèi)容平臺(tái)會(huì)有先天的數(shù)據(jù)優(yōu)勢(shì)嗎？

冷月：并非如此。受限于監(jiān)管體系，即便一家公司持有電影版權(quán)，也并不意味著可以把其中的人聲用于 AI 訓(xùn)練，這受到配音協(xié)會(huì)等的強(qiáng)烈抵制。就像 Google 圖書館有大量藏書，但并不代表可以隨意免費(fèi)使用這些資料。

Peter：所以作為創(chuàng)業(yè)公司，在數(shù)據(jù)獲取方面沒有明顯優(yōu)勢(shì)，但在高質(zhì)量數(shù)據(jù)的清洗 know-how 和積累上，比大公司有更強(qiáng)的經(jīng)驗(yàn)和復(fù)利。

冷月：對(duì)，我們離用戶更近，清洗管線更傾向于保留高自然度和多說話人的語音。翻看最近各家 TTS 公司的論文，大部分?jǐn)?shù)據(jù)清洗只保留了單說話人音頻，不允許一個(gè)片段有多個(gè)說話人疊在一起。但在我們的管線中，我們是允許的。

我們自己的語音識(shí)別模型和數(shù)據(jù)清洗模型也做到了世界第一。我發(fā)現(xiàn)一個(gè)有趣的事實(shí)：noisy 數(shù)據(jù)往往是更有高表現(xiàn)力的數(shù)據(jù)。人什么時(shí)候情緒最豐富？往往是兩個(gè)人在吵架、在爭論、或在很高興地討論事情的時(shí)候——這時(shí)兩人的聲音往往會(huì)重疊在一起。傳統(tǒng)數(shù)據(jù)清洗會(huì)直接把這種數(shù)據(jù)扔掉，而我們希望盡可能保留更多原汁原味的、符合原始分布的數(shù)據(jù)。

Peter：合成數(shù)據(jù)不是解法？

冷月：大家低估了語音工作的難度?，F(xiàn)在絕大部分工作只是給大語言模型增加語音模態(tài)，并不是從語音本身出發(fā)的。很多時(shí)候他們用大量合成數(shù)據(jù)，拿 TTS 模型直接合成，這里面有很多問題。這種數(shù)據(jù)固然容易獲得，就像合成的文本數(shù)據(jù)一樣，是一個(gè) low hanging fruit，能很快提高模型效果，但也有 toxic 的一面，會(huì)在一定程度上影響模型的表現(xiàn)能力和上限。我們?cè)谡Z音、文本、視頻、圖像這些模態(tài)上都看到了這個(gè)規(guī)律。所以我們相信一定需要更多高質(zhì)量的、由人工標(biāo)注的、由真實(shí)線上數(shù)據(jù)驅(qū)動(dòng)的數(shù)據(jù)來帶動(dòng)模型能力提升，這是我們獨(dú)特的護(hù)城河。

S2 的秘密武器：自研情緒標(biāo)ASR與 RLHF

Peter：公司即將發(fā)布全新的 S2 模型，跟上一代 S1 的主要優(yōu)勢(shì)和差異是什么？

冷月：S2 主要實(shí)現(xiàn)了更精細(xì)化的控制、多說話人支持以及更低延遲。絕大部分改進(jìn)不是來自模型結(jié)構(gòu)，而是數(shù)據(jù)工作。我們基本上完全重構(gòu)了數(shù)據(jù)管線，所有模型都是自研的——包括一個(gè)情緒標(biāo)注世界第一的 ASR 模型，以及聲音分離模型、Audio Quality Model 等，讓預(yù)訓(xùn)練數(shù)據(jù)天然具有準(zhǔn)確的 speaker tag 和 open domain 的情感標(biāo)簽（從簡單的 emphasize 到復(fù)雜的"帶著憤怒和悲傷"這類情緒），整合到數(shù)據(jù)管線后得到了非常健壯的高質(zhì)量預(yù)訓(xùn)練數(shù)據(jù)集。

然后我們結(jié)合線上用戶反饋數(shù)據(jù)——用戶是否喜歡、是否下載等——構(gòu)建了一個(gè)巨大的偏好數(shù)據(jù)集，訓(xùn)練了一個(gè) reward model。同時(shí)我們還有通過 in-house labeling 實(shí)現(xiàn)的另一個(gè) reward model，關(guān)注模型正確性和表達(dá)自然性。我們專門組建了一個(gè)全球 native speaker 團(tuán)隊(duì)來標(biāo)注數(shù)據(jù)。結(jié)合預(yù)訓(xùn)練數(shù)據(jù)和后訓(xùn)練的強(qiáng)化學(xué)習(xí)管線，我們得到了 S2。

Peter：怎么理解 Fish Audio 的語音模型跟市場(chǎng)上其他競爭對(duì)手在架構(gòu)方面的區(qū)別？

冷月：目前市場(chǎng)上存在多種 TTS 模型架構(gòu)。第一種是比較古老的，類似 StyleTTS 的架構(gòu)，ElevenLabs 2.5 等在用，優(yōu)勢(shì)是延遲非常低，一次能把很長的 sequence 吐出來，但韻律比較弱，比較 monotone。在此基礎(chǔ)上出現(xiàn)了 Tortoise 架構(gòu)，也是目前 CosyVoice、Seed TTS 等在使用的架構(gòu)。

這個(gè)架構(gòu)的特性是給定文本，先讓模型把語義 token 吐出來——這更像文本任務(wù)而非語音任務(wù)——帶有一點(diǎn)音高信息，再由一個(gè)額外的模型將其解碼為音頻。這是目前業(yè)界部署最多的一類模型，好處是非常穩(wěn)定，同時(shí)在表現(xiàn)力上有了質(zhì)的飛躍。

還有一種更新的路線，比如我們的模型，或者千問 TTS、SESAME 等——把語義和聲學(xué)信息一起端到端建模。這樣得到的模型表現(xiàn)力更強(qiáng)，天生可以 handle 多說話人，但反面是容易出現(xiàn)說話人跳變、噪音等 badcase。所以我們?cè)趶?qiáng)化學(xué)習(xí)上做了大量后訓(xùn)練來優(yōu)化穩(wěn)定性，讓它能和前者的模型持平，同時(shí) deliver 更好的表現(xiàn)力。

Peter：這種方式是未來 TTS 架構(gòu)的主流趨勢(shì)嗎？

冷月：未來這會(huì)成為主流架構(gòu)。它還有一個(gè)巨大優(yōu)點(diǎn)：延遲可以比之前的架構(gòu)低很多，理論上只需要第一個(gè) token 生成完就可以開始音頻解碼，延遲可以壓縮到非?？植赖臓顟B(tài)。我們最近還會(huì)發(fā)布一個(gè)全新類型的模型，完全去掉了 Vocoder 模塊，實(shí)現(xiàn)從文本到波形的完整端到端建模。

我們一直非常相信端到端。每一個(gè)模塊都在往模型中引入更多結(jié)構(gòu)和復(fù)雜性，不只限制計(jì)算效率，也限制了模型的能力和上限。從語音發(fā)展的歷程來看——早些年我們有一個(gè)模塊預(yù)測(cè)每個(gè)音素有多長，再有一個(gè)模塊把長度和音素放在一起，轉(zhuǎn)成梅爾譜，再有一個(gè) Vocoder 把梅爾譜轉(zhuǎn)成波形，這個(gè)流程非常長。而我們和千問的方案把前兩個(gè)模塊又融合了，從文本信息直接給出聲學(xué)信息。再往后一步——能不能把文本給進(jìn)去就直接把波形吐出來？這個(gè)事情會(huì)非常 amazing，有希望把延遲降到 30～50 毫秒。

Peter：那整個(gè) voice agent 架構(gòu)呢？傳統(tǒng)級(jí)聯(lián)方案和端到端方案的區(qū)別是什么？

冷月：現(xiàn)階段雖然各廠商都有端到端模型，但投入生產(chǎn)最多的還是級(jí)聯(lián)方案：VAD → turn taking → STT → LM → TTS，大概 4～5 級(jí)流水線。很多公司宣稱達(dá)到 500 毫秒，但實(shí)際生產(chǎn)上平均延遲都在一秒以上，因?yàn)槔锩嬗泻芏?bottleneck 無法完全流式化。

最先能合并的是 LM、STT 和 turn taking 三個(gè)模塊——如果有一個(gè)支持流式的語音編碼器接入 LM，就可以由 LM 自己判斷用戶是否已經(jīng)說完，完成了就停止，沒完成就生成答案文本再交給 TTS。這個(gè)流程從用戶停止說話到模型開口，可能只有 300～500 毫秒。

再進(jìn)一步把 streaming TTS 也融合進(jìn)去，那我們需要等待的時(shí)間就只有：用戶完成這句話之后的一次 LM prefill，加上可能幾個(gè) token 的輸出時(shí)間。這個(gè)流程就非常短，可能整個(gè)就在 100 毫秒以內(nèi)了。

再往前一步就是全雙工模型。世界上已經(jīng)存在全雙工模型，但它們智力水平都很低，有各種模態(tài) conflict。不過這個(gè)方案能提供比端到端更低的延遲響應(yīng)，還能在用戶說話時(shí)給出 supportive 的語氣——比如「確實(shí)」「對(duì)的」「我想想」等。預(yù)計(jì)今年 Q4 推出端到端的 speech-in-to-speech-out 模型，之后再走向全雙工。

Peter：ASR 模型對(duì)預(yù)訓(xùn)練最大的優(yōu)勢(shì)是什么？

冷月：最主要體現(xiàn)在 speaker、情感和副語言（笑聲、停頓、強(qiáng)調(diào)等）的準(zhǔn)確性上。我們測(cè)了 Gemini、火山 Audio Capturer 等很多模型，發(fā)現(xiàn)大家對(duì)副語言的處理表現(xiàn)都不好。要做出真正可控的、能 follow 用戶 instruction 的 TTS 模型，就需要更多帶 control 標(biāo)簽的數(shù)據(jù)，所以我們構(gòu)建了自己的 ASR 模型來做這件事。

Peter：隨著每一代模型架構(gòu)迭代，上一代的訓(xùn)練管線在下一代還有幫助嗎？還是每次都要從頭搭建？

冷月：每一代都有基礎(chǔ)性作用，更多時(shí)候是往前一代管線里添加更多功能。比如做全雙工模型，就需要更好的聲音分離模型、target speaker extraction 模型加入現(xiàn)有管線，把重疊說話的內(nèi)容分離出來用于訓(xùn)練。這是一個(gè)漸進(jìn)式的過程，大部分?jǐn)?shù)據(jù)可以 reuse S2 的訓(xùn)練數(shù)據(jù)。

不做單一大模型，用模型矩陣匹配商業(yè)場(chǎng)景

Peter：從產(chǎn)品和商業(yè)角度，不同技術(shù)路線選擇對(duì)用戶體驗(yàn)和商業(yè)價(jià)值有哪些影響？

Rissa：我們按照不同商業(yè)場(chǎng)景選擇了不同的技術(shù)路徑，匹配不同需求的模型矩陣，而非追求單一大模型。比如 S1 是平臺(tái)的 flagship model，也是用戶使用最多的模型，非常適用于 entertainment 和 AI native apps——AI 陪伴社交應(yīng)用、VTubing、Gaming 公司等，需要更自然、更真實(shí)的表達(dá)。同時(shí)我們也發(fā)現(xiàn)大量 real-time voice agent 和 call center 的 use case 希望使用我們的 TTS 模型。

針對(duì)這類企業(yè)客戶，我們即將 launch S2 Flash，一個(gè) 4B 的 enterprise model，適用于實(shí)時(shí)客服對(duì)話場(chǎng)景，有更低的延遲和更高的穩(wěn)定性。對(duì)于內(nèi)容生成來說可以容忍較高延遲，但更在意聲音質(zhì)量和情感表達(dá)力，我們更建議用 S1 或即將發(fā)布的 S2 Pro。不同企業(yè)用戶有不同的偏好組合——穩(wěn)定性+低延遲，或穩(wěn)定性+表達(dá)力，或表達(dá)力+自然度——我們會(huì)適配不同模型給不同應(yīng)用場(chǎng)景。

Peter：所以面向更有表現(xiàn)力和情感性的市場(chǎng)，是增量最快也是潛力最大的市場(chǎng)。

Rissa：對(duì)。我們的聲音 is more built for entertainment 和 AI native apps。這些公司過去兩三年會(huì)變成未來的世界 500 強(qiáng)。ElevenLabs 現(xiàn)在主打的是傳統(tǒng)行業(yè)世界 500 強(qiáng)的企業(yè)配音和有聲書場(chǎng)景，有比較高的 content safety 管制，要樹立專業(yè)的品牌形象。而我們的切入口是更有趣的聲音、更有靈魂的聲音，更適用于游戲和 entertainment use case，這些公司也在快速發(fā)展中，很可能在未來兩到三年內(nèi)成為接下來的世界 500 強(qiáng)——也就是高潛力市場(chǎng)。

Peter：公司現(xiàn)在大約 60% 收入來自 C 端或 prosumer 創(chuàng)作者，這在 AI 基礎(chǔ)設(shè)施公司里很少見。為什么從創(chuàng)作者切入，而不是一開始做企業(yè)級(jí)API服務(wù)？

Rissa：我們先做了開源模型，開源社區(qū)里有很多需求要求專業(yè)創(chuàng)作工具，我們就做了創(chuàng)作平臺(tái)給 content creators 使用。最早是游戲開發(fā)者和游戲配音的 ASMR artist，第一輪破圈有很多 Audio Podcast 內(nèi)容創(chuàng)作者，最近一輪破圈讓更多專業(yè) vlogger 開始在 workflow 里使用我們做音頻配音，提高創(chuàng)作效率也幫他們賺錢。這是一個(gè)很自然的從開源社區(qū) evolve 的過程，團(tuán)隊(duì)本身做 C 端 creator platform 的 DNA 比較強(qiáng)。

Enterprise 和 B2B API 用戶方面，早期人力有限無法滿足社區(qū)里的很多需求。去年 10 月 reorg 完成后才真正開始嘗試，一開始說實(shí)話冷月和我自己都沒那么看好，我就抱著試一試的心態(tài)開始接 enterprise contract——我看 ElevenLabs 都能把 enterprise 模型做那么多，但我們的 use case 又不太一樣。結(jié)果發(fā)現(xiàn)增長模式非常 bottom-up——跟 Slack、Notion 很像。開源社區(qū)里用我們模型的 engineer 和 developer，還有平臺(tái)上的 PM 和內(nèi)容創(chuàng)作者，覺得我們好用，就介紹給他們工作的公司簽 enterprise contract，也有些是本身就是 founder，長期關(guān)注 TTS，開始跟我們簽約。這部分增長比預(yù)期快很多，我們也發(fā)現(xiàn)了這部分的增長潛力，所以開始 dedicate 更多 resource 在模型上提供更多支持，做 enterprise sales 這件事。

Peter：所以你們是非常漂亮的 Product-Led Growth，結(jié)合了開源社區(qū)運(yùn)營和創(chuàng)作平臺(tái)的口碑傳播。

1UGC聲音模型構(gòu)成最難復(fù)制的壁壘

Peter：你們的UGC內(nèi)容也做得很好，介紹下經(jīng)驗(yàn)？

Rissa：我們整個(gè) go-to-market 策略 ToB 和 ToC 都非常 bottom-up。而且我們打造了世界第一大的 UGC voice model market，有 110 萬 public UGC voices，它既加持了 consumer 平臺(tái)的用戶轉(zhuǎn)化，也 strengthen 了 enterprise sales——很多人因?yàn)槲覀冇羞@么多有趣的聲音，選擇我們而不是 ElevenLabs 或 Cartesia。

Peter：這些 UGC 聲音模型背后有什么特別的激勵(lì)機(jī)制嗎？

Rissa：有的。創(chuàng)作者公開的聲音模型如果被其他用戶使用，消耗的 paid token 的 30% 我們會(huì)以 credit 形式回饋給創(chuàng)作者。

Peter：你們有觀察到這些用戶創(chuàng)作的聲音在使用量或趨勢(shì)上有什么顯著變化嗎？

Rissa：確實(shí)有很 dynamic 的變化。我們也是業(yè)界唯一一家建立了完整 live RLHF 做 audio preference alignment 后訓(xùn)練的 voice generation platform。越多人使用某個(gè)語種或帶口音的語言，對(duì)應(yīng)的模型表現(xiàn)就會(huì)實(shí)現(xiàn)一定的爆發(fā)。舉個(gè)例子，去年 10 月我們的阿拉伯語模型實(shí)現(xiàn)了爆發(fā)——原因是 9 月有阿拉伯王子去世，他的聲音被大量克隆在我們平臺(tái)上，大家為悼念他用他的聲音制作各種內(nèi)容，帶來了很多阿拉伯語用戶，使我們阿拉伯語模型實(shí)現(xiàn)了性能突破。后來也有企業(yè)用戶來找我們 host enterprise model in Arabic，因?yàn)樗麄冋J(rèn)為我們的阿拉伯語模型是 SOTA。

Peter：如果用戶上傳名人聲音進(jìn)行克隆，從平臺(tái)角度有審核或風(fēng)控機(jī)制嗎？

Rissa：大家在上傳聲音時(shí)要自己 declare ownership。如果沒有 ownership，其他人可以舉報(bào)，我們會(huì)撤掉聲音模型。因?yàn)槲覀兪?UGC platform，creator 要自己為自己創(chuàng)造的聲音負(fù)責(zé)，這在我們的 terms of service 里寫得很明確。

Peter：這個(gè) UGC 生態(tài)可能會(huì)成為 Fish Audio 最難復(fù)制的資產(chǎn)。

Rissa：UGC 音色只是其中一個(gè)護(hù)城河。我們?cè)谶^去一年建立了多個(gè)難以復(fù)制的閉環(huán)效應(yīng)：第一，UGC 音色生態(tài)；第二，整個(gè)后訓(xùn)練 RLHF 管線——越多人使用，聲音模型表現(xiàn)就越好、越穩(wěn)定；第三，架構(gòu)非常 efficient，不論訓(xùn)練還是推理都帶來極大的成本優(yōu)勢(shì)；第四，我們起源于開源社區(qū)，能有效利用模型發(fā)布以最低 CAC 獲取流量，讓更多人使用模型、表現(xiàn)越來越好，造成更多 token 消耗和更多 revenue。這整個(gè)閉環(huán)是我們?cè)谶^去一年成功跑起來的。

真正留下來的是"用 AI 賺錢"的創(chuàng)作者

Peter：很多模型公司的產(chǎn)品就是一個(gè)API或模型本身，沒有太多定制開發(fā)。但 Fish Audio 不一樣，你們也在開發(fā)完整的 Fish Studio，新版本會(huì)有更多產(chǎn)品級(jí)功能。你們?cè)诋a(chǎn)品深度和設(shè)計(jì)上是怎么思考的？

Rissa：過去 12 個(gè)月里，我們整個(gè)用戶畫像都有很大的 dynamic change。我們成功 launch 了 SOTA 模型，找到了 PMF，實(shí)現(xiàn)了 10 million ARR 的商業(yè)化。在整個(gè)變化過程中，用戶群體經(jīng)歷了 dynamic shift——從最早的游戲開發(fā)者、游戲配音創(chuàng)作者，到 Audio Podcast 創(chuàng)作者，到現(xiàn)在更多的是專業(yè) professional content creator 和 VTuber。

我們發(fā)現(xiàn)真正有更強(qiáng)付費(fèi)能力、真正會(huì)留在 Fish 的用戶是專業(yè)內(nèi)容創(chuàng)作者，他們用 Fish Audio 作為 existing workflow 的一部分，讓他們能更高效地生產(chǎn)內(nèi)容、幫他們賺錢。所以至少接下來六個(gè)月，我們的方向還是服務(wù) consumer 專業(yè)內(nèi)容創(chuàng)作者，基于他們做聲音相關(guān)的衍生產(chǎn)品和 feature——除了現(xiàn)有的聲音克隆、語音合成，還要讓他們實(shí)現(xiàn)多軌編輯、更精細(xì)的情感控制，甚至 lip sync、口型結(jié)合和整個(gè) video avatar，實(shí)現(xiàn)更加完整的端到端內(nèi)容創(chuàng)作。

Peter：對(duì)于這群專業(yè)用戶，產(chǎn)品要求和客單價(jià)跟傳統(tǒng)配音用戶很不一樣。

Rissa：對(duì)，這些用戶在逐漸成為主流，付費(fèi)能力很強(qiáng)——因?yàn)樗麨?Fish Audio 付費(fèi)是為了自己賺錢，所以粘性更強(qiáng)、使用頻率更高、付費(fèi)和續(xù)費(fèi)能力也更強(qiáng)。關(guān)鍵是 Fish Audio 能不能給他最極致的體驗(yàn)，滿足創(chuàng)作需求，真正幫他提高創(chuàng)作效率、減少創(chuàng)作成本。

市場(chǎng)上確實(shí)缺乏一個(gè)專門為播客制作者或音頻創(chuàng)作者打造的 AI 化工具，傳統(tǒng)工具要么太老舊，要么 ElevenLabs 這類 AI 工具并不具備專業(yè)內(nèi)容創(chuàng)作真正需要的能力和產(chǎn)品。

整體來說 consumer platform 實(shí)現(xiàn)了兩個(gè)價(jià)值：提高創(chuàng)作效率讓 productivity 更高，同時(shí)提高 creativity。

Peter：你們的開源倉庫超過 10 萬 GitHub Stars，能詳細(xì)闡述開源策略和對(duì)商業(yè)化的影響嗎？

Rissa：我們的 DNA 里有些東西是天生的——冷月和團(tuán)隊(duì)小伙伴源自開源社區(qū)，本身就是 top contributor，我自己在 Meta 和 Amazon 也是做開發(fā)者社區(qū)的。我們很有效地利用了開源作為分發(fā)的護(hù)城河，成為早期很有效的 distribution channel。

但開源并不是一個(gè) monetization 的鏈路。我們選擇開源核心模型和工具鏈，是因?yàn)殚_發(fā)者不相信 Demo，只相信代碼。只有當(dāng)他們真正能跑、能測(cè)、能對(duì)比，才會(huì)相信你的模型表現(xiàn)。我們把模型推理工具和訓(xùn)練方法全部開源，讓開發(fā)者可以直接 benchmark 我們的模型，本地部署測(cè)試 latency、quality 等各方面性能。

簡單來說，開源是讓你可以用、可以測(cè)、可以感知 Fish 模型與其他模型的差異。但我們真正的閉源商業(yè)化模型才是讓你能夠規(guī)模化上線、在產(chǎn)品上做開發(fā)、讓你賺錢的模型。很多 enterprise API 客戶就是這樣來的——最早起源于開源，覺得好用，起了量之后開始使用閉源模型。

先吃 AI Native 市場(chǎng)，再切傳統(tǒng) 500 強(qiáng)

Peter：跟 ElevenLabs 和頭部大廠的競爭，長期差異化在哪里？

Rissa：First mover 永遠(yuǎn)有 advantage。ElevenLabs 確實(shí)是過去幾年音頻領(lǐng)域最成功的公司，短時(shí)間做到 3.3 億 ARR、110 億估值，是行業(yè)標(biāo)桿。直接 head-to-head 競爭非常 challenging。但我們一直打的是自己的 value——針對(duì)情感化實(shí)時(shí)交互的聲音，更 entertainment、更有趣的聲音，這是大家選擇我們而非 ElevenLabs 的原因。

但 at the end of the day，我們和 ElevenLabs 的市場(chǎng)肯定有 merge 的地方。等我們把 AI native apps 市場(chǎng)吃下之后，接下來也會(huì)打?qū)崟r(shí)客服這種穩(wěn)定性市場(chǎng)、世界 500 強(qiáng)公司。到那時(shí)候拼的是誰手速快、誰真正能抓住用戶心智打入市場(chǎng)。我們整個(gè)團(tuán)隊(duì)在 go-to-market、內(nèi)容、B2B sales 以及模型和技術(shù)能力上都很強(qiáng)。

Peter：Fish Audio 未來 18 個(gè)月的目標(biāo)是什么？

Rissa：希望在未來 12 到 18 個(gè)月實(shí)現(xiàn)更 aggressive 的增長，接下來 optimize revenue growth，目標(biāo)是 50～100 million ARR，jointly among B2B 和 B2C。同時(shí)也要 expand beyond AI voice generation platform，變成一個(gè) multi-modal 平臺(tái)，讓更多創(chuàng)作者可以在我們平臺(tái)做完整的內(nèi)容創(chuàng)作。

冷月：從 research 和產(chǎn)品角度，希望在未來 18 個(gè)月把 Fish 打造成更完善的 content creator platform。模型側(cè)希望在未來半年內(nèi)完成多模態(tài)感知模型（感知多模態(tài)、輸出語音和文本兩個(gè)模態(tài)）的研發(fā)，再往后 6～12 個(gè)月完成全雙工模型的研發(fā)，并在今年年底讓模型能力超越 99% 的配音演員。

Peter：怎么看 Fish Audio 的全球化戰(zhàn)略？產(chǎn)品有非常多的語言，在全球不同市場(chǎng)有不同的用戶群體。

Rissa：是的，startup 精力有限，但我們是打 global 市場(chǎng)的語音公司。過去一年用比較有限的人力成功實(shí)現(xiàn)了日語、中文、英文和阿拉伯語的突破，一方面借助數(shù)據(jù)和模型能力，另一方面基于后訓(xùn)練 RLHF 管線。

我們定位為美國公司，serve 很多美國的 content creator 和 B2B 企業(yè)用戶、AI native apps 創(chuàng)作者。但這些公司很多是 global company，不僅 operate in 英語，還有日語、西班牙語、韓語、葡語、法語、德語等。跨語言多語種是一個(gè)很明顯的機(jī)會(huì)。我們有個(gè)得天獨(dú)厚的優(yōu)勢(shì)——小語種和帶口音語言的優(yōu)勢(shì)，因?yàn)槁曇艨寺∽龅煤?，線上越多該語種或口音的人使用我們模型，對(duì)應(yīng)表現(xiàn)就越好。

最近也發(fā)現(xiàn)了亞洲市場(chǎng)很獨(dú)特的機(jī)會(huì)——日韓 AI companion 市場(chǎng)沒有好的本地 TTS，F(xiàn)ish 就成了他們的首選。之前也分享過，我們?cè)诎⒗Z和非美式口音英語的表現(xiàn)也實(shí)現(xiàn)了爆發(fā)。多語言支持需要時(shí)間和投入，但這在我們戰(zhàn)略上非常重要。

Peter：從技術(shù)角度，做好 Fish Studio 產(chǎn)品和做好模型，背后有什么不同的挑戰(zhàn)？產(chǎn)品需求是否會(huì)影響模型能力和架構(gòu)訓(xùn)練的設(shè)計(jì)？

冷月：模型一直取決于用戶需求來改變，研發(fā)過程強(qiáng)烈受用戶需求影響。比如我們?cè)谘芯扛玫?word-level timestamp、character-level timestamp，還有 lip sync，這些都是 audio creation platform 不可或缺的部分。最早用戶給一段文本我們就給一段語音，進(jìn)入 Studio 時(shí)代后開始有多音軌。我們發(fā)現(xiàn)用戶生成很多音頻后導(dǎo)出還需要自己過一遍第三方語音識(shí)別模型才能拿到字幕——這很不方便，所以我們就在 Fish Audio 這邊幫他們做好字幕生成。最早用 Whisper 做 alignment，但只能處理 30 秒音頻，所以我們?cè)谘芯啃碌哪Ｐ蛠砀玫赝瓿梢纛l和文本對(duì)齊。

未來我們還會(huì)有更多功能——基于音頻補(bǔ)全（給定前后音頻和中間文本去補(bǔ)全），或者給定視頻生成對(duì)應(yīng)音頻——這些都會(huì)逐漸加入產(chǎn)品線。

我們現(xiàn)在正在進(jìn)入 AI Voice 2.0 的技術(shù)爆發(fā)期

Peter：Rissa，你之前在 Meta 和 Amazon 做過增長和產(chǎn)品，也在頭部 AI 圖片社區(qū)創(chuàng)過業(yè)，25 年下半年加入 Fish Audio 擔(dān)任 CEO，能聊聊這個(gè)決定背后的思考嗎？

Rissa：選擇 Fish Audio 有種命運(yùn)驅(qū)使的感覺。最早認(rèn)識(shí)冷月是通過一個(gè) founder event，當(dāng)時(shí)冷月在我眼里已經(jīng)是一個(gè)閃閃發(fā)光的天才少年 researcher——我接觸過很多 researcher，但像他這種對(duì)技術(shù)這么 passion 的還是第一次見。

Peter：為什么當(dāng)時(shí)選擇了語音，而不是圖像或視頻等其他方向？

Rissa：首先我自己是一個(gè)很容易與聲音建立鏈接的人，聲音能牽動(dòng)我的思緒和靈感。第二，我覺得 AI 圖像領(lǐng)域大的技術(shù)突破已經(jīng) reach 了 ceiling——從 22 年到 24 年各種 diffusion model 突破讓創(chuàng)作門檻降低，Midjourney 以及各種圖像模型 launch，甚至到去年的 Nano Banana，之后圖像模型已經(jīng)進(jìn)入雕花狀態(tài)，很少再看到非常大的技術(shù) breakthrough。

而我們現(xiàn)在正在進(jìn)入 AI Voice 2.0 的技術(shù)爆發(fā)期。什么是 AI Voice 2.0？就是基于上一代純 broadcasting 類型的、很企業(yè)很正式的逐字逐句、非常清晰的 AI 生成語音，進(jìn)入了下一階段——更有交互式、具備情感的聲音。你真正可以跟 AI 創(chuàng)作的聲音建立情感鏈接。語音正好在這個(gè)時(shí)候從配音工具轉(zhuǎn)化為真正具備 emotional intelligence 的 AI 智能體。因?yàn)楦鞣N推理和 inference 的優(yōu)化，延遲可以達(dá)到更低，多輪對(duì)話情感表達(dá)也更逼真，你甚至感覺跟 AI 的對(duì)話像跟真人在交互一樣。過去一年也是 AI massive adoption 的一個(gè)關(guān)鍵節(jié)點(diǎn)。

現(xiàn)在世界上有 4000 萬 professional content creators 在逐漸 adopt 用 AI 做內(nèi)容創(chuàng)作——就像 2022 年剛進(jìn)入 diffusion 那個(gè)時(shí)代一樣。所以我覺得今年以及去年是 AI Voice 時(shí)代技術(shù) breakthrough 最佳、影響最深遠(yuǎn)的時(shí)代。

Peter：冷月，你從英偉達(dá)離職后創(chuàng)業(yè)的過程是怎樣的？

冷月：Fish Audio 的發(fā)展過程充滿故事性。從最開始脫胎于我個(gè)人在虛擬主播方面的經(jīng)歷，從社區(qū)性的聲音合成、歌聲合成走向 TTS，大概在 2024 年年初開始積極推進(jìn) TTS 技術(shù)進(jìn)步。2024 年年中我覺得如果再不出來就晚了——當(dāng)時(shí)世界上只有一家做出規(guī)模的語音合成公司 ElevenLabs，沒有其他競爭對(duì)手。我們覺得 AI 語音需要新鮮血液，把 AI 語音做得更有情感，真正達(dá)到情感陪伴、更自然的效果。

創(chuàng)業(yè)不是培養(yǎng)人，是找戰(zhàn)友一起打仗

Peter：對(duì)于年輕的創(chuàng)業(yè)者，在尋找合伙人和合作伙伴時(shí)，有哪些好的 lesson 和經(jīng)驗(yàn)可以分享？

Rissa：首先選擇合伙人時(shí)，最好 skill set 比較互補(bǔ)，大家有獨(dú)立的 scope，但整體性格和能力互補(bǔ)。比如我跟冷月，他負(fù)責(zé)整個(gè)技術(shù)部分，我更多負(fù)責(zé)融資、go-to-market、partnership 和公司架構(gòu)。

同時(shí)很重要的一點(diǎn)是看這個(gè)人的 track record——公司之前的合伙人或早期員工有沒有拿到過股份？如果歷史上從來沒有給之前的合伙人分過任何股份，那可能是一個(gè) red flag。還有公司是不是有比較健康的 vesting schedule——業(yè)界標(biāo)準(zhǔn)是 one year cliff，vesting over four years。創(chuàng)業(yè)者在創(chuàng)造價(jià)值的同時(shí)，也要確保跟他一起創(chuàng)業(yè)的伙伴們能得到應(yīng)有的回報(bào)。

Peter：我注意到你們是一家能持續(xù)吸引和轉(zhuǎn)化年輕超級(jí)個(gè)體的初創(chuàng)公司，這種人才吸引力是怎么建立的？

Rissa：我自己長期在硅谷，比較喜歡跟超級(jí)個(gè)體合作。我更喜歡抓大方向、確保解決問題，而不是抓很多細(xì)節(jié)，所以我喜歡合作的人非常 reliable——一個(gè)事情交給他就能做得很漂亮。我和冷月之前合作比較順利的 talent 類型，都是比較 entrepreneur、有 founder traits 的人，他們擅長對(duì)某個(gè)領(lǐng)域 take full ownership from end to end。

我過去幾年也在比較刻意性地結(jié)交這種類型的 talent，build relationship——要么讓他加入我當(dāng)時(shí)的公司，要么想各種方式給他們提供 support，讓他們覺得我能 be helpful，在這個(gè)過程中建立比較好的戰(zhàn)略友誼的關(guān)系。當(dāng)我 ready 有一個(gè)好的 opportunity 時(shí)，我也愿意給出更多 upside——因?yàn)檫@種類型的 talent 如果你不給足夠的 potential 和 upside，他們就會(huì)自己創(chuàng)業(yè)，不會(huì)加入初創(chuàng)公司。所以在 ownership、股份和 compensation 上我們都非常 generous，用這種方式激勵(lì)大家一起克服困難、一起 take ownership。

說句實(shí)話，startup 并不是培養(yǎng)人的地方，startup 是大家一起找戰(zhàn)友、一起打仗的地方。我們要在不同位置上放最適合的戰(zhàn)友，一起實(shí)現(xiàn)共贏，大家最后的目標(biāo)就是贏。

Peter：你們?cè)趺次袌?chǎng)上最好的技術(shù)人才？

冷月：我們長期在開源和開發(fā)者社區(qū)深耕，認(rèn)識(shí)了非常多已經(jīng) well proven、有 amazing work 的開源工作者和 researcher。他們絕大部分都是非常強(qiáng)的超級(jí)個(gè)體，我們優(yōu)先把他們拉入團(tuán)隊(duì)，一般會(huì)給每個(gè)人足夠的計(jì)算資源和 compensation，讓他往多個(gè)方向中最感興趣的方向跑一個(gè)月，這是我們最喜歡的招人方式。

當(dāng)我們覺得一個(gè)人"聞起來味道很對(duì)"，就盡快開始合作和 work trial，給足夠的資源讓他去跑感興趣的事情。這個(gè)過程中可以篩選掉對(duì)某個(gè)內(nèi)容感興趣但沒有真正花時(shí)間和 effort 的人，也可以篩掉 claim 自己能做但最后沒完成的人。最后留下來的都是真的喜歡這個(gè)事情、有相應(yīng) skill set 或能很快學(xué)到的人。

整體 culture 上我們是獎(jiǎng)勵(lì)功勞而不獎(jiǎng)勵(lì)苦勞，并不鼓勵(lì)加班。但核心團(tuán)隊(duì)成員其實(shí)都是凌晨 4、5 點(diǎn)才睡覺。我們不鼓勵(lì)少睡覺，而是在這種環(huán)境下大家非常有自驅(qū)力，每天會(huì)覺得很 excited——覺得我就是改變和創(chuàng)造 AGI 這個(gè)世界的人。這種 team culture 鑄造了我們現(xiàn)在的 talent profile：大家都很年輕，除了我以外都是 00 后，非常 ambitious，都想證明給世界看——我可以做出很不一樣的東西。

轉(zhuǎn)載原創(chuàng)文章請(qǐng)?zhí)砑游⑿牛篺ounderparker

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/閱讀下一篇/

返回網(wǎng)易首頁下載網(wǎng)易新聞客戶端

相關(guān)推薦

熱點(diǎn)推薦

機(jī)器人看不清，螞蟻給治好了

量子位 2026-01-27 14:41:46
1 跟貼 1

林俊旸離職后首度發(fā)聲：萬字復(fù)盤，大模型下一站「智能體式思考」

機(jī)器之心Pro 2026-03-27 10:10:47
0 跟貼 0

谷歌用一堆不賺錢的AI小玩意，給科技圈上了一課

機(jī)器之心Pro 2026-01-26 14:47:02
38 跟貼 38

中國AI Agent產(chǎn)業(yè)化參考范本：斑馬口語攻克的四大技術(shù)難關(guān)

機(jī)器之心Pro 2025-11-18 14:12:50
0 跟貼 0

VL-LN Bench：模擬「邊走邊問找具體目標(biāo)」的真實(shí)導(dǎo)航場(chǎng)景

機(jī)器之心Pro 2026-02-02 17:10:55
0 跟貼 0

趨境ATaaS平臺(tái)發(fā)布，打造日均萬億產(chǎn)能的“Token工廠”

量子位 2026-03-28 21:56:10
0 跟貼 0

315曝光GEO投毒產(chǎn)業(yè)鏈？別慌！CMU首提無毒的合作式AutoGEO

新智元 2026-03-28 14:07:34
0 跟貼 0

行業(yè)最大規(guī)模具身數(shù)據(jù)集：10Kh RealOmni-Open DataSet

量子位 2026-01-06 10:53:25
0 跟貼 0

行業(yè)最大規(guī)模具身數(shù)據(jù)集！出自簡智機(jī)器人GenRobot.AI

量子位 2026-01-05 17:11:41
0 跟貼 0

當(dāng)Anthropic的安全人設(shè)崩塌：一場(chǎng)被泄露戳穿的生存游戲

虎嗅APP 2026-03-29 01:18:14
0 跟貼 0

高通萬衛(wèi)星談終端大模型優(yōu)勢(shì)：個(gè)性化與數(shù)據(jù)推理

量子位 2025-12-11 03:38:41
0 跟貼 0

中東戰(zhàn)局驚天逆轉(zhuǎn)！伊朗強(qiáng)勢(shì)猛攻，以色列傷亡數(shù)據(jù)刷新歷史紀(jì)錄

夫君在哪 2026-03-29 01:57:56
0 跟貼 0

QVGen讓「超低比特視頻生成量化」真正可用！

機(jī)器之心Pro 2026-02-25 18:07:24
0 跟貼 0

霍爾木茲海峽"鎖死"全球能源五角大樓醞釀"致命一擊"

上游新聞 2026-03-27 22:22:04
9734 跟貼 9734

國務(wù)院食安辦、市場(chǎng)監(jiān)管總局約談相關(guān)地方市級(jí)人民政府負(fù)責(zé)人督辦“3?15”晚會(huì)曝光問題整改

新京報(bào) 2026-03-28 19:17:17
68 跟貼 68

8.68萬新車普及車位到車位，世界模型不吃高算力！零跑夯爆了

量子位 2026-03-28 14:13:32
0 跟貼 0

這個(gè)太吃建模了，求個(gè)哥布林就業(yè)指導(dǎo)

瓜瓜看劇 2026-03-28 09:15:15
1 跟貼 1

烏克蘭從俄接收士兵遺體，俄烏間這驚人數(shù)據(jù)，烏是俄38倍還多

月亮姐侃生活 2026-03-26 09:01:40
1 跟貼 1

伊朗MVP結(jié)算，這數(shù)據(jù)一出現(xiàn)，美國又要被打臉了

利利愛搞笑 2026-03-28 15:21:13
1 跟貼 1

上班開糞車下班開奔馳的小伙今日大婚，當(dāng)事人：吸糞車婚車隊(duì)，全球第一個(gè)

極目新聞 2026-03-28 08:51:05
6500 跟貼 6500

印度又官宣自研五代機(jī)！17年就憋出個(gè)模型，能趕超中美俄嗎？

浩然簡史 2026-03-28 16:39:42
0 跟貼 0

帶著9000塊的裙子去江浙滬漫展，到了才發(fā)現(xiàn)，到處都是建模

趣閃萌記 2026-03-27 10:45:37
1 跟貼 1

售樓處模型的煙霧，竟然是這樣制作的，多少年疑惑終于被解開！

木木星生活站 2026-03-27 15:48:52
0 跟貼 0

千問首次上車！一汽紅旗聯(lián)手阿里云造了個(gè)“能辦事”的座艙

環(huán)球網(wǎng)資訊 2026-03-26 10:20:16
0 跟貼 0

龍蝦為啥越養(yǎng)越貴，越用越蠢？

鈦媒體APP 2026-03-28 19:53:33
9 跟貼 9

廣州：下周一起，公立醫(yī)院掛號(hào)費(fèi)調(diào)整

南方都市報(bào) 2026-03-28 11:52:00
1438 跟貼 1438

深度｜華為 AI，迎來大變

新智元 2026-03-28 17:07:57
1 跟貼 1

合肥野生動(dòng)物園泉山新址“泡湯”？社區(qū)：去年7月已暫停，暫無新消息

極目新聞 2026-03-28 17:17:59
73 跟貼 73

液晶電視機(jī)有聲音沒圖像黑屏，一般都是這2個(gè)原因

阿兵電器維修 2026-03-26 19:27:16
5 跟貼 5

排超總決賽：“全華班”江蘇女排贏下首回合，上海女排外援為何不靈了？

上觀新聞 2026-03-29 04:46:09
3 跟貼 3

27噸凍牛頭牛蹄跨省運(yùn)輸后部分發(fā)霉變質(zhì) 多部門已介入

紅星新聞 2026-03-28 19:53:39
314 跟貼 314

安東尼奧：朝鮮隊(duì)身體素質(zhì)像野獸；我熟悉球員所以能調(diào)節(jié)心理

懂球帝 2026-03-28 22:42:13
22 跟貼 22

保定一小店售賣咸菜絲燒餅意外爆火，排隊(duì)人數(shù)太多店鋪宣布暫停營業(yè)，店主：流量太大了，我們承接不住，也擔(dān)心影響燒餅品質(zhì)

極目新聞 2026-03-26 22:43:02
1721 跟貼 1721

突然拉升！超8萬人爆倉

每日經(jīng)濟(jì)新聞 2026-03-28 23:37:23
27 跟貼 27

三分10投0中！亞歷山大創(chuàng)造生涯單場(chǎng)三分最差紀(jì)錄

北青網(wǎng)-北京青年報(bào) 2026-03-28 15:41:02
132 跟貼 132

RAG神話破滅？斯坦福頂尖團(tuán)隊(duì)新研究：合成數(shù)據(jù)訓(xùn)練效果反超，成本大降

鈦媒體APP 2026-03-28 12:18:48
2 跟貼 2

俄羅斯擬實(shí)行汽油出口臨時(shí)禁令

新華社 2026-03-28 15:23:02
1762 跟貼 1762

42歲男子長期被職場(chǎng)PUA抱住醫(yī)生大哭，稱一到公司門口就開始心慌，醫(yī)生：他把領(lǐng)導(dǎo)的評(píng)價(jià)，當(dāng)成對(duì)自己全部價(jià)值的判斷

大風(fēng)新聞 2026-03-28 21:28:03
142 跟貼 142

我要是有這建模，我比他還狂

我是六耳獼猴 2026-03-29 01:38:14
0 跟貼 0

小伙手搓飛機(jī)發(fā)動(dòng)機(jī)，雙扇葉交錯(cuò)模型，這才是核心部件

搞笑大咖集中營 2026-03-28 11:20:43
1 跟貼 1

追求字母哥，5換1方案出爐，湖人也沒有想到，狀元郎淪為交易籌碼
體育大朋說
2026-03-28 21:19:11

4年5.5億歐！巴托梅烏回應(yīng)續(xù)約梅西：以他帶來的價(jià)值，薪水不算高
云隱南山
2026-03-29 05:28:07

123贊成3票反對(duì)！聯(lián)大出手了，美拒絕賠錢，以色列“反人類”
春序娛樂
2026-03-29 06:36:21

奴顏媚骨具象化，高市早苗三十年前照片被扒出，原來她從未變過！
社會(huì)醬
2026-03-23 17:34:19

「深田詠美」宣布破產(chǎn)，背上8000萬債務(wù)，男朋友也分手了
孤獨(dú)的獨(dú)角獸影視
2026-03-27 09:30:07

退回賣紅薯的中介費(fèi)后,村民們才停止鬧事,但接下來的事他們悔死了
林林故事揭秘
2025-03-26 15:19:24

她是兩百年難遇的美人，靠美貌“征服”無數(shù)男人，如今49歲仍未婚
林雁飛
2026-03-22 14:47:54

調(diào)查發(fā)現(xiàn)：每天飯后要午睡的人，不出5個(gè)月，身體或有這3種改變
蜉蝣說
2026-03-24 10:00:30

廣東傳1好3壞消息！關(guān)辛談焦泊喬離隊(duì)，比輸球更可怕的麻煩出現(xiàn)了
后仰大風(fēng)車
2026-03-28 07:10:11

谷歌翻譯耳機(jī)實(shí)時(shí)翻譯功能正式登陸 iOS 平臺(tái)，支持超 70 種語言
龍劍秀南
2026-03-27 07:23:23

黃曉明點(diǎn)破行業(yè)真相：AI越厲害，越離不開IP
娛樂資本論
2026-03-28 20:56:00

伊朗喊著滅掉以色列，卻不讓境內(nèi)5萬猶太人回去，這藏著什么秘密
史行途
2026-03-29 06:17:22

美國商品期貨交易委員會(huì)（CFTC）：截至3月24日當(dāng)周，布倫特原油期貨市場(chǎng)上的投機(jī)者將凈多頭倉位減少21,579手降至407,125手
每日經(jīng)濟(jì)新聞
2026-03-28 06:19:13

美股全線大跌，道指暴跌近800點(diǎn)！科技巨頭普跌，微軟較高點(diǎn)跌34%，國際油價(jià)大漲7%
金融界
2026-03-28 08:23:16

為什么有個(gè)漂亮老婆還是想要分網(wǎng)友講出自身經(jīng)歷真是一言難盡
侃神評(píng)故事
2026-03-10 18:50:04

夜間“偶遇”哭泣女子竟引狼入室！甘肅警方快速破獲“仙人跳”搶劫案
環(huán)球網(wǎng)資訊
2026-03-28 14:47:08

凌晨，暴跌800點(diǎn)！伊朗警告：盡快撤離！美股大跳水，油價(jià)飆升！
證券時(shí)報(bào)
2026-03-28 09:01:05

做教培的閨蜜：張雪峰身價(jià)8億，為啥還吃外賣？她的回答讓我沉默
藍(lán)色海邊
2026-03-27 18:08:02

馬杜羅再次露面身形消瘦，不再高喊“我是總統(tǒng)”，特朗普心情大好
風(fēng)干迷茫人
2026-03-29 06:01:14

精準(zhǔn)預(yù)言金價(jià)狂飆1000美元，這位“黃金先知”又發(fā)出最嚴(yán)厲警告
戶外釣魚哥阿旱
2026-03-29 05:46:22

2026-03-29 07:08:49

FounderPark

關(guān)注AI創(chuàng)業(yè)，專注和創(chuàng)業(yè)者聊真問題

1184文章數(shù) 160關(guān)注度

往期回顧全部

科技要聞

華為盤古大模型負(fù)責(zé)人王云鶴確認(rèn)離職

遭中國學(xué)界"拉黑"后，這家AI頂會(huì)低頭道歉

“龍蝦”出現(xiàn)后，大模型時(shí)代的共識(shí)被推翻了

Anthropic“神話”模型意外曝光

楊植麟張鵬夏立雪羅福莉，聊龍蝦、聊漲價(jià)

頭條要聞

美媒：和歐盟"外長"發(fā)生激烈交鋒魯比奧"顯然很惱火"

學(xué)者：美以伊戰(zhàn)事"滿月" 頗具諷刺意味的現(xiàn)象正在上演

媒體：伊朗戰(zhàn)事未了美以卻已開撕萬斯甩鍋內(nèi)塔尼亞胡

一天內(nèi)伊朗三處核設(shè)施遭襲學(xué)者解讀美以此舉背后意圖

《老鼠愛大米》綜藝翻紅詞曲創(chuàng)作者楊臣剛發(fā)版權(quán)聲明

頭條要聞

美媒：和歐盟"外長"發(fā)生激烈交鋒魯比奧"顯然很惱火"

學(xué)者：美以伊戰(zhàn)事"滿月" 頗具諷刺意味的現(xiàn)象正在上演

媒體：伊朗戰(zhàn)事未了美以卻已開撕萬斯甩鍋內(nèi)塔尼亞胡

一天內(nèi)伊朗三處核設(shè)施遭襲學(xué)者解讀美以此舉背后意圖

《老鼠愛大米》綜藝翻紅詞曲創(chuàng)作者楊臣剛發(fā)版權(quán)聲明

體育要聞

“我是全家最差勁的運(yùn)動(dòng)員”

2連平！U23國足1比1朝鮮向余望點(diǎn)球絕平

被轟17-0崩盤！遼寧爆冷慘負(fù)廣州趙繼偉7中1徐昕20+9統(tǒng)治內(nèi)線

浙江加時(shí)險(xiǎn)勝青島：程帥澎24分19罰18中獻(xiàn)絕平3罰韋瑟斯龐39+7

邀請(qǐng)賽：“徐州姆巴佩”苗潤東發(fā)揮搶眼，U19國足1比0擊敗澳大利亞

娛樂要聞

陳牧馳陳冰官宣得子曬一家三口握拳照

眾星為浪姐打call，孫儷為安陵容支招

好友見張雪峰最后一面，遺容黑眼圈遮不住

《白日提燈》首波口碑出爐！觀眾評(píng)價(jià)一針見血

劉昊然郭麒麟商K風(fēng)波升級(jí)！被質(zhì)疑參加拖鞋場(chǎng)

財(cái)經(jīng)要聞

臥底"科技與狠活"培訓(xùn):化工調(diào)味劑泛濫

當(dāng)Anthropic的安全人設(shè)崩塌：一場(chǎng)被泄露戳穿的生存游戲

美國SEC相關(guān)監(jiān)管部門流失近四分之一人手

油氣價(jià)格飆升，歐盟考慮征收能源暴利稅

“龍蝦”出現(xiàn)后，大模型時(shí)代的共識(shí)被推翻了

汽車要聞

置換補(bǔ)貼價(jià)4.28萬起第五代宏光MINIEV正式上市

吉利博越REV/博越L小藍(lán)燈版3月31日將上市

深藍(lán)汽車第一百萬臺(tái)電驅(qū)下線新一代電驅(qū)效率94.13%

新復(fù)古造型/5門5座全新一代繽果Pro正式亮相

圖靈芯片上車新款小鵬MONA M03要繼續(xù)做年輕人第一車

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

家居

本地

房產(chǎn)

公開課

教育要聞

“女孩家長心真大！”小男孩帶女同學(xué)回家留宿，網(wǎng)友破防了！

兒子拒跟母親同桌吃飯！低認(rèn)知家長被打臉：他寧可跟陌生人一起吃

著名大學(xué)校長去世！他把這所學(xué)校，重新帶回世界高教的中心…

嚴(yán)絲合縫的教材閱讀法?????

頻繁和孩子說這五句話，讓孩子開啟開掛人生。

家居要聞

曲線華爾茲現(xiàn)代簡約

傍海而居靜觀蝴蝶海

輕奢堇天府小資情調(diào)

智慧生活奢享家居

本地新聞

在濰坊待了三天，沒遇到一個(gè)“濰坊人”

救命，這只醬板鴨已經(jīng)在我手機(jī)復(fù)仇了一萬遍

春日吃花第三站——廣東

來永泰同安赴一場(chǎng)春天的約會(huì)

房產(chǎn)要聞

首日430組來訪，單日120組認(rèn)籌！?？谑讉€(gè)真四代，徹底爆了！

6.8萬方！天河員村再征地，金融城西區(qū)開發(fā)全面提速

剛剛，海南樓市，官方數(shù)據(jù)發(fā)布！

解鎖度假新體驗(yàn)｜正大·太陽河咖啡小鎮(zhèn) 把日子過成咖啡與雨林的詩

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會(huì)要降低老年人門檻

為什么人類有不同的膚色？

13個(gè)毀掉你生活的不良習(xí)慣

李彥宏：百度離破產(chǎn)30天

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

對(duì)談Fish Audio：千萬ARR、12個(gè)月13倍增長，我們正進(jìn)入AI Voice 2.0的技術(shù)爆發(fā)期

華為盤古大模型負(fù)責(zé)人王云鶴確認(rèn)離職

美媒：和歐盟"外長"發(fā)生激烈交鋒 魯比奧"顯然很惱火"

美媒：和歐盟"外長"發(fā)生激烈交鋒 魯比奧"顯然很惱火"

“我是全家最差勁的運(yùn)動(dòng)員”

陳牧馳陳冰官宣得子 曬一家三口握拳照

臥底"科技與狠活"培訓(xùn):化工調(diào)味劑泛濫

置換補(bǔ)貼價(jià)4.28萬起 第五代宏光MINIEV正式上市

態(tài)度原創(chuàng)

“女孩家長心真大！”小男孩帶女同學(xué)回家留宿，網(wǎng)友破防了！

曲線華爾茲 現(xiàn)代簡約

在濰坊待了三天，沒遇到一個(gè)“濰坊人”

首日430組來訪，單日120組認(rèn)籌！?？谑讉€(gè)真四代，徹底爆了！

對(duì)談Fish Audio：千萬ARR、12個(gè)月13倍增長，我們正進(jìn)入AI Voice 2.0的技術(shù)爆發(fā)期

美媒：和歐盟"外長"發(fā)生激烈交鋒魯比奧"顯然很惱火"

美媒：和歐盟"外長"發(fā)生激烈交鋒魯比奧"顯然很惱火"

陳牧馳陳冰官宣得子曬一家三口握拳照

置換補(bǔ)貼價(jià)4.28萬起第五代宏光MINIEV正式上市

“女孩家長心真大！”小男孩帶女同學(xué)回家留宿，網(wǎng)友破防了！

曲線華爾茲現(xiàn)代簡約

首日430組來訪，單日120組認(rèn)籌！?？谑讉€(gè)真四代，徹底爆了！