337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

對(duì)談Fish Audio:千萬ARR、12個(gè)月13倍增長,我們正進(jìn)入AI Voice 2.0的技術(shù)爆發(fā)期

0
分享至

文章轉(zhuǎn)載自「Alphaist Partners」,F(xiàn)P進(jìn)行了部分刪減。

基模正在走向全面的多模態(tài),Gemini、豆包都已經(jīng)具有了文字、視覺和語音功能了,獨(dú)立的語音模型還有存在的必要嗎?

ElevenLabs 活得很好,F(xiàn)ish Audio 也活得很好。

過去一年,F(xiàn)ish Audio 實(shí)現(xiàn)了 13 倍增長,達(dá)到了 10 million 的 ARR,月活超過 100 萬。這家全球第二大 AI 語音平臺(tái),擁有 350 萬用戶和 110 萬 UGC 聲音模型,核心產(chǎn)品 S1 是世界首個(gè)支持自然語言情感控制的 TTS 模型。

Fish Audio S1模型效果

更反直覺的是,他們最核心的數(shù)據(jù)壁壘,來自傳統(tǒng)公司會(huì)直接扔掉的「臟數(shù)據(jù)」——吵架聲、爭論聲、興奮的討論聲。

Alphaist Partners 合伙人陳哲(Peter)和 Fish Audio 兩位聯(lián)合創(chuàng)始人聊了聊:CEO Rissa(前 Meta/Amazon 增長與開發(fā)者社區(qū)負(fù)責(zé)人)與 CTO 冷月(00 后,前英偉達(dá)算法研究員)。從技術(shù)信仰到商業(yè)飛輪,從股權(quán)危機(jī)到團(tuán)隊(duì)重組,這是一個(gè)關(guān)于「AI 語音 2.0」的完整創(chuàng)業(yè)故事。

注:The Alphaist 是一檔深度對(duì)話欄目,關(guān)注技術(shù)與創(chuàng)業(yè)的第一性原理,聚焦正在改變世界的早期創(chuàng)業(yè)者、工程師和產(chǎn)品探索者。Alphaist Partners 是一家專注于硬科技領(lǐng)域的美元基金,使命是賦能 Alpha 創(chuàng)業(yè)者,推動(dòng)人類社會(huì)進(jìn)步。

??關(guān)注 Founder Park,最及時(shí)最干貨的創(chuàng)業(yè)分享

超 19000 人的「AI 產(chǎn)品市集」社群!不錯(cuò)過每一款有價(jià)值的 AI 應(yīng)用。

邀請(qǐng)從業(yè)者、開發(fā)人員和創(chuàng)業(yè)者,飛書掃碼加群:

進(jìn)群后,你有機(jī)會(huì)得到:

  • 最新、最值得關(guān)注的 AI 新品資訊;

  • 不定期贈(zèng)送熱門新品的邀請(qǐng)碼、會(huì)員碼;

  • 最精準(zhǔn)的 AI 產(chǎn)品曝光渠道

01從開源走向全球第二大語音生成平臺(tái)

Peter:簡單介紹下 Fish Audio?

Rissa:Fish Audio 是一個(gè) AI 語音生成平臺(tái),目前已經(jīng)是世界第二大的 AI voice generation platform。我們提供多語言文本轉(zhuǎn)語音(TTS)和高精度聲音克隆,讓每個(gè)人都能擁有人類水平的 AI 配音能力。我們的用戶包括游戲開發(fā)者、ASMR artist、播客創(chuàng)作者以及各類 professional content creator,他們用我們的產(chǎn)品創(chuàng)作音頻內(nèi)容,提高生產(chǎn)效率,實(shí)現(xiàn)更有效的內(nèi)容商業(yè)化。

過去 12 個(gè)月內(nèi)我們實(shí)現(xiàn)了 13 倍的增長,達(dá)到了 10 million 的 ARR。我們積累了 350 萬用戶,月活超過 100 萬。我們也是業(yè)界最大的 UGC 聲音模型市場(chǎng),有 110 萬個(gè) public voice models 在平臺(tái)上,用戶可以找到喜歡的角色來創(chuàng)作音頻內(nèi)容。流量上我們是全球第二大 AI 語音平臺(tái),僅次于 ElevenLabs。因?yàn)槲覀兤鹪从陂_源項(xiàng)目 Fish Speech,各個(gè)開源 repository 累計(jì)超過 100K 的 GitHub Stars。過去一年我們還 launch 了世界上第一個(gè) open domain emotion control 的 TTS model,也就是我們的 S1 模型。

Peter: Fish Audio 的核心產(chǎn)品是什么?

冷月:目前我們線上的主要產(chǎn)品是 S1 模型,也是世界上第一個(gè)支持自然語言控制的 TTS 模型,可以通過文本描述情感、強(qiáng)調(diào)、速度等各種特征。在 S1 這一代我們開源了一個(gè)小模型叫 S1 Mini,下一代模型將在自然度、可控性、穩(wěn)定性和多說話人方面做出進(jìn)一步提升,同時(shí)我們預(yù)計(jì)會(huì)完全開源 S2 模型。

Peter:Fish Audio 的客戶現(xiàn)在是誰?誰在用你們的產(chǎn)品?

Rissa:我們起源于開源,所以最早的用戶是開源社區(qū)里的游戲開發(fā)者。過去一年客戶群體發(fā)生了很大的演化,主要分兩大類。第一類是 prosumer 創(chuàng)作者,他們直接在我們平臺(tái)上做內(nèi)容創(chuàng)作,包括 vlogger、博客主、有聲書作者、自媒體和游戲配音演員,用來給視頻或小程序做多語言配音。

第二類是 API 企業(yè)用戶,過去三個(gè)月內(nèi)突飛猛漲,已占我們 40% 的 revenue。主要分四大類:一是 AI 陪伴類社交應(yīng)用,如 Character.AI 這類產(chǎn)品;二是游戲公司和 To B 企業(yè),用來做 NPC 對(duì)話和角色配音;三是 AI 內(nèi)容創(chuàng)作平臺(tái),如 HeyGen、Vigo、Clokation 等;四是 real time voice agent,這部分量非常大,增長趨勢(shì)很強(qiáng),主要用于實(shí)時(shí)客服、銷售和教育場(chǎng)景。

02

ElevenLabs 效果不夠好,語音需要大模型革命

Peter:為什么選擇做音頻模型這個(gè)方向?

冷月:大概兩三年前,我還沒從英偉達(dá)離職的時(shí)候,我們看到市場(chǎng)上語音領(lǐng)域并沒有特別好的 player,最著名的就是 ElevenLabs,當(dāng)時(shí)大概有 5000 萬到 1 億美金收入的規(guī)模。但說實(shí)話效果并不好。我個(gè)人對(duì) VTube 和語音合成、語音開源非常感興趣,發(fā)現(xiàn)沒有一個(gè)產(chǎn)品效果能達(dá)到我的預(yù)期——它們都不夠自然,尤其句子長了之后,語音生成會(huì)變得非常單調(diào)。

我們就想能不能解決這個(gè)問題,讓語音變得自然。我一直相信語音會(huì)是人類與 AI 交互非常重要的入口,就像圖像模態(tài)一樣。我們開始思考:要讓語音模型更自然,需要做什么?第一點(diǎn),模型一定得大,一定得是自回歸架構(gòu),一定得盡可能多地建模語義信息和聲學(xué)信息,做一個(gè)大一統(tǒng)的模型。沒有這樣的結(jié)構(gòu),語音就沒辦法走到下一個(gè)階段。所以我們從 Fish Speech 開始研究端到端的語音模型,早期也遇到了很多困難,比如模型穩(wěn)定性、訓(xùn)練穩(wěn)定性等各種問題。

現(xiàn)在回過頭來看,當(dāng)時(shí)的選擇是完全正確的。在我們之后,Moshi、SESAME,到最近的千問 TTS,大家都不約而同地選擇了端到端建模語義和聲學(xué)信息,都使用了類似我們當(dāng)時(shí)采用的雙自回歸架構(gòu)。這讓我們從很早開始就在數(shù)據(jù)收集和強(qiáng)化學(xué)習(xí)管線上做出了很多領(lǐng)先于時(shí)代的工作。

Peter:你覺得獨(dú)立音頻模型的生存空間是暫時(shí)的還是持久的?音頻模型會(huì)被多模態(tài)大模型直接吸收進(jìn)去嗎?

冷月:「直接吸收」這個(gè)說法可能不太妥當(dāng),并不是把語音數(shù)據(jù)扔進(jìn)去模型就練完了,沒那么簡單。但語音模型和文本模型、視覺模型一定會(huì)結(jié)合,形成更完善的 Omni Model,這是我一直相信的。

如果只是做最普通的 TTS 任務(wù),現(xiàn)在很多工作已經(jīng)把它吸收進(jìn)去了,比如千問的 Omni Model 等。但如果要做更復(fù)雜、更富有情感、更可控的語音,整體數(shù)據(jù)集的構(gòu)建非常難,互聯(lián)網(wǎng)上不存在這種復(fù)雜標(biāo)注的文本和語音的 pair,這就構(gòu)成了護(hù)城河。我們更聚焦 content creator 市場(chǎng)的模型,不那么容易被吸收。相反,我們要做的是通過語音把文本和圖像模型整合到一起,構(gòu)建更低延遲、效果更好、可以對(duì)多模態(tài)進(jìn)行理解的 voice agent。

Peter:所以我的理解是,對(duì)情感和語義的細(xì)膩控制,讓我們?cè)谑袌?chǎng)里有一個(gè)獨(dú)特的位置。關(guān)于 AI voice 和 voice agent 的未來,你們?cè)趺纯矗?/strong>

冷月:現(xiàn)在絕大部分做 TTS 的公司都覺得 TTS 技術(shù)已經(jīng)到頭了,已經(jīng) good enough,再往上提升是 marginal 的,這是我們聽到非常多的聲音。但從我們的視角來看,能做的東西還有非常多——更好的可控性,基于 vision 的 control,比如給模型一個(gè)人物線稿或劇情分鏡,讓它據(jù)此配音,還有很多各種各樣的事情。只有把這些都做好了,我們才能真正服務(wù)好 content creator 用戶和 B2B 客戶。而絕大部分公司在目前階段就止步于此了。

03

吵架時(shí)情緒最真實(shí),「臟數(shù)據(jù)」反而是寶藏

Peter:在音頻領(lǐng)域會(huì)有類似大語言模型的 Scaling Law 嗎?作為一家體量小得多的創(chuàng)業(yè)公司,我們相比大公司在數(shù)據(jù)或算力的積累上會(huì)有劣勢(shì)嗎?

冷月:這是一個(gè)很有意思的話題。如果單看最樸素的 TTS 任務(wù),你會(huì)發(fā)現(xiàn)所有開源模型、閉源模型基本都止步于 1.5B、4B 這個(gè)規(guī)模——因?yàn)槟P统^ 4B 之后,對(duì)于純粹的 TTS 任務(wù)我們看不到更多提升。但如果我們想把語音做得更可控,想要 voice agent 能力,想要模型更好地思考,就需要更多參數(shù)——30B、100B。我們選擇了像大語言模型公司一樣采用 MOE 架構(gòu),30 active 3、100 active 10,大概這些規(guī)模的模型作為下一代備選。

一個(gè) 30 active 3 的模型,訓(xùn)練和推理資源大概跟一個(gè) 6B 的 dense model 差不多,對(duì)我們來說完全可以 afford。這里有一個(gè)大部分人不知道的事實(shí):絕大部分大公司雖然有 1 萬卡、10 萬卡來做大語言模型,但語音組的計(jì)算資源往往非常有限,能到幾百卡、一千卡的公司其實(shí)非常少,而我們已經(jīng)進(jìn)入第一梯隊(duì)了。

Peter:之前提到說未來會(huì)把圖片和文字吸收到語音骨干模型里,跟今天的多模態(tài)語言模型訓(xùn)練方式有什么本質(zhì)區(qū)別?

冷月:這兩件事殊途同歸,但我們認(rèn)為獲得高質(zhì)量文本數(shù)據(jù)比獲得高質(zhì)量語音數(shù)據(jù)更簡單,因?yàn)槭袌?chǎng)上已有很多成熟的文本模型,可以作為 online distillation 的數(shù)據(jù)來源。舉個(gè)例子,我們拿自己的端到端模型給定一個(gè)語音,輸出一個(gè)文本答案,再把這個(gè)答案和對(duì)應(yīng)文本給到一個(gè) teacher model,就可以算出整個(gè) sequence 的 log probability 和 logits,做在線蒸餾,學(xué)習(xí)和克隆教師模型的行為。

現(xiàn)在不用太多成本就能打造出解決 95% 問題的文本模型,已經(jīng)變得非常簡單。但絕大部分公司對(duì)語音數(shù)據(jù)的積累——尤其是高自然度、多音軌、情感豐富的語音數(shù)據(jù)——還沒有開始。這種數(shù)據(jù)在互聯(lián)網(wǎng)上極其稀缺,所以我們往文本和圖像理解方向邁進(jìn),比他們往語音走要快得多。

Peter:你們?cè)跀?shù)據(jù)上的投入會(huì)是什么量級(jí)?

冷月:我們預(yù)計(jì)今年 Q1、Q2 在數(shù)據(jù)上的投入會(huì)達(dá)到百萬美金級(jí)別。

Peter:需要在不同語種上都有相應(yīng)的采集?

冷月:對(duì),不只是不同語種,還有不同的任務(wù)類型。我們?cè)缒攴高^一個(gè)錯(cuò)——從互聯(lián)網(wǎng)上爬完數(shù)據(jù)后直接用原始分布訓(xùn)練 TTS 模型,導(dǎo)致模型對(duì)播客的能力表現(xiàn)特別好,但在創(chuàng)作類、陪伴類、電影和動(dòng)漫配音方面表現(xiàn)就差了很多。數(shù)據(jù)分布本身非常重要,我們內(nèi)部有一套不同語種數(shù)據(jù)分布的目標(biāo)指標(biāo),從不同數(shù)據(jù)源精確匹配每個(gè)位置需要什么樣的數(shù)據(jù)、需要多少數(shù)據(jù),來構(gòu)建每一代模型的 data recipe。

Peter:那是不是所有數(shù)字音頻內(nèi)容——電影、戲劇、播客——都可能成為訓(xùn)練原料?

冷月:所有可得的數(shù)據(jù)都有價(jià)值,但不同數(shù)據(jù)有不同的版權(quán)風(fēng)險(xiǎn)。我們的策略是在合法前提下,盡可能從多元數(shù)據(jù)源獲取數(shù)據(jù),包括已過版權(quán)保護(hù)期的電影、動(dòng)漫、播客,以及真人聊天對(duì)話等。

Peter:像電影這種高質(zhì)量影視內(nèi)容有大量豐富的語音和表現(xiàn)力,傳統(tǒng)互聯(lián)網(wǎng)大廠或內(nèi)容平臺(tái)會(huì)有先天的數(shù)據(jù)優(yōu)勢(shì)嗎?

冷月:并非如此。受限于監(jiān)管體系,即便一家公司持有電影版權(quán),也并不意味著可以把其中的人聲用于 AI 訓(xùn)練,這受到配音協(xié)會(huì)等的強(qiáng)烈抵制。就像 Google 圖書館有大量藏書,但并不代表可以隨意免費(fèi)使用這些資料。

Peter:所以作為創(chuàng)業(yè)公司,在數(shù)據(jù)獲取方面沒有明顯優(yōu)勢(shì),但在高質(zhì)量數(shù)據(jù)的清洗 know-how 和積累上,比大公司有更強(qiáng)的經(jīng)驗(yàn)和復(fù)利。

冷月:對(duì),我們離用戶更近,清洗管線更傾向于保留高自然度和多說話人的語音。翻看最近各家 TTS 公司的論文,大部分?jǐn)?shù)據(jù)清洗只保留了單說話人音頻,不允許一個(gè)片段有多個(gè)說話人疊在一起。但在我們的管線中,我們是允許的。

我們自己的語音識(shí)別模型和數(shù)據(jù)清洗模型也做到了世界第一。我發(fā)現(xiàn)一個(gè)有趣的事實(shí):noisy 數(shù)據(jù)往往是更有高表現(xiàn)力的數(shù)據(jù)。人什么時(shí)候情緒最豐富?往往是兩個(gè)人在吵架、在爭論、或在很高興地討論事情的時(shí)候——這時(shí)兩人的聲音往往會(huì)重疊在一起。傳統(tǒng)數(shù)據(jù)清洗會(huì)直接把這種數(shù)據(jù)扔掉,而我們希望盡可能保留更多原汁原味的、符合原始分布的數(shù)據(jù)。

Peter:合成數(shù)據(jù)不是解法?

冷月:大家低估了語音工作的難度?,F(xiàn)在絕大部分工作只是給大語言模型增加語音模態(tài),并不是從語音本身出發(fā)的。很多時(shí)候他們用大量合成數(shù)據(jù),拿 TTS 模型直接合成,這里面有很多問題。這種數(shù)據(jù)固然容易獲得,就像合成的文本數(shù)據(jù)一樣,是一個(gè) low hanging fruit,能很快提高模型效果,但也有 toxic 的一面,會(huì)在一定程度上影響模型的表現(xiàn)能力和上限。我們?cè)谡Z音、文本、視頻、圖像這些模態(tài)上都看到了這個(gè)規(guī)律。所以我們相信一定需要更多高質(zhì)量的、由人工標(biāo)注的、由真實(shí)線上數(shù)據(jù)驅(qū)動(dòng)的數(shù)據(jù)來帶動(dòng)模型能力提升,這是我們獨(dú)特的護(hù)城河。

04

S2 的秘密武器:自研情緒標(biāo)ASR與 RLHF

Peter:公司即將發(fā)布全新的 S2 模型,跟上一代 S1 的主要優(yōu)勢(shì)和差異是什么?

冷月:S2 主要實(shí)現(xiàn)了更精細(xì)化的控制、多說話人支持以及更低延遲。絕大部分改進(jìn)不是來自模型結(jié)構(gòu),而是數(shù)據(jù)工作。我們基本上完全重構(gòu)了數(shù)據(jù)管線,所有模型都是自研的——包括一個(gè)情緒標(biāo)注世界第一的 ASR 模型,以及聲音分離模型、Audio Quality Model 等,讓預(yù)訓(xùn)練數(shù)據(jù)天然具有準(zhǔn)確的 speaker tag 和 open domain 的情感標(biāo)簽(從簡單的 emphasize 到復(fù)雜的"帶著憤怒和悲傷"這類情緒),整合到數(shù)據(jù)管線后得到了非常健壯的高質(zhì)量預(yù)訓(xùn)練數(shù)據(jù)集。

然后我們結(jié)合線上用戶反饋數(shù)據(jù)——用戶是否喜歡、是否下載等——構(gòu)建了一個(gè)巨大的偏好數(shù)據(jù)集,訓(xùn)練了一個(gè) reward model。同時(shí)我們還有通過 in-house labeling 實(shí)現(xiàn)的另一個(gè) reward model,關(guān)注模型正確性和表達(dá)自然性。我們專門組建了一個(gè)全球 native speaker 團(tuán)隊(duì)來標(biāo)注數(shù)據(jù)。結(jié)合預(yù)訓(xùn)練數(shù)據(jù)和后訓(xùn)練的強(qiáng)化學(xué)習(xí)管線,我們得到了 S2。

Peter:怎么理解 Fish Audio 的語音模型跟市場(chǎng)上其他競爭對(duì)手在架構(gòu)方面的區(qū)別?

冷月目前市場(chǎng)上存在多種 TTS 模型架構(gòu)。第一種是比較古老的,類似 StyleTTS 的架構(gòu),ElevenLabs 2.5 等在用,優(yōu)勢(shì)是延遲非常低,一次能把很長的 sequence 吐出來,但韻律比較弱,比較 monotone。在此基礎(chǔ)上出現(xiàn)了 Tortoise 架構(gòu),也是目前 CosyVoice、Seed TTS 等在使用的架構(gòu)。

這個(gè)架構(gòu)的特性是給定文本,先讓模型把語義 token 吐出來——這更像文本任務(wù)而非語音任務(wù)——帶有一點(diǎn)音高信息,再由一個(gè)額外的模型將其解碼為音頻。這是目前業(yè)界部署最多的一類模型,好處是非常穩(wěn)定,同時(shí)在表現(xiàn)力上有了質(zhì)的飛躍。

還有一種更新的路線,比如我們的模型,或者千問 TTS、SESAME 等——把語義和聲學(xué)信息一起端到端建模。這樣得到的模型表現(xiàn)力更強(qiáng),天生可以 handle 多說話人,但反面是容易出現(xiàn)說話人跳變、噪音等 badcase。所以我們?cè)趶?qiáng)化學(xué)習(xí)上做了大量后訓(xùn)練來優(yōu)化穩(wěn)定性,讓它能和前者的模型持平,同時(shí) deliver 更好的表現(xiàn)力。

Peter:這種方式是未來 TTS 架構(gòu)的主流趨勢(shì)嗎?

冷月:未來這會(huì)成為主流架構(gòu)。它還有一個(gè)巨大優(yōu)點(diǎn):延遲可以比之前的架構(gòu)低很多,理論上只需要第一個(gè) token 生成完就可以開始音頻解碼,延遲可以壓縮到非??植赖臓顟B(tài)。我們最近還會(huì)發(fā)布一個(gè)全新類型的模型,完全去掉了 Vocoder 模塊,實(shí)現(xiàn)從文本到波形的完整端到端建模。

我們一直非常相信端到端。每一個(gè)模塊都在往模型中引入更多結(jié)構(gòu)和復(fù)雜性,不只限制計(jì)算效率,也限制了模型的能力和上限。從語音發(fā)展的歷程來看——早些年我們有一個(gè)模塊預(yù)測(cè)每個(gè)音素有多長,再有一個(gè)模塊把長度和音素放在一起,轉(zhuǎn)成梅爾譜,再有一個(gè) Vocoder 把梅爾譜轉(zhuǎn)成波形,這個(gè)流程非常長。而我們和千問的方案把前兩個(gè)模塊又融合了,從文本信息直接給出聲學(xué)信息。再往后一步——能不能把文本給進(jìn)去就直接把波形吐出來?這個(gè)事情會(huì)非常 amazing,有希望把延遲降到 30~50 毫秒。

Peter:那整個(gè) voice agent 架構(gòu)呢?傳統(tǒng)級(jí)聯(lián)方案和端到端方案的區(qū)別是什么?

冷月:現(xiàn)階段雖然各廠商都有端到端模型,但投入生產(chǎn)最多的還是級(jí)聯(lián)方案:VAD → turn taking → STT → LM → TTS,大概 4~5 級(jí)流水線。很多公司宣稱達(dá)到 500 毫秒,但實(shí)際生產(chǎn)上平均延遲都在一秒以上,因?yàn)槔锩嬗泻芏?bottleneck 無法完全流式化。

最先能合并的是 LM、STT 和 turn taking 三個(gè)模塊——如果有一個(gè)支持流式的語音編碼器接入 LM,就可以由 LM 自己判斷用戶是否已經(jīng)說完,完成了就停止,沒完成就生成答案文本再交給 TTS。這個(gè)流程從用戶停止說話到模型開口,可能只有 300~500 毫秒。

再進(jìn)一步把 streaming TTS 也融合進(jìn)去,那我們需要等待的時(shí)間就只有:用戶完成這句話之后的一次 LM prefill,加上可能幾個(gè) token 的輸出時(shí)間。這個(gè)流程就非常短,可能整個(gè)就在 100 毫秒以內(nèi)了。

再往前一步就是全雙工模型。世界上已經(jīng)存在全雙工模型,但它們智力水平都很低,有各種模態(tài) conflict。不過這個(gè)方案能提供比端到端更低的延遲響應(yīng),還能在用戶說話時(shí)給出 supportive 的語氣——比如「確實(shí)」「對(duì)的」「我想想」等。預(yù)計(jì)今年 Q4 推出端到端的 speech-in-to-speech-out 模型,之后再走向全雙工。

Peter:ASR 模型對(duì)預(yù)訓(xùn)練最大的優(yōu)勢(shì)是什么?

冷月:最主要體現(xiàn)在 speaker、情感和副語言(笑聲、停頓、強(qiáng)調(diào)等)的準(zhǔn)確性上。我們測(cè)了 Gemini、火山 Audio Capturer 等很多模型,發(fā)現(xiàn)大家對(duì)副語言的處理表現(xiàn)都不好。要做出真正可控的、能 follow 用戶 instruction 的 TTS 模型,就需要更多帶 control 標(biāo)簽的數(shù)據(jù),所以我們構(gòu)建了自己的 ASR 模型來做這件事。

Peter:隨著每一代模型架構(gòu)迭代,上一代的訓(xùn)練管線在下一代還有幫助嗎?還是每次都要從頭搭建?

冷月:每一代都有基礎(chǔ)性作用,更多時(shí)候是往前一代管線里添加更多功能。比如做全雙工模型,就需要更好的聲音分離模型、target speaker extraction 模型加入現(xiàn)有管線,把重疊說話的內(nèi)容分離出來用于訓(xùn)練。這是一個(gè)漸進(jìn)式的過程,大部分?jǐn)?shù)據(jù)可以 reuse S2 的訓(xùn)練數(shù)據(jù)。

05

不做單一大模型,用模型矩陣匹配商業(yè)場(chǎng)景

Peter:從產(chǎn)品和商業(yè)角度,不同技術(shù)路線選擇對(duì)用戶體驗(yàn)和商業(yè)價(jià)值有哪些影響?

Rissa:我們按照不同商業(yè)場(chǎng)景選擇了不同的技術(shù)路徑,匹配不同需求的模型矩陣,而非追求單一大模型。比如 S1 是平臺(tái)的 flagship model,也是用戶使用最多的模型,非常適用于 entertainment 和 AI native apps——AI 陪伴社交應(yīng)用、VTubing、Gaming 公司等,需要更自然、更真實(shí)的表達(dá)。同時(shí)我們也發(fā)現(xiàn)大量 real-time voice agent 和 call center 的 use case 希望使用我們的 TTS 模型。

針對(duì)這類企業(yè)客戶,我們即將 launch S2 Flash,一個(gè) 4B 的 enterprise model,適用于實(shí)時(shí)客服對(duì)話場(chǎng)景,有更低的延遲和更高的穩(wěn)定性。對(duì)于內(nèi)容生成來說可以容忍較高延遲,但更在意聲音質(zhì)量和情感表達(dá)力,我們更建議用 S1 或即將發(fā)布的 S2 Pro。不同企業(yè)用戶有不同的偏好組合——穩(wěn)定性+低延遲,或穩(wěn)定性+表達(dá)力,或表達(dá)力+自然度——我們會(huì)適配不同模型給不同應(yīng)用場(chǎng)景。

Peter:所以面向更有表現(xiàn)力和情感性的市場(chǎng),是增量最快也是潛力最大的市場(chǎng)。

Rissa:對(duì)。我們的聲音 is more built for entertainment 和 AI native apps。這些公司過去兩三年會(huì)變成未來的世界 500 強(qiáng)。ElevenLabs 現(xiàn)在主打的是傳統(tǒng)行業(yè)世界 500 強(qiáng)的企業(yè)配音和有聲書場(chǎng)景,有比較高的 content safety 管制,要樹立專業(yè)的品牌形象。而我們的切入口是更有趣的聲音、更有靈魂的聲音,更適用于游戲和 entertainment use case,這些公司也在快速發(fā)展中,很可能在未來兩到三年內(nèi)成為接下來的世界 500 強(qiáng)——也就是高潛力市場(chǎng)。

Peter:公司現(xiàn)在大約 60% 收入來自 C 端或 prosumer 創(chuàng)作者,這在 AI 基礎(chǔ)設(shè)施公司里很少見。為什么從創(chuàng)作者切入,而不是一開始做企業(yè)級(jí)API服務(wù)?

Rissa:我們先做了開源模型,開源社區(qū)里有很多需求要求專業(yè)創(chuàng)作工具,我們就做了創(chuàng)作平臺(tái)給 content creators 使用。最早是游戲開發(fā)者和游戲配音的 ASMR artist,第一輪破圈有很多 Audio Podcast 內(nèi)容創(chuàng)作者,最近一輪破圈讓更多專業(yè) vlogger 開始在 workflow 里使用我們做音頻配音,提高創(chuàng)作效率也幫他們賺錢。這是一個(gè)很自然的從開源社區(qū) evolve 的過程,團(tuán)隊(duì)本身做 C 端 creator platform 的 DNA 比較強(qiáng)。

Enterprise 和 B2B API 用戶方面,早期人力有限無法滿足社區(qū)里的很多需求。去年 10 月 reorg 完成后才真正開始嘗試,一開始說實(shí)話冷月和我自己都沒那么看好,我就抱著試一試的心態(tài)開始接 enterprise contract——我看 ElevenLabs 都能把 enterprise 模型做那么多,但我們的 use case 又不太一樣。結(jié)果發(fā)現(xiàn)增長模式非常 bottom-up——跟 Slack、Notion 很像。開源社區(qū)里用我們模型的 engineer 和 developer,還有平臺(tái)上的 PM 和內(nèi)容創(chuàng)作者,覺得我們好用,就介紹給他們工作的公司簽 enterprise contract,也有些是本身就是 founder,長期關(guān)注 TTS,開始跟我們簽約。這部分增長比預(yù)期快很多,我們也發(fā)現(xiàn)了這部分的增長潛力,所以開始 dedicate 更多 resource 在模型上提供更多支持,做 enterprise sales 這件事。

Peter:所以你們是非常漂亮的 Product-Led Growth,結(jié)合了開源社區(qū)運(yùn)營和創(chuàng)作平臺(tái)的口碑傳播。

06

1UGC聲音模型構(gòu)成最難復(fù)制的壁壘

Peter:你們的UGC內(nèi)容也做得很好,介紹下經(jīng)驗(yàn)?

Rissa:我們整個(gè) go-to-market 策略 ToB 和 ToC 都非常 bottom-up。而且我們打造了世界第一大的 UGC voice model market,有 110 萬 public UGC voices,它既加持了 consumer 平臺(tái)的用戶轉(zhuǎn)化,也 strengthen 了 enterprise sales——很多人因?yàn)槲覀冇羞@么多有趣的聲音,選擇我們而不是 ElevenLabs 或 Cartesia。

Peter:這些 UGC 聲音模型背后有什么特別的激勵(lì)機(jī)制嗎?

Rissa:有的。創(chuàng)作者公開的聲音模型如果被其他用戶使用,消耗的 paid token 的 30% 我們會(huì)以 credit 形式回饋給創(chuàng)作者。

Peter:你們有觀察到這些用戶創(chuàng)作的聲音在使用量或趨勢(shì)上有什么顯著變化嗎?

Rissa:確實(shí)有很 dynamic 的變化。我們也是業(yè)界唯一一家建立了完整 live RLHF 做 audio preference alignment 后訓(xùn)練的 voice generation platform。越多人使用某個(gè)語種或帶口音的語言,對(duì)應(yīng)的模型表現(xiàn)就會(huì)實(shí)現(xiàn)一定的爆發(fā)。舉個(gè)例子,去年 10 月我們的阿拉伯語模型實(shí)現(xiàn)了爆發(fā)——原因是 9 月有阿拉伯王子去世,他的聲音被大量克隆在我們平臺(tái)上,大家為悼念他用他的聲音制作各種內(nèi)容,帶來了很多阿拉伯語用戶,使我們阿拉伯語模型實(shí)現(xiàn)了性能突破。后來也有企業(yè)用戶來找我們 host enterprise model in Arabic,因?yàn)樗麄冋J(rèn)為我們的阿拉伯語模型是 SOTA。

Peter:如果用戶上傳名人聲音進(jìn)行克隆,從平臺(tái)角度有審核或風(fēng)控機(jī)制嗎?

Rissa大家在上傳聲音時(shí)要自己 declare ownership。如果沒有 ownership,其他人可以舉報(bào),我們會(huì)撤掉聲音模型。因?yàn)槲覀兪?UGC platform,creator 要自己為自己創(chuàng)造的聲音負(fù)責(zé),這在我們的 terms of service 里寫得很明確。

Peter:這個(gè) UGC 生態(tài)可能會(huì)成為 Fish Audio 最難復(fù)制的資產(chǎn)。

RissaUGC 音色只是其中一個(gè)護(hù)城河。我們?cè)谶^去一年建立了多個(gè)難以復(fù)制的閉環(huán)效應(yīng):第一,UGC 音色生態(tài);第二,整個(gè)后訓(xùn)練 RLHF 管線——越多人使用,聲音模型表現(xiàn)就越好、越穩(wěn)定;第三,架構(gòu)非常 efficient,不論訓(xùn)練還是推理都帶來極大的成本優(yōu)勢(shì);第四,我們起源于開源社區(qū),能有效利用模型發(fā)布以最低 CAC 獲取流量,讓更多人使用模型、表現(xiàn)越來越好,造成更多 token 消耗和更多 revenue。這整個(gè)閉環(huán)是我們?cè)谶^去一年成功跑起來的。

07

真正留下來的是"用 AI 賺錢"的創(chuàng)作者

Peter:很多模型公司的產(chǎn)品就是一個(gè)API或模型本身,沒有太多定制開發(fā)。但 Fish Audio 不一樣,你們也在開發(fā)完整的 Fish Studio,新版本會(huì)有更多產(chǎn)品級(jí)功能。你們?cè)诋a(chǎn)品深度和設(shè)計(jì)上是怎么思考的?

Rissa:過去 12 個(gè)月里,我們整個(gè)用戶畫像都有很大的 dynamic change。我們成功 launch 了 SOTA 模型,找到了 PMF,實(shí)現(xiàn)了 10 million ARR 的商業(yè)化。在整個(gè)變化過程中,用戶群體經(jīng)歷了 dynamic shift——從最早的游戲開發(fā)者、游戲配音創(chuàng)作者,到 Audio Podcast 創(chuàng)作者,到現(xiàn)在更多的是專業(yè) professional content creator 和 VTuber。

我們發(fā)現(xiàn)真正有更強(qiáng)付費(fèi)能力、真正會(huì)留在 Fish 的用戶是專業(yè)內(nèi)容創(chuàng)作者,他們用 Fish Audio 作為 existing workflow 的一部分,讓他們能更高效地生產(chǎn)內(nèi)容、幫他們賺錢。所以至少接下來六個(gè)月,我們的方向還是服務(wù) consumer 專業(yè)內(nèi)容創(chuàng)作者,基于他們做聲音相關(guān)的衍生產(chǎn)品和 feature——除了現(xiàn)有的聲音克隆、語音合成,還要讓他們實(shí)現(xiàn)多軌編輯、更精細(xì)的情感控制,甚至 lip sync、口型結(jié)合和整個(gè) video avatar,實(shí)現(xiàn)更加完整的端到端內(nèi)容創(chuàng)作。

Peter:對(duì)于這群專業(yè)用戶,產(chǎn)品要求和客單價(jià)跟傳統(tǒng)配音用戶很不一樣。

Rissa:對(duì),這些用戶在逐漸成為主流,付費(fèi)能力很強(qiáng)——因?yàn)樗麨?Fish Audio 付費(fèi)是為了自己賺錢,所以粘性更強(qiáng)、使用頻率更高、付費(fèi)和續(xù)費(fèi)能力也更強(qiáng)。關(guān)鍵是 Fish Audio 能不能給他最極致的體驗(yàn),滿足創(chuàng)作需求,真正幫他提高創(chuàng)作效率、減少創(chuàng)作成本。

市場(chǎng)上確實(shí)缺乏一個(gè)專門為播客制作者或音頻創(chuàng)作者打造的 AI 化工具,傳統(tǒng)工具要么太老舊,要么 ElevenLabs 這類 AI 工具并不具備專業(yè)內(nèi)容創(chuàng)作真正需要的能力和產(chǎn)品。

整體來說 consumer platform 實(shí)現(xiàn)了兩個(gè)價(jià)值:提高創(chuàng)作效率讓 productivity 更高,同時(shí)提高 creativity。

Peter:你們的開源倉庫超過 10 萬 GitHub Stars,能詳細(xì)闡述開源策略和對(duì)商業(yè)化的影響嗎?

Rissa:我們的 DNA 里有些東西是天生的——冷月和團(tuán)隊(duì)小伙伴源自開源社區(qū),本身就是 top contributor,我自己在 Meta 和 Amazon 也是做開發(fā)者社區(qū)的。我們很有效地利用了開源作為分發(fā)的護(hù)城河,成為早期很有效的 distribution channel。

但開源并不是一個(gè) monetization 的鏈路。我們選擇開源核心模型和工具鏈,是因?yàn)殚_發(fā)者不相信 Demo,只相信代碼。只有當(dāng)他們真正能跑、能測(cè)、能對(duì)比,才會(huì)相信你的模型表現(xiàn)。我們把模型推理工具和訓(xùn)練方法全部開源,讓開發(fā)者可以直接 benchmark 我們的模型,本地部署測(cè)試 latency、quality 等各方面性能。

簡單來說,開源是讓你可以用、可以測(cè)、可以感知 Fish 模型與其他模型的差異。但我們真正的閉源商業(yè)化模型才是讓你能夠規(guī)模化上線、在產(chǎn)品上做開發(fā)、讓你賺錢的模型。很多 enterprise API 客戶就是這樣來的——最早起源于開源,覺得好用,起了量之后開始使用閉源模型。

08

先吃 AI Native 市場(chǎng),再切傳統(tǒng) 500 強(qiáng)

Peter:跟 ElevenLabs 和頭部大廠的競爭,長期差異化在哪里?

Rissa:First mover 永遠(yuǎn)有 advantage。ElevenLabs 確實(shí)是過去幾年音頻領(lǐng)域最成功的公司,短時(shí)間做到 3.3 億 ARR、110 億估值,是行業(yè)標(biāo)桿。直接 head-to-head 競爭非常 challenging。但我們一直打的是自己的 value——針對(duì)情感化實(shí)時(shí)交互的聲音,更 entertainment、更有趣的聲音,這是大家選擇我們而非 ElevenLabs 的原因。

但 at the end of the day,我們和 ElevenLabs 的市場(chǎng)肯定有 merge 的地方。等我們把 AI native apps 市場(chǎng)吃下之后,接下來也會(huì)打?qū)崟r(shí)客服這種穩(wěn)定性市場(chǎng)、世界 500 強(qiáng)公司。到那時(shí)候拼的是誰手速快、誰真正能抓住用戶心智打入市場(chǎng)。我們整個(gè)團(tuán)隊(duì)在 go-to-market、內(nèi)容、B2B sales 以及模型和技術(shù)能力上都很強(qiáng)。

Peter:Fish Audio 未來 18 個(gè)月的目標(biāo)是什么?

Rissa:希望在未來 12 到 18 個(gè)月實(shí)現(xiàn)更 aggressive 的增長,接下來 optimize revenue growth,目標(biāo)是 50~100 million ARR,jointly among B2B 和 B2C。同時(shí)也要 expand beyond AI voice generation platform,變成一個(gè) multi-modal 平臺(tái),讓更多創(chuàng)作者可以在我們平臺(tái)做完整的內(nèi)容創(chuàng)作。

冷月:從 research 和產(chǎn)品角度,希望在未來 18 個(gè)月把 Fish 打造成更完善的 content creator platform。模型側(cè)希望在未來半年內(nèi)完成多模態(tài)感知模型(感知多模態(tài)、輸出語音和文本兩個(gè)模態(tài))的研發(fā),再往后 6~12 個(gè)月完成全雙工模型的研發(fā),并在今年年底讓模型能力超越 99% 的配音演員。

Peter:怎么看 Fish Audio 的全球化戰(zhàn)略?產(chǎn)品有非常多的語言,在全球不同市場(chǎng)有不同的用戶群體。

Rissa:是的,startup 精力有限,但我們是打 global 市場(chǎng)的語音公司。過去一年用比較有限的人力成功實(shí)現(xiàn)了日語、中文、英文和阿拉伯語的突破,一方面借助數(shù)據(jù)和模型能力,另一方面基于后訓(xùn)練 RLHF 管線。

我們定位為美國公司,serve 很多美國的 content creator 和 B2B 企業(yè)用戶、AI native apps 創(chuàng)作者。但這些公司很多是 global company,不僅 operate in 英語,還有日語、西班牙語、韓語、葡語、法語、德語等。跨語言多語種是一個(gè)很明顯的機(jī)會(huì)。我們有個(gè)得天獨(dú)厚的優(yōu)勢(shì)——小語種和帶口音語言的優(yōu)勢(shì),因?yàn)槁曇艨寺∽龅煤?,線上越多該語種或口音的人使用我們模型,對(duì)應(yīng)表現(xiàn)就越好。

最近也發(fā)現(xiàn)了亞洲市場(chǎng)很獨(dú)特的機(jī)會(huì)——日韓 AI companion 市場(chǎng)沒有好的本地 TTS,F(xiàn)ish 就成了他們的首選。之前也分享過,我們?cè)诎⒗Z和非美式口音英語的表現(xiàn)也實(shí)現(xiàn)了爆發(fā)。多語言支持需要時(shí)間和投入,但這在我們戰(zhàn)略上非常重要。

Peter:從技術(shù)角度,做好 Fish Studio 產(chǎn)品和做好模型,背后有什么不同的挑戰(zhàn)?產(chǎn)品需求是否會(huì)影響模型能力和架構(gòu)訓(xùn)練的設(shè)計(jì)?

冷月:模型一直取決于用戶需求來改變,研發(fā)過程強(qiáng)烈受用戶需求影響。比如我們?cè)谘芯扛玫?word-level timestamp、character-level timestamp,還有 lip sync,這些都是 audio creation platform 不可或缺的部分。最早用戶給一段文本我們就給一段語音,進(jìn)入 Studio 時(shí)代后開始有多音軌。我們發(fā)現(xiàn)用戶生成很多音頻后導(dǎo)出還需要自己過一遍第三方語音識(shí)別模型才能拿到字幕——這很不方便,所以我們就在 Fish Audio 這邊幫他們做好字幕生成。最早用 Whisper 做 alignment,但只能處理 30 秒音頻,所以我們?cè)谘芯啃碌哪P蛠砀玫赝瓿梢纛l和文本對(duì)齊。

未來我們還會(huì)有更多功能——基于音頻補(bǔ)全(給定前后音頻和中間文本去補(bǔ)全),或者給定視頻生成對(duì)應(yīng)音頻——這些都會(huì)逐漸加入產(chǎn)品線。

09

我們現(xiàn)在正在進(jìn)入 AI Voice 2.0 的技術(shù)爆發(fā)期

Peter:Rissa,你之前在 Meta 和 Amazon 做過增長和產(chǎn)品,也在頭部 AI 圖片社區(qū)創(chuàng)過業(yè),25 年下半年加入 Fish Audio 擔(dān)任 CEO,能聊聊這個(gè)決定背后的思考嗎?

Rissa:選擇 Fish Audio 有種命運(yùn)驅(qū)使的感覺。最早認(rèn)識(shí)冷月是通過一個(gè) founder event,當(dāng)時(shí)冷月在我眼里已經(jīng)是一個(gè)閃閃發(fā)光的天才少年 researcher——我接觸過很多 researcher,但像他這種對(duì)技術(shù)這么 passion 的還是第一次見。

Peter:為什么當(dāng)時(shí)選擇了語音,而不是圖像或視頻等其他方向?

Rissa:首先我自己是一個(gè)很容易與聲音建立鏈接的人,聲音能牽動(dòng)我的思緒和靈感。第二,我覺得 AI 圖像領(lǐng)域大的技術(shù)突破已經(jīng) reach 了 ceiling——從 22 年到 24 年各種 diffusion model 突破讓創(chuàng)作門檻降低,Midjourney 以及各種圖像模型 launch,甚至到去年的 Nano Banana,之后圖像模型已經(jīng)進(jìn)入雕花狀態(tài),很少再看到非常大的技術(shù) breakthrough。

而我們現(xiàn)在正在進(jìn)入 AI Voice 2.0 的技術(shù)爆發(fā)期。什么是 AI Voice 2.0?就是基于上一代純 broadcasting 類型的、很企業(yè)很正式的逐字逐句、非常清晰的 AI 生成語音,進(jìn)入了下一階段——更有交互式、具備情感的聲音。你真正可以跟 AI 創(chuàng)作的聲音建立情感鏈接。語音正好在這個(gè)時(shí)候從配音工具轉(zhuǎn)化為真正具備 emotional intelligence 的 AI 智能體。因?yàn)楦鞣N推理和 inference 的優(yōu)化,延遲可以達(dá)到更低,多輪對(duì)話情感表達(dá)也更逼真,你甚至感覺跟 AI 的對(duì)話像跟真人在交互一樣。過去一年也是 AI massive adoption 的一個(gè)關(guān)鍵節(jié)點(diǎn)。

現(xiàn)在世界上有 4000 萬 professional content creators 在逐漸 adopt 用 AI 做內(nèi)容創(chuàng)作——就像 2022 年剛進(jìn)入 diffusion 那個(gè)時(shí)代一樣。所以我覺得今年以及去年是 AI Voice 時(shí)代技術(shù) breakthrough 最佳、影響最深遠(yuǎn)的時(shí)代。

Peter:冷月,你從英偉達(dá)離職后創(chuàng)業(yè)的過程是怎樣的?

冷月:Fish Audio 的發(fā)展過程充滿故事性。從最開始脫胎于我個(gè)人在虛擬主播方面的經(jīng)歷,從社區(qū)性的聲音合成、歌聲合成走向 TTS,大概在 2024 年年初開始積極推進(jìn) TTS 技術(shù)進(jìn)步。2024 年年中我覺得如果再不出來就晚了——當(dāng)時(shí)世界上只有一家做出規(guī)模的語音合成公司 ElevenLabs,沒有其他競爭對(duì)手。我們覺得 AI 語音需要新鮮血液,把 AI 語音做得更有情感,真正達(dá)到情感陪伴、更自然的效果。

10

創(chuàng)業(yè)不是培養(yǎng)人,是找戰(zhàn)友一起打仗

Peter:對(duì)于年輕的創(chuàng)業(yè)者,在尋找合伙人和合作伙伴時(shí),有哪些好的 lesson 和經(jīng)驗(yàn)可以分享?

Rissa:首先選擇合伙人時(shí),最好 skill set 比較互補(bǔ),大家有獨(dú)立的 scope,但整體性格和能力互補(bǔ)。比如我跟冷月,他負(fù)責(zé)整個(gè)技術(shù)部分,我更多負(fù)責(zé)融資、go-to-market、partnership 和公司架構(gòu)。

同時(shí)很重要的一點(diǎn)是看這個(gè)人的 track record——公司之前的合伙人或早期員工有沒有拿到過股份?如果歷史上從來沒有給之前的合伙人分過任何股份,那可能是一個(gè) red flag。還有公司是不是有比較健康的 vesting schedule——業(yè)界標(biāo)準(zhǔn)是 one year cliff,vesting over four years。創(chuàng)業(yè)者在創(chuàng)造價(jià)值的同時(shí),也要確保跟他一起創(chuàng)業(yè)的伙伴們能得到應(yīng)有的回報(bào)。

Peter:我注意到你們是一家能持續(xù)吸引和轉(zhuǎn)化年輕超級(jí)個(gè)體的初創(chuàng)公司,這種人才吸引力是怎么建立的?

Rissa:我自己長期在硅谷,比較喜歡跟超級(jí)個(gè)體合作。我更喜歡抓大方向、確保解決問題,而不是抓很多細(xì)節(jié),所以我喜歡合作的人非常 reliable——一個(gè)事情交給他就能做得很漂亮。我和冷月之前合作比較順利的 talent 類型,都是比較 entrepreneur、有 founder traits 的人,他們擅長對(duì)某個(gè)領(lǐng)域 take full ownership from end to end。

我過去幾年也在比較刻意性地結(jié)交這種類型的 talent,build relationship——要么讓他加入我當(dāng)時(shí)的公司,要么想各種方式給他們提供 support,讓他們覺得我能 be helpful,在這個(gè)過程中建立比較好的戰(zhàn)略友誼的關(guān)系。當(dāng)我 ready 有一個(gè)好的 opportunity 時(shí),我也愿意給出更多 upside——因?yàn)檫@種類型的 talent 如果你不給足夠的 potential 和 upside,他們就會(huì)自己創(chuàng)業(yè),不會(huì)加入初創(chuàng)公司。所以在 ownership、股份和 compensation 上我們都非常 generous,用這種方式激勵(lì)大家一起克服困難、一起 take ownership。

說句實(shí)話,startup 并不是培養(yǎng)人的地方,startup 是大家一起找戰(zhàn)友、一起打仗的地方。我們要在不同位置上放最適合的戰(zhàn)友,一起實(shí)現(xiàn)共贏,大家最后的目標(biāo)就是贏。

Peter:你們?cè)趺次袌?chǎng)上最好的技術(shù)人才?

冷月:我們長期在開源和開發(fā)者社區(qū)深耕,認(rèn)識(shí)了非常多已經(jīng) well proven、有 amazing work 的開源工作者和 researcher。他們絕大部分都是非常強(qiáng)的超級(jí)個(gè)體,我們優(yōu)先把他們拉入團(tuán)隊(duì),一般會(huì)給每個(gè)人足夠的計(jì)算資源和 compensation,讓他往多個(gè)方向中最感興趣的方向跑一個(gè)月,這是我們最喜歡的招人方式。

當(dāng)我們覺得一個(gè)人"聞起來味道很對(duì)",就盡快開始合作和 work trial,給足夠的資源讓他去跑感興趣的事情。這個(gè)過程中可以篩選掉對(duì)某個(gè)內(nèi)容感興趣但沒有真正花時(shí)間和 effort 的人,也可以篩掉 claim 自己能做但最后沒完成的人。最后留下來的都是真的喜歡這個(gè)事情、有相應(yīng) skill set 或能很快學(xué)到的人。

整體 culture 上我們是獎(jiǎng)勵(lì)功勞而不獎(jiǎng)勵(lì)苦勞,并不鼓勵(lì)加班。但核心團(tuán)隊(duì)成員其實(shí)都是凌晨 4、5 點(diǎn)才睡覺。我們不鼓勵(lì)少睡覺,而是在這種環(huán)境下大家非常有自驅(qū)力,每天會(huì)覺得很 excited——覺得我就是改變和創(chuàng)造 AGI 這個(gè)世界的人。這種 team culture 鑄造了我們現(xiàn)在的 talent profile:大家都很年輕,除了我以外都是 00 后,非常 ambitious,都想證明給世界看——我可以做出很不一樣的東西。


轉(zhuǎn)載原創(chuàng)文章請(qǐng)?zhí)砑游⑿牛篺ounderparker

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
追求字母哥,5換1方案出爐,湖人也沒有想到,狀元郎淪為交易籌碼

追求字母哥,5換1方案出爐,湖人也沒有想到,狀元郎淪為交易籌碼

體育大朋說
2026-03-28 21:19:11
4年5.5億歐!巴托梅烏回應(yīng)續(xù)約梅西:以他帶來的價(jià)值,薪水不算高

4年5.5億歐!巴托梅烏回應(yīng)續(xù)約梅西:以他帶來的價(jià)值,薪水不算高

云隱南山
2026-03-29 05:28:07
123贊成3票反對(duì)!聯(lián)大出手了,美拒絕賠錢,以色列“反人類”

123贊成3票反對(duì)!聯(lián)大出手了,美拒絕賠錢,以色列“反人類”

春序娛樂
2026-03-29 06:36:21
奴顏媚骨具象化,高市早苗三十年前照片被扒出,原來她從未變過!

奴顏媚骨具象化,高市早苗三十年前照片被扒出,原來她從未變過!

社會(huì)醬
2026-03-23 17:34:19
「深田詠美」宣布破產(chǎn),背上8000萬債務(wù),男朋友也分手了

「深田詠美」宣布破產(chǎn),背上8000萬債務(wù),男朋友也分手了

孤獨(dú)的獨(dú)角獸影視
2026-03-27 09:30:07
退回賣紅薯的中介費(fèi)后,村民們才停止鬧事,但接下來的事他們悔死了

退回賣紅薯的中介費(fèi)后,村民們才停止鬧事,但接下來的事他們悔死了

林林故事揭秘
2025-03-26 15:19:24
她是兩百年難遇的美人,靠美貌“征服”無數(shù)男人,如今49歲仍未婚

她是兩百年難遇的美人,靠美貌“征服”無數(shù)男人,如今49歲仍未婚

林雁飛
2026-03-22 14:47:54
調(diào)查發(fā)現(xiàn):每天飯后要午睡的人,不出5個(gè)月,身體或有這3種改變

調(diào)查發(fā)現(xiàn):每天飯后要午睡的人,不出5個(gè)月,身體或有這3種改變

蜉蝣說
2026-03-24 10:00:30
廣東傳1好3壞消息!關(guān)辛談焦泊喬離隊(duì),比輸球更可怕的麻煩出現(xiàn)了

廣東傳1好3壞消息!關(guān)辛談焦泊喬離隊(duì),比輸球更可怕的麻煩出現(xiàn)了

后仰大風(fēng)車
2026-03-28 07:10:11
谷歌翻譯耳機(jī)實(shí)時(shí)翻譯功能正式登陸 iOS 平臺(tái),支持超 70 種語言

谷歌翻譯耳機(jī)實(shí)時(shí)翻譯功能正式登陸 iOS 平臺(tái),支持超 70 種語言

龍劍秀南
2026-03-27 07:23:23
黃曉明點(diǎn)破行業(yè)真相:AI越厲害,越離不開IP

黃曉明點(diǎn)破行業(yè)真相:AI越厲害,越離不開IP

娛樂資本論
2026-03-28 20:56:00
伊朗喊著滅掉以色列,卻不讓境內(nèi)5萬猶太人回去,這藏著什么秘密

伊朗喊著滅掉以色列,卻不讓境內(nèi)5萬猶太人回去,這藏著什么秘密

史行途
2026-03-29 06:17:22
美國商品期貨交易委員會(huì)(CFTC):截至3月24日當(dāng)周,布倫特原油期貨市場(chǎng)上的投機(jī)者將凈多頭倉位減少21,579手降至407,125手

美國商品期貨交易委員會(huì)(CFTC):截至3月24日當(dāng)周,布倫特原油期貨市場(chǎng)上的投機(jī)者將凈多頭倉位減少21,579手降至407,125手

每日經(jīng)濟(jì)新聞
2026-03-28 06:19:13
美股全線大跌,道指暴跌近800點(diǎn)!科技巨頭普跌,微軟較高點(diǎn)跌34%,國際油價(jià)大漲7%

美股全線大跌,道指暴跌近800點(diǎn)!科技巨頭普跌,微軟較高點(diǎn)跌34%,國際油價(jià)大漲7%

金融界
2026-03-28 08:23:16
為什么有個(gè)漂亮老婆還是想要分 網(wǎng)友講出自身經(jīng)歷真是一言難盡

為什么有個(gè)漂亮老婆還是想要分 網(wǎng)友講出自身經(jīng)歷真是一言難盡

侃神評(píng)故事
2026-03-10 18:50:04
夜間“偶遇”哭泣女子竟引狼入室!甘肅警方快速破獲“仙人跳”搶劫案

夜間“偶遇”哭泣女子竟引狼入室!甘肅警方快速破獲“仙人跳”搶劫案

環(huán)球網(wǎng)資訊
2026-03-28 14:47:08
凌晨,暴跌800點(diǎn)!伊朗警告:盡快撤離!美股大跳水,油價(jià)飆升!

凌晨,暴跌800點(diǎn)!伊朗警告:盡快撤離!美股大跳水,油價(jià)飆升!

證券時(shí)報(bào)
2026-03-28 09:01:05
做教培的閨蜜:張雪峰身價(jià)8億,為啥還吃外賣?她的回答讓我沉默

做教培的閨蜜:張雪峰身價(jià)8億,為啥還吃外賣?她的回答讓我沉默

藍(lán)色海邊
2026-03-27 18:08:02
馬杜羅再次露面身形消瘦,不再高喊“我是總統(tǒng)”,特朗普心情大好

馬杜羅再次露面身形消瘦,不再高喊“我是總統(tǒng)”,特朗普心情大好

風(fēng)干迷茫人
2026-03-29 06:01:14
精準(zhǔn)預(yù)言金價(jià)狂飆1000美元,這位“黃金先知”又發(fā)出最嚴(yán)厲警告

精準(zhǔn)預(yù)言金價(jià)狂飆1000美元,這位“黃金先知”又發(fā)出最嚴(yán)厲警告

戶外釣魚哥阿旱
2026-03-29 05:46:22
2026-03-29 07:08:49
FounderPark incentive-icons
FounderPark
關(guān)注AI創(chuàng)業(yè),專注和創(chuàng)業(yè)者聊真問題
1184文章數(shù) 160關(guān)注度
往期回顧 全部

科技要聞

華為盤古大模型負(fù)責(zé)人王云鶴確認(rèn)離職

頭條要聞

美媒:和歐盟"外長"發(fā)生激烈交鋒 魯比奧"顯然很惱火"

頭條要聞

美媒:和歐盟"外長"發(fā)生激烈交鋒 魯比奧"顯然很惱火"

體育要聞

“我是全家最差勁的運(yùn)動(dòng)員”

娛樂要聞

陳牧馳陳冰官宣得子 曬一家三口握拳照

財(cái)經(jīng)要聞

臥底"科技與狠活"培訓(xùn):化工調(diào)味劑泛濫

汽車要聞

置換補(bǔ)貼價(jià)4.28萬起 第五代宏光MINIEV正式上市

態(tài)度原創(chuàng)

教育
家居
本地
房產(chǎn)
公開課

教育要聞

“女孩家長心真大!”小男孩帶女同學(xué)回家留宿,網(wǎng)友破防了!

家居要聞

曲線華爾茲 現(xiàn)代簡約

本地新聞

在濰坊待了三天,沒遇到一個(gè)“濰坊人”

房產(chǎn)要聞

首日430組來訪,單日120組認(rèn)籌!??谑讉€(gè)真四代,徹底爆了!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版