337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

融資1050萬(wàn)美金,世界上首個(gè)交互式語(yǔ)音AI視頻模型

0
分享至


AI 聊天機(jī)器人一直有個(gè)問(wèn)題:它們沒(méi)有臉。你可能已經(jīng)習(xí)慣了和文字框?qū)υ挘诟鞣N應(yīng)用里打字提問(wèn)、等待回復(fù)。這種交互方式確實(shí)高效,但總覺(jué)得少了點(diǎn)什么。人類(lèi)天生就是視覺(jué)動(dòng)物,我們更喜歡和真實(shí)的臉對(duì)話,而不是盯著冰冷的文字。這也是為什么即使在通訊軟件如此發(fā)達(dá)的今天,視頻通話依然無(wú)法被取代。當(dāng)你需要深入交流、建立信任或解決復(fù)雜問(wèn)題時(shí),看到對(duì)方的表情和肢體語(yǔ)言會(huì)讓整個(gè)對(duì)話變得完全不同。

這個(gè)觀察讓我對(duì)剛剛獲得 1050 萬(wàn)美元融資的 Lemon Slice 產(chǎn)生了濃厚興趣。這家由 Y Combinator 和 Matrix Partners 領(lǐng)投的創(chuàng)業(yè)公司,正在做一件聽(tīng)起來(lái)有點(diǎn)瘋狂但又極具前瞻性的事:他們開(kāi)發(fā)了一個(gè)叫做 Lemon Slice-2 的 AI 模型,可以把任何一張靜態(tài)圖片——無(wú)論是公司員工照、卡通角色、還是文藝復(fù)興時(shí)期的油畫(huà)——瞬間變成一個(gè)能實(shí)時(shí)對(duì)話的視頻頭像。不需要上傳訓(xùn)練視頻,不需要復(fù)雜的預(yù)處理,甚至不需要是真人照片。只需要一張圖,你就能和這個(gè)角色進(jìn)行面對(duì)面的視頻對(duì)話。

我知道這聽(tīng)起來(lái)像是科幻片的情節(jié),但當(dāng) Y Combinator 的合伙人 Jared Friedman 說(shuō)"這是自 ChatGPT 首次發(fā)布以來(lái),我第一次試用一個(gè)產(chǎn)品時(shí)想到'啊,這就是未來(lái)人們與計(jì)算機(jī)對(duì)話的方式'"時(shí),我意識(shí)到這可能真的是一個(gè)重要的轉(zhuǎn)折點(diǎn)。我們正處在一個(gè)關(guān)鍵時(shí)刻:AI 不再只是回答問(wèn)題,而是開(kāi)始以更人性化的方式與我們互動(dòng)。

為什么現(xiàn)有的 AI 頭像都不夠好

說(shuō)實(shí)話,AI 頭像這個(gè)概念并不新鮮。過(guò)去幾年里,我見(jiàn)過(guò)不少公司嘗試做這件事,比如 D-ID、HeyGen、Synthesia 這些比較知名的玩家,還有 Genies、Soul Machine、Praktika 和 AvatarOS 等專(zhuān)注于數(shù)字頭像的公司。但坦白說(shuō),我每次體驗(yàn)這些產(chǎn)品時(shí)都會(huì)感到一種說(shuō)不出的不適感。


Lemon Slice 的聯(lián)合創(chuàng)始人兼 CEO Lina Colucci 對(duì)這個(gè)問(wèn)題的描述非常精準(zhǔn):"我迄今為止看到的現(xiàn)有頭像解決方案都給產(chǎn)品帶來(lái)了負(fù)面價(jià)值。它們看起來(lái)很詭異,動(dòng)作僵硬。前幾秒可能還不錯(cuò),但一旦你開(kāi)始與它們互動(dòng),就會(huì)感到非常不自然,完全無(wú)法讓人放松。真正阻礙頭像技術(shù)普及的原因,就是它們還不夠好。"這話說(shuō)得太對(duì)了。我之前試用過(guò)一些 AI 客服頭像,表面上看確實(shí)是個(gè)人臉在說(shuō)話,但那種機(jī)械的表情變化、不自然的眼神移動(dòng)、以及完全對(duì)不上節(jié)奏的嘴型,反而讓整個(gè)體驗(yàn)比純文字聊天還要糟糕。

這種"恐怖谷效應(yīng)"在 AI 頭像領(lǐng)域特別明顯。所謂恐怖谷,指的是當(dāng)機(jī)器人或虛擬角色看起來(lái)幾乎像真人但又不夠逼真時(shí),人們會(huì)產(chǎn)生強(qiáng)烈的不適感。很多現(xiàn)有的 AI 頭像恰好落在這個(gè)恐怖谷里——它們努力想要看起來(lái)像真人,但各種細(xì)節(jié)的不自然反而讓人感到毛骨悚然。我認(rèn)為這也是為什么盡管技術(shù)已經(jīng)存在多年,但 AI 頭像始終沒(méi)有真正普及的核心原因。


另一個(gè)問(wèn)題是現(xiàn)有解決方案的局限性。大多數(shù) AI 頭像工具都需要你上傳訓(xùn)練視頻,或者只能處理寫(xiě)實(shí)風(fēng)格的人臉,又或者需要針對(duì)特定角色訓(xùn)練定制模型。這意味著如果你想創(chuàng)建一個(gè)卡通角色的 AI 頭像,或者想讓一個(gè)歷史人物的畫(huà)像開(kāi)口說(shuō)話,基本上是做不到的。這種限制極大地縮小了應(yīng)用場(chǎng)景,也讓很多有創(chuàng)意的想法無(wú)法實(shí)現(xiàn)。

Lemon Slice-2 的技術(shù)突破在哪里

Lemon Slice-2 之所以引起我的關(guān)注,是因?yàn)樗鼜募夹g(shù)路徑上就走了一條完全不同的道路。這是一個(gè) 200 億參數(shù)的視頻擴(kuò)散 transformer 模型,和 OpenAI 的 Sora 或 Google 的 Veo3 屬于同一類(lèi)技術(shù),但專(zhuān)門(mén)針對(duì)會(huì)說(shuō)話的角色進(jìn)行了優(yōu)化,并且特別強(qiáng)化了實(shí)時(shí)性能。

我特別欣賞的一點(diǎn)是,Lemon Slice-2 采用了"零樣本"學(xué)習(xí)方式。什么意思呢?就是你只需要提供一張圖片,不需要任何訓(xùn)練數(shù)據(jù)、不需要視頻素材、也不需要提前告訴系統(tǒng)這是什么風(fēng)格,AI 就能立即生成一個(gè)可以實(shí)時(shí)對(duì)話的視頻頭像。這意味著你可以上傳一張公司員工的證件照、一個(gè)你喜歡的卡通小動(dòng)物、甚至是蒙娜麗莎的肖像,然后馬上開(kāi)始和它進(jìn)行視頻對(duì)話。這種靈活性是現(xiàn)有技術(shù)根本做不到的。


更厲害的是它的性能表現(xiàn)。Lemon Slice-2 可以在單個(gè) GPU 上以每秒 20 幀的速度實(shí)時(shí)生成視頻流。你可能對(duì)這個(gè)數(shù)字沒(méi)什么感覺(jué),但我來(lái)解釋一下:大多數(shù)視頻內(nèi)容每秒播放 24-30 幀才會(huì)顯得流暢,而 Lemon Slice-2 能夠在單 GPU 上達(dá)到 20 幀/秒,意味著生成視頻的速度比你觀看的速度還要快。這種性能讓真正的實(shí)時(shí)互動(dòng)成為可能,而不是那種延遲幾秒鐘、看起來(lái)卡頓的互動(dòng)體驗(yàn)。

從技術(shù)細(xì)節(jié)來(lái)看,Lemon Slice 采用了多種創(chuàng)新策略來(lái)實(shí)現(xiàn)這種實(shí)時(shí)性能。包括因果注意力機(jī)制、一種新穎的分布匹配蒸餾訓(xùn)練范式、高效緩存、CUDA 圖加速以及量化技術(shù)。這些聽(tīng)起來(lái)很技術(shù)化的名詞,實(shí)際上都是為了解決同一個(gè)問(wèn)題:如何讓 AI 頭像的響應(yīng)速度足夠快,快到用戶感覺(jué)就像在和真人對(duì)話。根據(jù) Lemon Slice 公布的數(shù)據(jù),用戶體驗(yàn)到的平均響應(yīng)時(shí)間只有 2.8 秒,而其中視頻生成部分只占了 730 毫秒,也就是不到一秒。剩下的時(shí)間主要花在語(yǔ)音識(shí)別和語(yǔ)言理解上。這個(gè)速度已經(jīng)接近人類(lèi)對(duì)話的自然節(jié)奏了。

我認(rèn)為 Lemon Slice-2 最大的技術(shù)優(yōu)勢(shì)在于它是一個(gè)通用的端到端模型。什么意思?就是它從頭到尾生成每一個(gè)像素,而不是基于預(yù)錄制的動(dòng)作或模板進(jìn)行拼接。這種方法雖然計(jì)算成本更高,但帶來(lái)的好處是質(zhì)量上限幾乎沒(méi)有限制。Y Combinator 的 Jared Friedman 對(duì)此評(píng)價(jià)說(shuō):"Lemon Slice 采用的是我認(rèn)為唯一能夠最終克服恐怖谷并通過(guò)頭像圖靈測(cè)試的基礎(chǔ)機(jī)器學(xué)習(xí)方法。他們訓(xùn)練的模型類(lèi)型與 Veo3 或 Sora 相同:視頻擴(kuò)散 transformer。因?yàn)檫@是一個(gè)通用模型,采用端到端的方式處理整個(gè)過(guò)程,所以它的質(zhì)量提升沒(méi)有上限;而其他方案的質(zhì)量上限都達(dá)不到照片級(jí)真實(shí)感。它還能同時(shí)處理人類(lèi)和非人類(lèi)面孔,并且只需要一張圖片就能添加新面孔。"


這里有個(gè)很關(guān)鍵的點(diǎn):Lemon Slice-2 支持完整的身體動(dòng)畫(huà),包括面部表情、手勢(shì)和全身動(dòng)作。這不是那種只有嘴巴在動(dòng)、身體僵硬的粗糙頭像,而是可以做出自然手勢(shì)、點(diǎn)頭、搖頭、甚至改變坐姿的生動(dòng)角色。這種細(xì)節(jié)上的豐富性,正是讓 AI 頭像跨越恐怖谷的關(guān)鍵。當(dāng)一個(gè)角色在解釋復(fù)雜概念時(shí)能夠配合手勢(shì),在表達(dá)同情時(shí)能夠微微前傾身體,在思考時(shí)能夠眼神飄移,這些微妙的非語(yǔ)言信號(hào)會(huì)讓整個(gè)交互體驗(yàn)完全不同。

另一個(gè)讓我印象深刻的技術(shù)特性是無(wú)限長(zhǎng)度視頻生成能力。作為一個(gè)自回歸模型,Lemon Slice-2 理論上可以生成任意長(zhǎng)度的視頻。更重要的是,它不會(huì)出現(xiàn)誤差累積的問(wèn)題。什么是誤差累積?在很多自回歸模型中,每生成一幀新的內(nèi)容,都會(huì)基于前面生成的內(nèi)容,這樣一來(lái),任何微小的錯(cuò)誤都會(huì)在后續(xù)生成中被放大,導(dǎo)致視頻質(zhì)量隨著時(shí)間推移而下降。但 Lemon Slice-2 通過(guò)特殊的技術(shù)設(shè)計(jì)避免了這個(gè)問(wèn)題,這意味著即使是長(zhǎng)時(shí)間的對(duì)話,頭像的質(zhì)量也能始終保持穩(wěn)定。


這項(xiàng)技術(shù)能用來(lái)做什么

當(dāng)我深入了解 Lemon Slice 的應(yīng)用場(chǎng)景時(shí),我發(fā)現(xiàn)這項(xiàng)技術(shù)的想象空間比我最初想的要大得多。它不僅僅是給聊天機(jī)器人加個(gè)臉那么簡(jiǎn)單,而是在重新定義很多領(lǐng)域的用戶體驗(yàn)。

拿教育來(lái)說(shuō)。想象一下,一個(gè)正在學(xué)數(shù)學(xué)的小學(xué)生,不是面對(duì)枯燥的練習(xí)題和文字解釋?zhuān)怯幸粋€(gè)可愛(ài)的外星人角色作為他的數(shù)學(xué)老師。這個(gè)外星人會(huì)用生動(dòng)的表情和手勢(shì)講解數(shù)學(xué)概念,能夠回答孩子的任何問(wèn)題,還能出題測(cè)驗(yàn)并根據(jù)孩子的反應(yīng)調(diào)整難度。當(dāng)孩子答對(duì)題目時(shí),外星人會(huì)開(kāi)心地豎起大拇指;當(dāng)孩子遇到困難時(shí),它會(huì)耐心地?fù)Q個(gè)方式再講一遍。這種互動(dòng)式的學(xué)習(xí)體驗(yàn),比傳統(tǒng)的在線教育視頻或文字課程要吸引人得多,尤其是對(duì)注意力容易分散的兒童來(lái)說(shuō)。

電商領(lǐng)域的應(yīng)用也讓我很感興趣。現(xiàn)在的在線購(gòu)物體驗(yàn)雖然方便,但缺少了實(shí)體店導(dǎo)購(gòu)的人性化服務(wù)。有了 Lemon Slice 的技術(shù),網(wǎng)站可以部署一個(gè)虛擬造型師,不僅能夠回答關(guān)于退換貨政策的問(wèn)題,還能幫你瀏覽整個(gè)網(wǎng)站、推薦搭配、甚至"試穿"不同的服裝讓你看效果。這種體驗(yàn)比簡(jiǎn)單的聊天機(jī)器人要豐富得多,也比靜態(tài)的產(chǎn)品圖片更有說(shuō)服力。用戶可以問(wèn)"這件外套配什么褲子好看",虛擬造型師會(huì)展示幾種搭配方案,用戶可以繼續(xù)追問(wèn)細(xì)節(jié),整個(gè)過(guò)程就像在實(shí)體店里和真實(shí)導(dǎo)購(gòu)對(duì)話一樣自然。


醫(yī)療領(lǐng)域的潛力也很大。去醫(yī)院看病時(shí),在候診室填寫(xiě)各種表格是一個(gè)讓人頭疼的環(huán)節(jié)。有了 AI 頭像,這個(gè)過(guò)程可以變成一次輕松的對(duì)話。虛擬助理會(huì)用親切的語(yǔ)氣引導(dǎo)患者回答問(wèn)題,解釋為什么需要這些信息,甚至在察覺(jué)到患者緊張時(shí)給予安慰。對(duì)于一些初步的醫(yī)療咨詢,比如解釋某個(gè)手術(shù)流程或注意事項(xiàng),有個(gè)看得見(jiàn)的"醫(yī)護(hù)人員"來(lái)講解,會(huì)比閱讀長(zhǎng)篇文字說(shuō)明要容易理解得多,也能減輕患者的焦慮感。

企業(yè)培訓(xùn)是另一個(gè)我認(rèn)為會(huì)被這項(xiàng)技術(shù)深刻改變的領(lǐng)域。新員工入職培訓(xùn)、產(chǎn)品知識(shí)學(xué)習(xí)、合規(guī)培訓(xùn)等等,傳統(tǒng)上都是通過(guò)錄播視頻或在線文檔來(lái)完成的。這種單向的信息傳遞效率很低,員工常常走神或者對(duì)某些內(nèi)容一知半解。但如果培訓(xùn)內(nèi)容是通過(guò)一個(gè)互動(dòng)式的 AI 頭像來(lái)傳遞,員工可以隨時(shí)提問(wèn)、要求重復(fù)講解某個(gè)部分、或者通過(guò)問(wèn)答來(lái)檢驗(yàn)自己的理解,這種主動(dòng)學(xué)習(xí)的效果會(huì)比被動(dòng)觀看視頻好得多。


Lemon Slice 為開(kāi)發(fā)者提供了兩種接入方式:一個(gè)是 API,供那些想要將交互式頭像深度集成到自己產(chǎn)品中的開(kāi)發(fā)者使用;另一個(gè)是可嵌入的 widget,只需要一行代碼就能在任何網(wǎng)站上添加一個(gè)"視頻聊天氣泡"。這種低門(mén)檻的接入方式,我認(rèn)為會(huì)大大加速這項(xiàng)技術(shù)的普及。即使是沒(méi)有深厚技術(shù)背景的中小企業(yè),也能輕松為自己的網(wǎng)站添加一個(gè) AI 客服頭像,讓客戶體驗(yàn)到面對(duì)面服務(wù)的感覺(jué)。

為什么是現(xiàn)在

我一直在思考一個(gè)問(wèn)題:為什么實(shí)時(shí)交互式 AI 頭像技術(shù)是在現(xiàn)在這個(gè)時(shí)間點(diǎn)突破的?畢竟,視頻生成、人臉動(dòng)畫(huà)、語(yǔ)音合成這些技術(shù)單獨(dú)來(lái)看都已經(jīng)存在多年了。我認(rèn)為有幾個(gè)關(guān)鍵因素的匯聚,讓現(xiàn)在成為了這項(xiàng)技術(shù)爆發(fā)的完美時(shí)刻。

首先是大語(yǔ)言模型的成熟。ChatGPT 的出現(xiàn)讓大眾真正體驗(yàn)到了 AI 對(duì)話的魅力,但也暴露出純文字交互的局限性。人們開(kāi)始期待更豐富、更自然的 AI 交互方式。Lemon Slice 的聯(lián)合創(chuàng)始人 Lina Colucci 提到,在生成式 AI 的早期階段,他們就開(kāi)始嘗試不同的視頻模型,當(dāng)時(shí)就意識(shí)到視頻必然會(huì)變得可交互。"像 ChatGPT 這樣的工具之所以引人注目,就是因?yàn)樗鼈兪强山换サ?我們希望視頻也能擁有這種交互層。"這個(gè)洞察非常關(guān)鍵——交互性才是 AI 應(yīng)用的核心價(jià)值。


其次是計(jì)算能力的提升。200 億參數(shù)的模型能夠在單個(gè) GPU 上實(shí)時(shí)運(yùn)行,這在幾年前是不可想象的。GPU 性能的持續(xù)提升、模型優(yōu)化技術(shù)的進(jìn)步、以及各種加速框架的成熟,共同讓實(shí)時(shí)視頻生成從理論可能變成了現(xiàn)實(shí)可行。Lemon Slice 使用的因果注意力、高效緩存、CUDA 圖加速等技術(shù),都是近年來(lái)才發(fā)展成熟的。

第三是市場(chǎng)需求的明確。疫情期間,視頻通話成為了人們工作和生活的常態(tài),這培養(yǎng)了用戶對(duì)"面對(duì)面"交流的習(xí)慣和期待。即使疫情過(guò)去,這種習(xí)慣也保留了下來(lái)。人們已經(jīng)習(xí)慣了在屏幕上看到對(duì)方的臉,而不僅僅是打字聊天。這為 AI 頭像技術(shù)創(chuàng)造了接受度的土壤。

Matrix 的合伙人 Ilya Sukhar 對(duì)此有個(gè)很有意思的觀點(diǎn):"人們與臉產(chǎn)生連接,而不是文字框。"他還提到,人們更喜歡從 YouTube 學(xué)習(xí)而不是閱讀長(zhǎng)篇文字。這說(shuō)明視覺(jué)媒介本身就更符合人類(lèi)的認(rèn)知習(xí)慣。當(dāng) AI 交互也能借助視覺(jué)渠道時(shí),自然會(huì)帶來(lái)更好的用戶體驗(yàn)。


從投資角度看,Lemon Slice 獲得的 1050 萬(wàn)美元融資也說(shuō)明了資本市場(chǎng)對(duì)這個(gè)方向的認(rèn)可。投資者不僅包括專(zhuān)業(yè)的風(fēng)險(xiǎn)投資機(jī)構(gòu)如 Matrix Partners 和 Y Combinator,還有 Dropbox 的 CTO Arash Ferdowsi、Twitch 的 CEO Emmett Shear 這樣的行業(yè)領(lǐng)袖,甚至包括音樂(lè)組合 The Chainsmokers。這種多元化的投資者組合,反映出這項(xiàng)技術(shù)的應(yīng)用潛力被不同領(lǐng)域的專(zhuān)業(yè)人士所認(rèn)可。

競(jìng)爭(zhēng)格局與差異化

在深入研究 Lemon Slice 時(shí),我也關(guān)注了這個(gè)領(lǐng)域的競(jìng)爭(zhēng)格局。AI 頭像和視頻生成已經(jīng)是一個(gè)相當(dāng)擁擠的賽道,有不少玩家在不同的細(xì)分方向發(fā)力。

D-ID、HeyGen 和 Synthesia 主要專(zhuān)注于從文本或音頻生成講話視頻,常用于營(yíng)銷(xiāo)內(nèi)容制作、企業(yè)培訓(xùn)視頻等場(chǎng)景。它們的優(yōu)勢(shì)在于能夠快速批量生成高質(zhì)量的視頻內(nèi)容,但交互性相對(duì)較弱。Genies 專(zhuān)注于游戲化的個(gè)人頭像,Soul Machine 則主打超寫(xiě)實(shí)的數(shù)字人,Praktika 聚焦于語(yǔ)言學(xué)習(xí)場(chǎng)景,AvatarOS 則在構(gòu)建頭像操作系統(tǒng)。每家公司都在自己的細(xì)分領(lǐng)域深耕。

Lemon Slice 的差異化在哪里?我認(rèn)為有幾個(gè)關(guān)鍵點(diǎn)。一是技術(shù)路徑的根本性不同。大多數(shù)競(jìng)爭(zhēng)對(duì)手使用的是針對(duì)特定場(chǎng)景或垂直領(lǐng)域優(yōu)化的定制方案,而 Lemon Slice 采用的是通用的"苦澀教訓(xùn)"擴(kuò)展方法——通過(guò)更多數(shù)據(jù)和更大算力來(lái)提升模型能力,這是在其他 AI 模態(tài)中已被證明有效的路徑。Matrix 的 Ilya Sukhar 特別強(qiáng)調(diào)了這一點(diǎn):"這是一個(gè)技術(shù)深度很強(qiáng)的團(tuán)隊(duì),有交付機(jī)器學(xué)習(xí)產(chǎn)品的歷史記錄,而不僅僅是演示和研究。其他許多玩家都是針對(duì)特定場(chǎng)景或垂直領(lǐng)域定制的,而 Lemon Slice 采用的是通用的'苦澀教訓(xùn)'擴(kuò)展方法(數(shù)據(jù)和算力),這在其他 AI 模態(tài)中已經(jīng)奏效。"

二是實(shí)時(shí)性能的突破。Lemon Slice 強(qiáng)調(diào)他們是第一家真正實(shí)現(xiàn)生產(chǎn)就緒的實(shí)時(shí)交互視頻的公司,而不僅僅是技術(shù)演示。雖然其他一些實(shí)驗(yàn)室也有實(shí)時(shí) AI 視頻的技術(shù)演示,但 Lemon Slice 是唯一一家發(fā)布了可用 API 或產(chǎn)品的公司。這種從研究到產(chǎn)品的轉(zhuǎn)化能力,在技術(shù)創(chuàng)業(yè)中往往比純粹的技術(shù)先進(jìn)性更重要。

三是風(fēng)格的靈活性。不同于那些只能處理寫(xiě)實(shí)人臉或只能生成游戲角色的競(jìng)爭(zhēng)對(duì)手,Lemon Slice-2 的擴(kuò)散模型方法讓它能夠生成任何風(fēng)格的頭像。你可以用它創(chuàng)建一個(gè)超寫(xiě)實(shí)的企業(yè)代言人,也可以創(chuàng)建一個(gè)卡通風(fēng)格的兒童教育角色,或者是一個(gè)抽象藝術(shù)風(fēng)格的創(chuàng)意角色。這種靈活性大大拓寬了應(yīng)用場(chǎng)景。

我特別認(rèn)同 Y Combinator 的 Jared Friedman 的判斷。他認(rèn)為 Lemon Slice 采用的視頻擴(kuò)散 transformer 方法是唯一能夠最終克服恐怖谷的技術(shù)路徑。其他基于模板、拼接或者特定場(chǎng)景優(yōu)化的方案,質(zhì)量上限都達(dá)不到照片級(jí)真實(shí)感,而通用的端到端模型理論上沒(méi)有質(zhì)量天花板,只要有足夠的數(shù)據(jù)和算力,就能不斷提升。

創(chuàng)始團(tuán)隊(duì)的獨(dú)特性

在分析一家技術(shù)創(chuàng)業(yè)公司時(shí),我總是會(huì)特別關(guān)注創(chuàng)始團(tuán)隊(duì)。Lemon Slice 的三位聯(lián)合創(chuàng)始人——Lina Colucci、Sidney Primas 和 Andrew Weitz——的背景讓我印象深刻,不僅因?yàn)樗麄兊膶W(xué)術(shù)資歷,更因?yàn)樗麄兊亩嘣?jīng)歷。

三位創(chuàng)始人都擁有博士學(xué)位,分別來(lái)自 MIT、Harvard、Stanford 和 Duke 等頂尖學(xué)府,在 AI 領(lǐng)域有深厚的專(zhuān)業(yè)積累。但讓他們與眾不同的是,他們同時(shí)也是終身創(chuàng)作者。Colucci 是芭蕾舞者、音樂(lè)家和視頻博主,而 Primas 和 Weitz 則從 YouTube 早期就開(kāi)始制作家庭視頻。這種對(duì)視覺(jué)敘事的熱愛(ài)和理解,我認(rèn)為正是驅(qū)動(dòng)這家公司愿景的核心動(dòng)力。

這種技術(shù)能力與創(chuàng)意感知的結(jié)合非常罕見(jiàn)但又極其重要。純技術(shù)背景的團(tuán)隊(duì)可能會(huì)過(guò)度關(guān)注技術(shù)指標(biāo),而忽略了用戶體驗(yàn)的細(xì)微之處。而純創(chuàng)意背景的團(tuán)隊(duì)則可能有好的想法但缺乏實(shí)現(xiàn)能力。Lemon Slice 的團(tuán)隊(duì)兼具兩者,既能夠開(kāi)發(fā)出技術(shù)上領(lǐng)先的模型,又能夠理解什么樣的頭像表現(xiàn)會(huì)讓用戶感到舒適和愉悅,而不是不安和抗拒。


Colucci 在采訪中說(shuō)的一句話讓我很有共鳴:"人們與臉產(chǎn)生連接,而不是文字框。"這句話看似簡(jiǎn)單,但背后體現(xiàn)的是對(duì)人類(lèi)交流本質(zhì)的深刻理解。這不是一個(gè)純粹的技術(shù)洞察,而是一個(gè)關(guān)于人性的觀察。我相信正是這種對(duì)人類(lèi)情感和交流方式的敏感度,讓 Lemon Slice 團(tuán)隊(duì)能夠設(shè)計(jì)出真正讓人感到自然和舒適的 AI 頭像。

目前團(tuán)隊(duì)只有 8 人,但他們計(jì)劃用這筆融資來(lái)招聘工程和市場(chǎng)團(tuán)隊(duì),同時(shí)支付訓(xùn)練模型所需的計(jì)算成本。在 AI 領(lǐng)域,計(jì)算成本是一個(gè)非常現(xiàn)實(shí)的考量因素。訓(xùn)練一個(gè) 200 億參數(shù)的模型,需要大量的 GPU 資源和時(shí)間,這也是為什么充足的資金支持對(duì)這類(lèi)技術(shù)公司如此重要。

我對(duì)未來(lái)的思考

站在 2025 年底這個(gè)時(shí)間點(diǎn),我對(duì)交互式視頻技術(shù)的未來(lái)有一些思考。Lemon Slice 的愿景是"所有視頻最終都將是交互式的——即時(shí)生成并個(gè)性化給觀看者"。這個(gè)愿景聽(tīng)起來(lái)有些激進(jìn),但我認(rèn)為它指向了一個(gè)很可能實(shí)現(xiàn)的未來(lái)。

想象一下,未來(lái)的在線教育不再是錄播課程,而是每個(gè)學(xué)生都有一個(gè)專(zhuān)屬的 AI 教師頭像,根據(jù)學(xué)生的學(xué)習(xí)進(jìn)度、理解能力和興趣愛(ài)好來(lái)個(gè)性化調(diào)整教學(xué)內(nèi)容和方式。客戶服務(wù)不再是千篇一律的回答,而是根據(jù)每個(gè)客戶的歷史、偏好和當(dāng)前情緒來(lái)定制交流風(fēng)格。新聞播報(bào)不再是單向傳播,而是觀眾可以隨時(shí)打斷提問(wèn)、要求深入解釋某個(gè)細(xì)節(jié)的雙向?qū)υ挕?/p>

這種轉(zhuǎn)變不僅會(huì)改變內(nèi)容的呈現(xiàn)方式,還會(huì)從根本上改變內(nèi)容的生產(chǎn)和消費(fèi)模式。當(dāng)視頻可以實(shí)時(shí)生成和個(gè)性化時(shí),傳統(tǒng)的"制作-分發(fā)-消費(fèi)"模式將被"對(duì)話-生成-互動(dòng)"模式所取代。內(nèi)容創(chuàng)作者的角色也會(huì)改變,從制作具體的視頻內(nèi)容,轉(zhuǎn)變?yōu)樵O(shè)計(jì)知識(shí)庫(kù)、個(gè)性和交互規(guī)則,讓 AI 基于這些元素來(lái)生成無(wú)限多樣的交互體驗(yàn)。

我也看到一些潛在的挑戰(zhàn)。技術(shù)上,要實(shí)現(xiàn)真正自然流暢的長(zhǎng)時(shí)間交互,還有不少細(xì)節(jié)需要打磨。比如如何讓 AI 頭像在長(zhǎng)對(duì)話中保持表情和動(dòng)作的多樣性而不顯得重復(fù)?如何處理復(fù)雜的多輪對(duì)話中的情緒變化和氛圍轉(zhuǎn)換?如何在保證實(shí)時(shí)性的同時(shí)進(jìn)一步提升視頻質(zhì)量?

從商業(yè)角度看,計(jì)算成本仍然是一個(gè)需要關(guān)注的問(wèn)題。雖然 Lemon Slice 已經(jīng)優(yōu)化到可以在單 GPU 上實(shí)時(shí)運(yùn)行,但大規(guī)模部署時(shí)的成本仍然不低。如何在保證質(zhì)量的前提下進(jìn)一步降低成本,讓更多中小企業(yè)也能用得起這項(xiàng)技術(shù),是一個(gè)需要解決的問(wèn)題。

社會(huì)層面上,我們需要思考 AI 頭像普及后對(duì)人際交流的影響。當(dāng)人們習(xí)慣了與 AI 頭像對(duì)話,這會(huì)不會(huì)影響他們與真人交流的能力和意愿?如何確保技術(shù)增強(qiáng)而不是替代人與人之間的真實(shí)連接?這些都是值得深思的問(wèn)題。

但總體而言,我對(duì)這個(gè)方向充滿樂(lè)觀。Lemon Slice 正在做的事情,不僅僅是開(kāi)發(fā)一個(gè)新產(chǎn)品,而是在探索人機(jī)交互的新范式。就像觸摸屏改變了我們與手機(jī)的交互方式,語(yǔ)音助手改變了我們與智能音箱的交互方式,交互式視頻可能會(huì)改變我們與各種數(shù)字服務(wù)的交互方式。從文字到語(yǔ)音,從語(yǔ)音到視頻,從單向到雙向,從靜態(tài)到動(dòng)態(tài),每一次交互方式的演進(jìn)都讓技術(shù)更加人性化,更加貼近人類(lèi)自然的交流習(xí)慣。

Lemon Slice-2 的發(fā)布,或許只是這場(chǎng)變革的開(kāi)始。我期待看到更多創(chuàng)新的應(yīng)用場(chǎng)景涌現(xiàn),也期待看到這項(xiàng)技術(shù)如何與其他 AI 能力結(jié)合,創(chuàng)造出我們現(xiàn)在還無(wú)法想象的體驗(yàn)。未來(lái)的數(shù)字世界,可能真的會(huì)像 Lemon Slice 團(tuán)隊(duì)所設(shè)想的那樣,充滿了生動(dòng)的、可交互的、個(gè)性化的視頻體驗(yàn)。而這一切,都始于一個(gè)簡(jiǎn)單但深刻的洞察:人們與臉產(chǎn)生連接,而不是文字框。

結(jié)尾

也歡迎大家留言討論,分享你的觀點(diǎn)!

覺(jué)得內(nèi)容不錯(cuò)的朋友能夠幫忙右下角點(diǎn)個(gè)贊,分享一下。您的每次分享,都是在激勵(lì)我不斷產(chǎn)出更好的內(nèi)容。

歡迎關(guān)注深思圈,一起探索更大的世界。




特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
張含韻的腿也算是精品了

張含韻的腿也算是精品了

動(dòng)物奇奇怪怪
2026-03-23 00:59:54
毛主席有個(gè)奇怪的原則,一生從不碰這三種東西,它們都是什么?

毛主席有個(gè)奇怪的原則,一生從不碰這三種東西,它們都是什么?

歷史點(diǎn)行
2026-04-05 17:49:27
33歲程序員午休健身時(shí)猝死,公司:按照公司指定地方進(jìn)行健身的時(shí)間,計(jì)入8小時(shí)工作時(shí)間;人社局:不算工傷!法院判了

33歲程序員午休健身時(shí)猝死,公司:按照公司指定地方進(jìn)行健身的時(shí)間,計(jì)入8小時(shí)工作時(shí)間;人社局:不算工傷!法院判了

大風(fēng)新聞
2026-04-05 15:46:10
前英超球星納斯里逃稅翻車(chē)!一年212次巴黎外賣(mài)出賣(mài)了他

前英超球星納斯里逃稅翻車(chē)!一年212次巴黎外賣(mài)出賣(mài)了他

仰臥撐FTUer
2026-04-05 13:00:06
張柏芝英歌舞首秀殺瘋了!粉色戰(zhàn)袍剛?cè)岵?jì),這才是頂流有的底氣

張柏芝英歌舞首秀殺瘋了!粉色戰(zhàn)袍剛?cè)岵?jì),這才是頂流有的底氣

橙星文娛
2026-04-05 11:20:03
新冠后遺癥對(duì)人體的最大影響,很多人深受其害,有些人還不自知

新冠后遺癥對(duì)人體的最大影響,很多人深受其害,有些人還不自知

呼吸科大夫胡洋
2026-02-22 11:39:12
伊朗稱(chēng)擊落C-130運(yùn)輸機(jī)!美媒稱(chēng)2架運(yùn)輸機(jī)救援時(shí)發(fā)生故障“被困”,已被美軍炸毀!美國(guó)全球調(diào)撥隱身巡航導(dǎo)彈,伊朗追蹤美以戰(zhàn)機(jī)手段被曝光

伊朗稱(chēng)擊落C-130運(yùn)輸機(jī)!美媒稱(chēng)2架運(yùn)輸機(jī)救援時(shí)發(fā)生故障“被困”,已被美軍炸毀!美國(guó)全球調(diào)撥隱身巡航導(dǎo)彈,伊朗追蹤美以戰(zhàn)機(jī)手段被曝光

每日經(jīng)濟(jì)新聞
2026-04-05 14:16:07
上海電影院現(xiàn)場(chǎng)被捉奸,帶情夫當(dāng)老公面出軌,狗血女主角真容曝光

上海電影院現(xiàn)場(chǎng)被捉奸,帶情夫當(dāng)老公面出軌,狗血女主角真容曝光

靜若梨花
2026-03-01 16:25:46
輸不起?世界第1回應(yīng)被趙心童打崩:我皮頭有問(wèn)題 沒(méi)發(fā)揮真正實(shí)力

輸不起?世界第1回應(yīng)被趙心童打崩:我皮頭有問(wèn)題 沒(méi)發(fā)揮真正實(shí)力

風(fēng)過(guò)鄉(xiāng)
2026-04-06 07:24:29
體檢都出毛病了,連馬拉松參賽資格都被取消,當(dāng)事人硬是不信邪。

體檢都出毛病了,連馬拉松參賽資格都被取消,當(dāng)事人硬是不信邪。

歲月有情1314
2026-03-29 08:19:26
成大事的人,沒(méi)一個(gè)是靠自己做起來(lái)的。單打獨(dú)斗的人,最后都敗了

成大事的人,沒(méi)一個(gè)是靠自己做起來(lái)的。單打獨(dú)斗的人,最后都敗了

清風(fēng)拂心
2026-03-28 11:15:07
蘋(píng)果8號(hào)員工干了49年:裁員名單繞著他走,因?yàn)橘r不起

蘋(píng)果8號(hào)員工干了49年:裁員名單繞著他走,因?yàn)橘r不起

Ping值焦慮
2026-04-03 09:37:23
敵后無(wú)聲求救!美軍這款隱身救援神器拯救了F-15的飛行員

敵后無(wú)聲求救!美軍這款隱身救援神器拯救了F-15的飛行員

斯德哥爾摩的帕金森
2026-04-06 00:01:20
“失溫缺氧,有人裹垃圾袋保暖”,大量游客被困山頂!云南知名景區(qū)回應(yīng)

“失溫缺氧,有人裹垃圾袋保暖”,大量游客被困山頂!云南知名景區(qū)回應(yīng)

上觀新聞
2026-04-05 22:08:18
高210米,砸13億!廈門(mén)“礦泉水瓶大樓”即將建成!

高210米,砸13億!廈門(mén)“礦泉水瓶大樓”即將建成!

GA環(huán)球建筑
2026-04-05 23:51:33
54歲楊鈺瑩近況曝光:定居深圳,每天打理菜園子,生活平淡

54歲楊鈺瑩近況曝光:定居深圳,每天打理菜園子,生活平淡

小徐講八卦
2025-11-17 07:29:28
太過(guò)分!華人遭小孩歧視辱罵,街頭被暴打,有人竟當(dāng)場(chǎng)掏出長(zhǎng)刀

太過(guò)分!華人遭小孩歧視辱罵,街頭被暴打,有人竟當(dāng)場(chǎng)掏出長(zhǎng)刀

華人生活網(wǎng)
2026-04-06 04:32:27
東部戰(zhàn)區(qū)發(fā)海報(bào)!描繪統(tǒng)一后臺(tái)灣省清明節(jié)場(chǎng)景

東部戰(zhàn)區(qū)發(fā)海報(bào)!描繪統(tǒng)一后臺(tái)灣省清明節(jié)場(chǎng)景

看看新聞Knews
2026-04-03 23:47:04
川崎毫無(wú)征兆,車(chē)價(jià)暴降!張雪機(jī)車(chē)讓日系車(chē)商集體慌了!

川崎毫無(wú)征兆,車(chē)價(jià)暴降!張雪機(jī)車(chē)讓日系車(chē)商集體慌了!

達(dá)文西看世界
2026-04-05 20:14:06
路易小王子終于“學(xué)乖”!對(duì)祖母卡米拉保持恭敬,威廉凱特放心了

路易小王子終于“學(xué)乖”!對(duì)祖母卡米拉保持恭敬,威廉凱特放心了

青杉依舊啊啊
2026-04-05 21:56:54
2026-04-06 09:35:00
深思圈
深思圈
挖掘和深度分析海外最新AI產(chǎn)品,分享實(shí)用出海戰(zhàn)略
212文章數(shù) 10關(guān)注度
往期回顧 全部

科技要聞

花200薅5千算力,Claude冷血斷供“龍蝦”

頭條要聞

媒體:美軍營(yíng)救行動(dòng)耍了伊朗 中情局發(fā)假消息迷惑對(duì)方

頭條要聞

媒體:美軍營(yíng)救行動(dòng)耍了伊朗 中情局發(fā)假消息迷惑對(duì)方

體育要聞

CBA最老球員,身價(jià)7500萬(wàn)美元

娛樂(lè)要聞

王燦兮否認(rèn)婆媳不和 曬與杜淳媽合影

財(cái)經(jīng)要聞

誰(shuí)造出了優(yōu)思益這頭“怪物”?

汽車(chē)要聞

家用SUV沒(méi)駕駛樂(lè)趣?極氪8X第一個(gè)不同意

態(tài)度原創(chuàng)

親子
時(shí)尚
旅游
手機(jī)
本地

親子要聞

媳婦懷孕37周,寶寶體重6斤2兩,晚上腰疼的睡不著

伊姐清明熱推:電視劇《暴鋒雨》;電影《我,許可》......

旅游要聞

春和景明、踏青旅行——清明假期文旅市場(chǎng)觀察

手機(jī)要聞

三星闊折疊手機(jī)再曝,內(nèi)屏比例 4:3

本地新聞

跟著歌聲游安徽,聽(tīng)古村回響

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版