網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

獲1050萬美元種子投資，照片生成數(shù)字人，AI視頻聊天成下一風(fēng)口？

2025-12-29 14:21:52　來源: 揚(yáng)帆出海官方

北京舉報(bào)

分享至

作者丨以南

今年下半年，Sora的出現(xiàn)再次將AI視頻推至全球討論的焦點(diǎn)。基于用戶提供的圖像信息，AI能夠復(fù)刻人物形象，并生成高度逼真的視頻內(nèi)容，生成式視頻能力的邊界被進(jìn)一步延展。

隨著AI“生成”能力不斷成熟，視頻是否能夠進(jìn)一步承載更高層級(jí)的智能驅(qū)動(dòng)機(jī)制，正在成為行業(yè)關(guān)注的新方向。近日，一家創(chuàng)立約一年的初創(chuàng)AI公司Lemon Slice獲得了由Matrix Partners、Y Combinator領(lǐng)投的1050萬美元（折合人民幣約3.41億元）種子投資。與Sora聚焦的生產(chǎn)AI視頻內(nèi)容不同，Lemon Slice的方向，是將單一靜態(tài)圖像轉(zhuǎn)化為完全交互式的會(huì)話視頻角色，重點(diǎn)是在人與AI的交互。

Lemon Slice由Lina Colucci、Sidney Primas和Andrew Weitz聯(lián)合創(chuàng)立。三位創(chuàng)始人均長期深耕機(jī)器學(xué)習(xí)與產(chǎn)品落地，曾共同或分別創(chuàng)辦機(jī)器學(xué)習(xí)技術(shù)服務(wù)與產(chǎn)品型公司，其中，已有項(xiàng)目實(shí)現(xiàn)年收入數(shù)百萬美元規(guī)模，為團(tuán)隊(duì)提供了從算法研發(fā)到商業(yè)化變現(xiàn)的完整經(jīng)驗(yàn)。

當(dāng)產(chǎn)品需要進(jìn)一步切入教育、企業(yè)培訓(xùn)、客戶服務(wù)等場景，Lemon Slice對(duì)“虛擬數(shù)字人”的押注，可看作是在嘗試回答一個(gè)問題：在視頻生成能力已經(jīng)能夠復(fù)刻現(xiàn)實(shí)之后，AI的下一步進(jìn)化方向在哪里？

要理解這一邏輯，需要將視角從視頻生成本身，切換到AI Agent的進(jìn)化路徑上。

AI Agent進(jìn)化：

從“文本回復(fù)”到“Video Agent”

過去兩年，AI Agent已經(jīng)從實(shí)驗(yàn)室概念快速滲透進(jìn)各類商業(yè)形態(tài)中。Gartner 預(yù)計(jì)，到2026年約有40%的企業(yè)應(yīng)用將集成任務(wù)型AI代理（agentic AI）功能，這一比例遠(yuǎn)高于當(dāng)前水平。這種潛在的滲透速度，表明智能代理正逐漸從輔助工具向能夠執(zhí)行復(fù)雜任務(wù)的功能模塊演進(jìn)。

圖源：Gartner（2025年8月）

與此同時(shí)，Gartner還預(yù)測，到2030年約80%的企業(yè)軟件與應(yīng)用將具備多模態(tài)AI能力。這意味著未來企業(yè)級(jí)交互將不僅依賴文本和語音，還會(huì)涵蓋圖像、視頻等多種交互形式，從而推動(dòng)更豐富的用戶體驗(yàn)和業(yè)務(wù)流程革新。在這種趨勢下，交互效能本身開始成為影響AI應(yīng)用深度與長期留存的重要變量。

當(dāng)前，大多數(shù)AI Agent仍以文本或語音作為主要交互方式。盡管文本在信息組織與傳播成本方面具備優(yōu)勢，但在建立用戶信任、情感反饋和長期使用粘性方面存在一定局限，特別是在教育輔導(dǎo)、心理咨詢、客戶服務(wù)等對(duì)交互質(zhì)量要求較高的場景中，這種局限性更為顯著。

多項(xiàng)行業(yè)觀察顯示，相較于純文本互動(dòng)，視覺反饋與情感化的互動(dòng)媒介更有助于信息理解和心理投入，這也是業(yè)界開始重新審視視頻、動(dòng)態(tài)形象等更實(shí)時(shí)交互內(nèi)容的根本原因之一。

在這一背景下，視頻從“內(nèi)容消費(fèi)載體”逐步轉(zhuǎn)向可能的“交互載體”。它不僅承載信息輸出，還能同時(shí)反映表情、肢體語言與語音語調(diào)，這些因素共同拉近了人與AI之間“能看得到”的距離。當(dāng)AI Agent不再是單向的問答系統(tǒng)，而是具備“被觀察、被對(duì)話”的形態(tài)時(shí)，交互本身便成為了新的競爭變量。

一張圖即可創(chuàng)建數(shù)字人物

還能讓AI與AI面對(duì)面聊？

如果說AI Agent的上半場是在比拼“大腦”的智商，那么以Lemon Slice為代表的公司則試圖在“感官層”建立差異化。目前，平臺(tái)支持用戶創(chuàng)建寫實(shí)風(fēng)格、卡通風(fēng)格等各種類型的數(shù)字角色。從其產(chǎn)品架構(gòu)來看，Lemon Slice圍繞“實(shí)時(shí)可交互的視頻形象”這一核心能力，拆分出了兩條相對(duì)清晰的產(chǎn)品路徑。

Lemon Slice可創(chuàng)建的各種風(fēng)格數(shù)字角色

首先，是面向開發(fā)者與企業(yè)用戶的Video Agents（視頻智能體）。該產(chǎn)品的核心目標(biāo)，并非單純生成可展示的虛擬形象，而是為網(wǎng)站或應(yīng)用提供一個(gè)可嵌入、可對(duì)話、可接入業(yè)務(wù)邏輯的交互界面。企業(yè)還可以通過API或嵌入式組件，將生成的視頻形象直接部署到官網(wǎng)、產(chǎn)品后臺(tái)或業(yè)務(wù)系統(tǒng)中，使其承擔(dān)客服答疑、知識(shí)講解、流程引導(dǎo)等角色。

其次，是面向更廣泛創(chuàng)作者與個(gè)人用戶的Creative Studio（創(chuàng)意工作室）。這一功能強(qiáng)調(diào)“低門檻”和“可玩性”，用戶僅需上傳一張圖片和音頻，便可快速生成對(duì)應(yīng)的數(shù)字虛擬人，并進(jìn)一步用于AI視頻內(nèi)容創(chuàng)作。

與此同時(shí)，Lemon Slice還引入了多角色同場互動(dòng)的能力，允許用戶生成多個(gè)AI角色，并讓它們?cè)谕粓鼍爸羞M(jìn)行對(duì)話或互動(dòng)。

支撐Lemon Slice產(chǎn)品功能的是其自研的Lemon Slice-2視頻擴(kuò)散轉(zhuǎn)換器模型。在技術(shù)參數(shù)上，該模型規(guī)模為200億，雖然在參數(shù)量級(jí)上無法與通用的超大規(guī)模多模態(tài)模型相比，但其核心競爭力在于“能效比”。據(jù)悉，通過自回歸架構(gòu)，它能在單塊GPU上維持每秒20幀的實(shí)時(shí)生成。

在商業(yè)模式上，Lemon Slice采取了從Starter到Enterprise的分層訂閱制，向個(gè)人創(chuàng)作者、團(tuán)隊(duì)以及企業(yè)開放，月訂閱價(jià)格按級(jí)別依次為8美元/mo、40美元/mo、100美元/mo、240美元/mo。

給AI視頻“注入靈魂”

這個(gè)“虛擬人”有何不同？

將Video Agents與Creative Studio放在同一產(chǎn)品體系中來看，Lemon Slice的關(guān)鍵在于它如何圍繞實(shí)時(shí)視頻交互這一能力，構(gòu)建出一套可被反復(fù)調(diào)用的底層機(jī)制。

首先可以看到的是，它刻意壓縮了“從想法到可用形態(tài)”的距離。無論是企業(yè)將視頻智能體嵌入官網(wǎng)，還是個(gè)人用戶在創(chuàng)意工作室中生成虛擬角色，同樣基于單張圖像完成角色生成，同樣通過API或內(nèi)置邏輯驅(qū)動(dòng)對(duì)話與動(dòng)作。這種高度統(tǒng)一的生成與交互流程，使產(chǎn)品不必為不同使用人群維護(hù)多套系統(tǒng)，也讓視頻形象更像一種“隨取隨用”的能力模塊，而非一次性制作的內(nèi)容資產(chǎn)。

進(jìn)一步來看，Lemon Slice在場景適配上的選擇，同樣體現(xiàn)出對(duì)通用性的偏好。其視頻形象并未被限定在單一用途之中，而是通過全身動(dòng)作、語義驅(qū)動(dòng)與背景切換，在不同場景中完成快速遷移。對(duì)企業(yè)而言，這意味著同一視頻角色可以承擔(dān)客服、講解或培訓(xùn)等不同任務(wù)，依賴的是同一套實(shí)時(shí)生成與調(diào)度能力。

同時(shí)，多角色同場互動(dòng)的設(shè)計(jì)，也進(jìn)一步放大了這一能力的可擴(kuò)展性。當(dāng)多個(gè)AI角色能夠在同一畫面中進(jìn)行對(duì)話時(shí)，視頻開始具備多元化交互的可能性。對(duì)于內(nèi)容創(chuàng)作而言，這提供了更豐富的表達(dá)空間。而在實(shí)際應(yīng)用中，多角色之間的分工與協(xié)作，也為復(fù)雜流程的可視化呈現(xiàn)留下了接口。

在這些設(shè)計(jì)背后，視頻并未被當(dāng)作最終內(nèi)容，而更像是一種持續(xù)運(yùn)轉(zhuǎn)的交互狀態(tài)。角色的表情、動(dòng)作、語音與對(duì)話邏輯被同時(shí)調(diào)度，使用戶無論是“觀看”還是“對(duì)話”，都處在同一個(gè)系統(tǒng)之內(nèi)。

從這一層面來看，Lemon Slice所嘗試的，更多是圍繞“視頻是否可以成為一種長期存在的交互形態(tài)”這一問題，給出了一個(gè)工程化的實(shí)現(xiàn)路徑。

結(jié)語

Lemon Slice聯(lián)合創(chuàng)始人兼CEOLina Colucci認(rèn)為：“人們對(duì)人工智能虛擬形象的主要抱怨是它們?nèi)狈φ鎸?shí)感，降低了價(jià)值。未來，所有視頻都將是互動(dòng)式的，并根據(jù)觀看者的需求進(jìn)行個(gè)性化定制。”從這一觀點(diǎn)出發(fā)，Lemon Slice正在圍繞一個(gè)更具體的問題展開：當(dāng)模型能力逐漸標(biāo)準(zhǔn)化，視頻是否可以成為一種真正可被反復(fù)使用的交互形態(tài)，從單圖生成、實(shí)時(shí)對(duì)話到多角色同場互動(dòng)，其產(chǎn)品路徑更像是在不斷壓縮“技術(shù)復(fù)雜度”與“實(shí)際可用性”之間的距離。

在這一過程中，視頻不再只是內(nèi)容的呈現(xiàn)方式，而被重新放置到交互鏈路之中。至于這種形態(tài)最終會(huì)在多少場景中成立，或許仍有待時(shí)間驗(yàn)證，但可以確定的是，圍繞交互形式、用戶體驗(yàn)、用戶感官的重新設(shè)計(jì)，已經(jīng)開始成為AI應(yīng)用中不可回避的一部分。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.