![]()
作者丨以南
今年下半年,Sora的出現(xiàn)再次將AI視頻推至全球討論的焦點(diǎn)。基于用戶提供的圖像信息,AI能夠復(fù)刻人物形象,并生成高度逼真的視頻內(nèi)容,生成式視頻能力的邊界被進(jìn)一步延展。
隨著AI“生成”能力不斷成熟,視頻是否能夠進(jìn)一步承載更高層級(jí)的智能驅(qū)動(dòng)機(jī)制,正在成為行業(yè)關(guān)注的新方向。近日,一家創(chuàng)立約一年的初創(chuàng)AI公司Lemon Slice獲得了由Matrix Partners、Y Combinator領(lǐng)投的1050萬美元(折合人民幣約3.41億元)種子投資。與Sora聚焦的生產(chǎn)AI視頻內(nèi)容不同,Lemon Slice的方向,是將單一靜態(tài)圖像轉(zhuǎn)化為完全交互式的會(huì)話視頻角色,重點(diǎn)是在人與AI的交互。
Lemon Slice由Lina Colucci、Sidney Primas和Andrew Weitz聯(lián)合創(chuàng)立。三位創(chuàng)始人均長期深耕機(jī)器學(xué)習(xí)與產(chǎn)品落地,曾共同或分別創(chuàng)辦機(jī)器學(xué)習(xí)技術(shù)服務(wù)與產(chǎn)品型公司,其中,已有項(xiàng)目實(shí)現(xiàn)年收入數(shù)百萬美元規(guī)模,為團(tuán)隊(duì)提供了從算法研發(fā)到商業(yè)化變現(xiàn)的完整經(jīng)驗(yàn)。
當(dāng)產(chǎn)品需要進(jìn)一步切入教育、企業(yè)培訓(xùn)、客戶服務(wù)等場景,Lemon Slice對(duì)“虛擬數(shù)字人”的押注,可看作是在嘗試回答一個(gè)問題:在視頻生成能力已經(jīng)能夠復(fù)刻現(xiàn)實(shí)之后,AI的下一步進(jìn)化方向在哪里?
要理解這一邏輯,需要將視角從視頻生成本身,切換到AI Agent的進(jìn)化路徑上。
AI Agent進(jìn)化:
從“文本回復(fù)”到“Video Agent”
過去兩年,AI Agent已經(jīng)從實(shí)驗(yàn)室概念快速滲透進(jìn)各類商業(yè)形態(tài)中。Gartner 預(yù)計(jì),到2026年約有40%的企業(yè)應(yīng)用將集成任務(wù)型AI代理(agentic AI)功能,這一比例遠(yuǎn)高于當(dāng)前水平。這種潛在的滲透速度,表明智能代理正逐漸從輔助工具向能夠執(zhí)行復(fù)雜任務(wù)的功能模塊演進(jìn)。
![]()
圖源:Gartner(2025年8月)
與此同時(shí),Gartner還預(yù)測,到2030年約80%的企業(yè)軟件與應(yīng)用將具備多模態(tài)AI能力。這意味著未來企業(yè)級(jí)交互將不僅依賴文本和語音,還會(huì)涵蓋圖像、視頻等多種交互形式,從而推動(dòng)更豐富的用戶體驗(yàn)和業(yè)務(wù)流程革新。在這種趨勢下,交互效能本身開始成為影響AI應(yīng)用深度與長期留存的重要變量。
當(dāng)前,大多數(shù)AI Agent仍以文本或語音作為主要交互方式。盡管文本在信息組織與傳播成本方面具備優(yōu)勢,但在建立用戶信任、情感反饋和長期使用粘性方面存在一定局限,特別是在教育輔導(dǎo)、心理咨詢、客戶服務(wù)等對(duì)交互質(zhì)量要求較高的場景中,這種局限性更為顯著。
多項(xiàng)行業(yè)觀察顯示,相較于純文本互動(dòng),視覺反饋與情感化的互動(dòng)媒介更有助于信息理解和心理投入,這也是業(yè)界開始重新審視視頻、動(dòng)態(tài)形象等更實(shí)時(shí)交互內(nèi)容的根本原因之一。
在這一背景下,視頻從“內(nèi)容消費(fèi)載體”逐步轉(zhuǎn)向可能的“交互載體”。它不僅承載信息輸出,還能同時(shí)反映表情、肢體語言與語音語調(diào),這些因素共同拉近了人與AI之間“能看得到”的距離。當(dāng)AI Agent不再是單向的問答系統(tǒng),而是具備“被觀察、被對(duì)話”的形態(tài)時(shí),交互本身便成為了新的競爭變量。
一張圖即可創(chuàng)建數(shù)字人物
還能讓AI與AI面對(duì)面聊?
如果說AI Agent的上半場是在比拼“大腦”的智商,那么以Lemon Slice為代表的公司則試圖在“感官層”建立差異化。目前,平臺(tái)支持用戶創(chuàng)建寫實(shí)風(fēng)格、卡通風(fēng)格等各種類型的數(shù)字角色。從其產(chǎn)品架構(gòu)來看,Lemon Slice圍繞“實(shí)時(shí)可交互的視頻形象”這一核心能力,拆分出了兩條相對(duì)清晰的產(chǎn)品路徑。
![]()
Lemon Slice可創(chuàng)建的各種風(fēng)格數(shù)字角色
首先,是面向開發(fā)者與企業(yè)用戶的Video Agents(視頻智能體)。該產(chǎn)品的核心目標(biāo),并非單純生成可展示的虛擬形象,而是為網(wǎng)站或應(yīng)用提供一個(gè)可嵌入、可對(duì)話、可接入業(yè)務(wù)邏輯的交互界面。企業(yè)還可以通過API或嵌入式組件,將生成的視頻形象直接部署到官網(wǎng)、產(chǎn)品后臺(tái)或業(yè)務(wù)系統(tǒng)中,使其承擔(dān)客服答疑、知識(shí)講解、流程引導(dǎo)等角色。
![]()
其次,是面向更廣泛創(chuàng)作者與個(gè)人用戶的Creative Studio(創(chuàng)意工作室)。這一功能強(qiáng)調(diào)“低門檻”和“可玩性”,用戶僅需上傳一張圖片和音頻,便可快速生成對(duì)應(yīng)的數(shù)字虛擬人,并進(jìn)一步用于AI視頻內(nèi)容創(chuàng)作。
![]()
與此同時(shí),Lemon Slice還引入了多角色同場互動(dòng)的能力,允許用戶生成多個(gè)AI角色,并讓它們?cè)谕粓鼍爸羞M(jìn)行對(duì)話或互動(dòng)。
![]()
支撐Lemon Slice產(chǎn)品功能的是其自研的Lemon Slice-2視頻擴(kuò)散轉(zhuǎn)換器模型。在技術(shù)參數(shù)上,該模型規(guī)模為200億,雖然在參數(shù)量級(jí)上無法與通用的超大規(guī)模多模態(tài)模型相比,但其核心競爭力在于“能效比”。據(jù)悉,通過自回歸架構(gòu),它能在單塊GPU上維持每秒20幀的實(shí)時(shí)生成。
![]()
在商業(yè)模式上,Lemon Slice采取了從Starter到Enterprise的分層訂閱制,向個(gè)人創(chuàng)作者、團(tuán)隊(duì)以及企業(yè)開放,月訂閱價(jià)格按級(jí)別依次為8美元/mo、40美元/mo、100美元/mo、240美元/mo。
![]()
給AI視頻“注入靈魂”
這個(gè)“虛擬人”有何不同?
將Video Agents與Creative Studio放在同一產(chǎn)品體系中來看,Lemon Slice的關(guān)鍵在于它如何圍繞實(shí)時(shí)視頻交互這一能力,構(gòu)建出一套可被反復(fù)調(diào)用的底層機(jī)制。
首先可以看到的是,它刻意壓縮了“從想法到可用形態(tài)”的距離。無論是企業(yè)將視頻智能體嵌入官網(wǎng),還是個(gè)人用戶在創(chuàng)意工作室中生成虛擬角色,同樣基于單張圖像完成角色生成,同樣通過API或內(nèi)置邏輯驅(qū)動(dòng)對(duì)話與動(dòng)作。這種高度統(tǒng)一的生成與交互流程,使產(chǎn)品不必為不同使用人群維護(hù)多套系統(tǒng),也讓視頻形象更像一種“隨取隨用”的能力模塊,而非一次性制作的內(nèi)容資產(chǎn)。
進(jìn)一步來看,Lemon Slice在場景適配上的選擇,同樣體現(xiàn)出對(duì)通用性的偏好。其視頻形象并未被限定在單一用途之中,而是通過全身動(dòng)作、語義驅(qū)動(dòng)與背景切換,在不同場景中完成快速遷移。對(duì)企業(yè)而言,這意味著同一視頻角色可以承擔(dān)客服、講解或培訓(xùn)等不同任務(wù),依賴的是同一套實(shí)時(shí)生成與調(diào)度能力。
同時(shí),多角色同場互動(dòng)的設(shè)計(jì),也進(jìn)一步放大了這一能力的可擴(kuò)展性。當(dāng)多個(gè)AI角色能夠在同一畫面中進(jìn)行對(duì)話時(shí),視頻開始具備多元化交互的可能性。對(duì)于內(nèi)容創(chuàng)作而言,這提供了更豐富的表達(dá)空間。而在實(shí)際應(yīng)用中,多角色之間的分工與協(xié)作,也為復(fù)雜流程的可視化呈現(xiàn)留下了接口。
在這些設(shè)計(jì)背后,視頻并未被當(dāng)作最終內(nèi)容,而更像是一種持續(xù)運(yùn)轉(zhuǎn)的交互狀態(tài)。角色的表情、動(dòng)作、語音與對(duì)話邏輯被同時(shí)調(diào)度,使用戶無論是“觀看”還是“對(duì)話”,都處在同一個(gè)系統(tǒng)之內(nèi)。
從這一層面來看,Lemon Slice所嘗試的,更多是圍繞“視頻是否可以成為一種長期存在的交互形態(tài)”這一問題,給出了一個(gè)工程化的實(shí)現(xiàn)路徑。
結(jié)語
Lemon Slice聯(lián)合創(chuàng)始人兼CEOLina Colucci認(rèn)為:“人們對(duì)人工智能虛擬形象的主要抱怨是它們?nèi)狈φ鎸?shí)感,降低了價(jià)值。未來,所有視頻都將是互動(dòng)式的,并根據(jù)觀看者的需求進(jìn)行個(gè)性化定制。”從這一觀點(diǎn)出發(fā),Lemon Slice正在圍繞一個(gè)更具體的問題展開:當(dāng)模型能力逐漸標(biāo)準(zhǔn)化,視頻是否可以成為一種真正可被反復(fù)使用的交互形態(tài),從單圖生成、實(shí)時(shí)對(duì)話到多角色同場互動(dòng),其產(chǎn)品路徑更像是在不斷壓縮“技術(shù)復(fù)雜度”與“實(shí)際可用性”之間的距離。
在這一過程中,視頻不再只是內(nèi)容的呈現(xiàn)方式,而被重新放置到交互鏈路之中。至于這種形態(tài)最終會(huì)在多少場景中成立,或許仍有待時(shí)間驗(yàn)證,但可以確定的是,圍繞交互形式、用戶體驗(yàn)、用戶感官的重新設(shè)計(jì),已經(jīng)開始成為AI應(yīng)用中不可回避的一部分。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.