![]()
“從AI的具像化方向看,一種身體形態(tài)是具身領(lǐng)域的‘藍(lán)領(lǐng)’,即人形機(jī)器人,而另一種形態(tài)就是3D數(shù)字人,即AI‘白領(lǐng)’。我認(rèn)為,未來(lái)‘白領(lǐng)’的應(yīng)用空間會(huì)更加廣闊。”
在人形機(jī)器人及其組件如火如荼的當(dāng)下,魔琺科技創(chuàng)始人兼CEO柴金祥提出了AI影響產(chǎn)業(yè)和社會(huì)的另一種可能——通過(guò)3D數(shù)字人,讓AI在線上也擁有“身體”。
近日,魔琺科技(Xmov)宣布正式上線具身智能3D數(shù)字人開放平臺(tái)——魔琺星云。作為全球首個(gè)高質(zhì)量、低時(shí)延、高并發(fā)、低成本、多終端的具身智能3D數(shù)字人開放平臺(tái),魔琺星云基于魔琺科技自主研發(fā)的文生多模態(tài)3D大模型及云-端協(xié)同架構(gòu),突破了傳統(tǒng)數(shù)字人技術(shù)在質(zhì)量、成本、延時(shí)之間的鐵三角難題,不僅實(shí)現(xiàn)了從語(yǔ)義到身體語(yǔ)言的自然生成,更在系統(tǒng)架構(gòu)層面完成了性能、成本和響應(yīng)速度的協(xié)同優(yōu)化,讓AI完成了從“大腦”到“身體”的進(jìn)化。
柴金祥認(rèn)為,魔琺星云有望成為驅(qū)動(dòng)下一代人機(jī)交互——即“多模態(tài)具身交互”的關(guān)鍵底層基礎(chǔ)設(shè)施,對(duì)未來(lái)的人機(jī)交互模式、數(shù)字內(nèi)容創(chuàng)作和服務(wù)行業(yè)產(chǎn)生深遠(yuǎn)影響,為整個(gè)行業(yè)帶來(lái)重大變革。
魔琺星云發(fā)布現(xiàn)場(chǎng),「明亮公司」與柴金祥就3D數(shù)字人目前的行業(yè)進(jìn)展、未來(lái)展望等進(jìn)行了交流。以下為問(wèn)答精選(根據(jù)需求有表述調(diào)整):
![]()
成為3D數(shù)字人的「基礎(chǔ)設(shè)施」
Q:為什么要選擇做開放平臺(tái)?
柴金祥:目前來(lái)看,我們的數(shù)字人產(chǎn)品在行業(yè)中相對(duì)而言成本更低、質(zhì)量更好,各方面領(lǐng)先優(yōu)勢(shì)都比較明顯。
這種情況下,對(duì)于有實(shí)際需求的公司而言,選擇大投入自主研發(fā)的結(jié)果未必更好,甚至無(wú)法保證質(zhì)量,倒不如擁抱我們的生態(tài),利用我們的平臺(tái)做自己的應(yīng)用。這也是我們選擇對(duì)平臺(tái)進(jìn)行開放的原因。
本質(zhì)上講,我們做的是基礎(chǔ)設(shè)施。如同大模型是AI技術(shù)層的基礎(chǔ)設(shè)施,3D數(shù)字人作為AI“身體”的一種形態(tài),也需要一個(gè)基礎(chǔ)設(shè)施,我們稱之為人形機(jī)器人中的“白領(lǐng)”,對(duì)應(yīng)當(dāng)前具身領(lǐng)域的“藍(lán)領(lǐng)”人形機(jī)器人。
另外,選擇將平臺(tái)開放給開發(fā)者還有一層原因,即如今很多公司都在重復(fù)“造輪子”——大家不僅重復(fù)招人,而且花很多錢做出來(lái)的東西卻沒有我們效果好,這是一種隱形的浪費(fèi)和低效。一個(gè)公司不是每件事情都要親自去做,大模型已經(jīng)驗(yàn)證了這一點(diǎn),大多數(shù)公司只要調(diào)用其能力即可,無(wú)需自建,這樣也可以把關(guān)注點(diǎn)有效聚焦在應(yīng)用層。
Q:目前具身智能領(lǐng)域,數(shù)據(jù)短缺情況依舊比較嚴(yán)重。你們是如何解決數(shù)據(jù)規(guī)模這一問(wèn)題的?
柴金祥:從AI的角度看,“大腦”方面的數(shù)據(jù)獲取,在起步階段相對(duì)容易,畢竟互聯(lián)網(wǎng)上已經(jīng)存在大量數(shù)據(jù)資源。即便是Sora,其基本數(shù)據(jù)獲取也可以通過(guò)抓取海量網(wǎng)絡(luò)視頻和圖片完成。
但加入“具身”之后,數(shù)據(jù)一下子就變得稀缺了。即便是非常簡(jiǎn)單的數(shù)據(jù),比如抓杯子、疊衣服,都要進(jìn)行反復(fù)采集,因?yàn)檫@些數(shù)據(jù)從來(lái)沒有過(guò),需要從0開始積累。同樣,作為AI另一種“身體”形態(tài),3D數(shù)字人的數(shù)據(jù)也是非常稀缺的,需要一點(diǎn)點(diǎn)去構(gòu)建起來(lái)。
而且,目前絕大多數(shù)人形機(jī)器人公司以前做的都是單點(diǎn)動(dòng)作抓取,這也是為什么擴(kuò)展至人體動(dòng)作數(shù)據(jù)之后,人才缺乏的原因之一。
從積極的角度看,3D數(shù)字人的數(shù)據(jù)相較于視頻更加結(jié)構(gòu)化,只要采集到人體關(guān)鍵的動(dòng)作數(shù)據(jù)即可。整體而言,完全描述人體動(dòng)作需要的數(shù)據(jù)比生成視頻和圖片的量要小很多,而且我們也可以通過(guò)采用2D的數(shù)據(jù)對(duì)其進(jìn)行豐富,如同仿真數(shù)據(jù)對(duì)真實(shí)數(shù)據(jù)的補(bǔ)充一樣。
但這并不意味著3D數(shù)字人的制作就更容易,因?yàn)檫@個(gè)領(lǐng)域的難題并非僅僅是數(shù)據(jù)量,還有數(shù)據(jù)更難處理、人才較少等其他維度的困難。
我們會(huì)很快發(fā)布一個(gè)大模型,其中包括數(shù)字人可以任意走路的功能。比如,你可以告訴它往前走5步,趴下,然后再爬起來(lái)。當(dāng)然,我們可以直接把人形機(jī)器人領(lǐng)域的數(shù)據(jù)拿來(lái)進(jìn)行仿真,重復(fù)已有數(shù)據(jù)的動(dòng)作,但我們的優(yōu)勢(shì)在于,可以讓數(shù)字人自主行動(dòng),自主站立自主行走,無(wú)需遙控。
在落地方面,今天的“大腦”已經(jīng)很強(qiáng)了,相較于具身的人形機(jī)器人,我覺得讓AI“白領(lǐng)”擁有身體非常重要,比如一個(gè)展廳,有一個(gè)3D數(shù)字人講解和只用一臺(tái)講解器,體驗(yàn)的差別是非常大的。
![]()
數(shù)據(jù)積累方面已具備先發(fā)優(yōu)勢(shì)
Q:是否可以理解成,AI未來(lái)會(huì)有兩個(gè)方向,一條在線下,沿著具身機(jī)器人方向走,主要承擔(dān)“藍(lán)領(lǐng)”工作,另一條在線上,即3D數(shù)字人,主要負(fù)責(zé)“白領(lǐng)”工作。
柴金祥:是的,但長(zhǎng)遠(yuǎn)來(lái)看,這兩條線也會(huì)統(tǒng)一。
從實(shí)際需求看,現(xiàn)實(shí)中的一個(gè)白領(lǐng)在虛擬世界里也可以成為一個(gè)“藍(lán)領(lǐng)”,乃至其他任何角色,而我們?yōu)樘摂M世界打造的每個(gè)數(shù)字人角色,未來(lái)都有可能直接驅(qū)動(dòng)現(xiàn)實(shí)中的機(jī)器人,讓它們實(shí)現(xiàn)相同的動(dòng)作,推動(dòng)AI從虛擬走向現(xiàn)實(shí)。
雖然直到目前行業(yè)對(duì)具身機(jī)器人的熱情仍舊比較高,但我認(rèn)為,隨著大家在虛擬世界中的時(shí)間越來(lái)越長(zhǎng),AI“白領(lǐng)”的空間將比“藍(lán)領(lǐng)”更廣闊。而且作為藍(lán)領(lǐng)的具身機(jī)器人,訓(xùn)練難度可能相對(duì)還小一點(diǎn),比如一個(gè)動(dòng)作只要采集到數(shù)據(jù)、反復(fù)訓(xùn)練即可,但“白領(lǐng)”數(shù)字人需要的能力更豐富,要想做好更困難,但我認(rèn)為也更有價(jià)值。
Q:就3D數(shù)字人領(lǐng)域而言,如果一個(gè)公司想躋身頭部,最重要的能力有哪些?
柴金祥:我覺得大致可以總結(jié)為三個(gè)維度。
首先,公司和團(tuán)隊(duì)必須要堅(jiān)定。因?yàn)檫@是一件很難的事情,我們不僅要意識(shí)到它的重要性和難度,更要看到它的未來(lái)和長(zhǎng)期價(jià)值;其次是質(zhì)量,這是最基礎(chǔ)的能力。
再次,要有數(shù)據(jù)和強(qiáng)勁的美術(shù)能力。與大模型所需的數(shù)據(jù)相比,3D數(shù)據(jù)可能是最高質(zhì)量的數(shù)據(jù)之一,我們用了大約十年的時(shí)間才構(gòu)建起目前這個(gè)規(guī)模的數(shù)據(jù)庫(kù)。這個(gè)價(jià)值點(diǎn)在于,即便是大廠,積累這些數(shù)據(jù)也需要經(jīng)歷這樣漫長(zhǎng)的過(guò)程和同樣的時(shí)間。從這個(gè)角度而言,我們起步早無(wú)疑具有先發(fā)優(yōu)勢(shì)。
單純看數(shù)字人,門檻其實(shí)很低,但有些可能只有對(duì)口型的功能,不僅無(wú)法生產(chǎn)數(shù)字人的動(dòng)作,更不能驅(qū)動(dòng)人形機(jī)器人。這也是為什么2D數(shù)字人幾乎沒有市場(chǎng),客戶也不愿買單,因?yàn)樾Ч_實(shí)比較差。
此外,即便具備相對(duì)充足的數(shù)據(jù),從團(tuán)隊(duì)的角度看,做3D內(nèi)容生產(chǎn)和AI生成結(jié)合的人才目前依舊非常稀缺。尤其是動(dòng)作表情,全世界范圍內(nèi)的專業(yè)人才都很少,所以公司不僅要大膽招聘人才,更要持續(xù)培養(yǎng)人才。
Q:人才稀缺的原因有哪些?
柴金祥:一個(gè)主要原因是,這個(gè)行業(yè)的前身是影視動(dòng)畫游戲,這些人才中懂AI的很少,而近幾年新興的AI人才,又很少懂影視動(dòng)畫游戲和3D制作。這兩條線不僅數(shù)據(jù)不交叉,人才也不交叉。
實(shí)際上,包括阿里、騰訊、百度、商湯、訊飛等在內(nèi)的大廠,都曾親自上陣做過(guò)3D數(shù)字人,但目前堅(jiān)持下來(lái)的很少,僅剩幾個(gè)仍在繼續(xù)的公司做得也不太好。大家可能做個(gè)兩三年就會(huì)發(fā)現(xiàn)這件事很難,投入很高也不一定達(dá)到預(yù)期。
因?yàn)檫@件事不像文生文、文生圖那么簡(jiǎn)單,拿到一個(gè)通用大模型改一下就可以。如果沒有數(shù)據(jù)、沒有長(zhǎng)期的積累,幾乎寸步難行。
![]()
商業(yè)化市場(chǎng)已達(dá)一定成熟度
Q:經(jīng)過(guò)近幾年發(fā)展,AI在提升客戶付費(fèi)意愿方面有何變化,是否有一些案例?
柴金祥:以醫(yī)院場(chǎng)景為例,其中有一些垂直供應(yīng)商,負(fù)責(zé)為醫(yī)院提供終端產(chǎn)品、軟件等服務(wù)。這些客戶一個(gè)個(gè)拓展是非常慢的,所以我們就直接輸出底層能力,比如在終端實(shí)現(xiàn)提問(wèn)、掛號(hào)、付費(fèi)等,他們可以直接調(diào)用我們的API,都不需要額外加價(jià)。
但其中有個(gè)前提,就是我們本身的規(guī)模化程度,包括是否能部署到各種終端、是否足夠便宜、是否足夠易用等。原因很簡(jiǎn)單,對(duì)于軟件產(chǎn)品而言,如果想讓別人購(gòu)買使用,首先要做到人無(wú)我有,尤其是大廠不能有,否則肯定會(huì)被虹吸;其次要質(zhì)量過(guò)硬,且易得易用。
另外,低成本、高并發(fā)、多終端以及信創(chuàng)等都要同時(shí)跟上,否則規(guī)模化一定會(huì)有問(wèn)題,即便客戶很想用,但可能會(huì)因?yàn)樘F,或者響應(yīng)時(shí)間太長(zhǎng),或者沒法實(shí)現(xiàn)終端產(chǎn)品的提升等原因放棄購(gòu)買。
從應(yīng)用看,如同大模型的發(fā)展路徑一樣,未來(lái)AI不僅一定會(huì)需要3D數(shù)字人這樣的“身體”,更需要一個(gè)可以隨時(shí)調(diào)用的基礎(chǔ)設(shè)施去優(yōu)化資源配置并提升效率。一方面,像陪練、教學(xué)、面試甚至銀行服務(wù)等很多場(chǎng)景,有沒有“身體”帶來(lái)的差異體驗(yàn)會(huì)非常大。以后甚至不會(huì)有APP,所有的服務(wù)都直接由一個(gè)數(shù)字人來(lái)完成。
另一方面,大模型是必須的,但做大模型是有門檻的,這方面我們具備更多積累和先發(fā)優(yōu)勢(shì)。從語(yǔ)言模型到動(dòng)作模型,數(shù)據(jù)能力變得更垂直,有了數(shù)據(jù)之后如何復(fù)制人類的感知能力又極為關(guān)鍵。
從商業(yè)化前景上看,我們認(rèn)為市場(chǎng)也已經(jīng)達(dá)到一定的成熟度。而且,決定做3D數(shù)字人基礎(chǔ)設(shè)施這件事時(shí),我門就已經(jīng)考察過(guò)應(yīng)用場(chǎng)景,比如賽諾菲就已經(jīng)開始使用。
換言之,如果市場(chǎng)中多數(shù)企業(yè)沒有相關(guān)預(yù)算和費(fèi)用,那我們做再多投入也不會(huì)產(chǎn)生很大價(jià)值。
Q:目前商業(yè)化應(yīng)用的領(lǐng)域與幾年前相比,是否有一些變化?
柴金祥:差不多,只是可能服務(wù)不一樣。我們成為底層能力后,就可以覆蓋所有行業(yè),而且可以做到以前無(wú)法實(shí)現(xiàn)的功能,比如聊天機(jī)器人。
陪伴這個(gè)領(lǐng)域,現(xiàn)在大多是沒有真人形象或者形象很簡(jiǎn)單的產(chǎn)品,一旦我們可以輸出這種能力,這類產(chǎn)品就可以馬上調(diào)用,跟調(diào)用大模型一樣簡(jiǎn)單。
醫(yī)院場(chǎng)景也一樣,以前我們是沒法做的,因?yàn)槠渲械慕K端設(shè)備芯片能力太弱了,比手機(jī)差很多。
但魔琺星云有個(gè)很重要的特點(diǎn)就是,百元芯片也能跑,而且能保證質(zhì)量,因?yàn)槲覀?/strong>有自研的文生多模態(tài)3D大模型和云-端拆分的架構(gòu)創(chuàng)新。也正因此,應(yīng)用場(chǎng)景中對(duì)終端屏幕的要求可以不必很高,從而實(shí)現(xiàn)了規(guī)模化商業(yè)化的必要條件。
還有銀行,其中的自助終端目前保有量約200萬(wàn)臺(tái),如果要把這些都升級(jí)為AI終端并達(dá)到智能體70%的普及率,這個(gè)市場(chǎng)將非常可觀,而類似的場(chǎng)景還有很多。
酒店里電視機(jī)其實(shí)也是一個(gè)典型場(chǎng)景,雖然市場(chǎng)很大,但以前由于設(shè)備太差根本跑不動(dòng),也沒法做到規(guī)模化。就像如果大模型的token價(jià)格不是迅速降低,那么目前大多數(shù)終端也不會(huì)沾到邊,可見便宜是多么重要。
對(duì)于我們來(lái)講,很多市場(chǎng)是真實(shí)存在、等待開發(fā)的,核心在于有沒有能力做到足夠便宜,質(zhì)量足夠好,體驗(yàn)足夠好。這也是我們一直追求的目標(biāo)。
![]()
在海外,輸出能力比輸出產(chǎn)品更有效
Q:目前海外進(jìn)展情況如何?
柴金祥:魔琺星云預(yù)計(jì)兩三周以后會(huì)在海外上線。
軟件產(chǎn)品在海外做B端其實(shí)蠻難的,因?yàn)楦哂?萬(wàn)美金的訂單基本上都要線下做,這導(dǎo)致軟件類產(chǎn)品很難規(guī)模化,而且準(zhǔn)入門檻也很高。但如果是輸出一個(gè)“能力”,就相對(duì)比較容易,任何公司只要在線上調(diào)試好效果即可,所以規(guī)模化也相對(duì)簡(jiǎn)單。
截至目前,中國(guó)似乎很少有成功全球化的軟件產(chǎn)品,但DeepSeek作為大模型這種“基礎(chǔ)設(shè)施”,通過(guò)開源的方式就迅速實(shí)現(xiàn)了大規(guī)模的全球化應(yīng)用。
所以,如果你的技術(shù)非常強(qiáng),又真正做到了應(yīng)用,就應(yīng)該成為基礎(chǔ)設(shè)施。但要避開大廠的能力,否則如果在成本、易用性上面沒有優(yōu)勢(shì),必定會(huì)很快被大廠吞沒。
Q:海外是否有已經(jīng)觸達(dá)的場(chǎng)景?
柴金祥:我們此前已經(jīng)積累了不少服務(wù)在華外企的經(jīng)驗(yàn),驗(yàn)證了我們的底層的能力,比如Chatbot、陪練模型等。這些東西放到美國(guó)也有很大需求,尤其比如銷售、陪練甚至客服、面試等領(lǐng)域,可能需求比國(guó)內(nèi)還要大,但們海外很多國(guó)家現(xiàn)在還不具備這方面的能力,所以我們要做的就是去觸達(dá)各行各業(yè)。
另外,有些行業(yè)可能已經(jīng)具備了一些智能體,但這些智能體既沒有形象也沒有身體,又或者他們已經(jīng)調(diào)用了某個(gè)大模型,但也是只有大腦沒有身體,這些都是我們可以拓展的空間。
Q:海外上線的第一站會(huì)選在哪里?
柴金祥:我們會(huì)直接全球同步上線。在產(chǎn)品設(shè)計(jì)研發(fā)階段,我們就已經(jīng)植入了全球各地的語(yǔ)言和形象,但未來(lái)主打市場(chǎng)可能還是希望在美國(guó)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.