文|富充
編輯|蘇建勛
創(chuàng)業(yè)滿一年,唐文斌的身上依舊保留著曠視時期的印記,在和我們的對話中,他時常說到“本質(zhì)”這個詞——那是曠視內(nèi)部的一個“流行詞”。
清華“姚班”畢業(yè)之后,唐文斌和同學(xué)印奇、楊沐在2011年創(chuàng)辦了曠視科技。在這家AI 1.0標(biāo)志性企業(yè)中,人們喜歡追問“本質(zhì)”。
創(chuàng)業(yè)曠視的14年里,唐文斌經(jīng)歷了AI 1.0浪潮的完整起伏。從高歌猛進(jìn)的業(yè)務(wù)擴(kuò)展,到屢次與上市失之交臂,這些經(jīng)歷也打磨著他對“本質(zhì)”的理解。
關(guān)于對曠視最重要的反思,唐文斌認(rèn)為是攤子不要鋪得太大,而是應(yīng)該先集中全力,把一個最有優(yōu)勢的業(yè)務(wù)做透。
近來履新階躍星辰董事長的印奇,在不久前的采訪中也有過類似表達(dá)——商業(yè)模式本質(zhì)上是做排除法。看過了熱鬧,大家更清楚一個道理:與其做很多事,不如想清楚什么不做。
2025年3月,唐文斌創(chuàng)辦具身智能公司原力靈機(jī)。二次創(chuàng)業(yè)中,唐文斌更會做減法了。
過去一年中,原力靈機(jī)沒有跟業(yè)界一起卷訂單規(guī)模,也沒有急著推出一個“軟硬全棧”的故事提升估值。
原力靈機(jī)的第一年,把主要精力放在模型開發(fā),以及數(shù)據(jù)、框架、評測等AI基礎(chǔ)設(shè)施工作上。因?yàn)樵谔莆谋罂磥恚@些是決定迭代效率的基礎(chǔ)。
“一直跑在前面”的迭代能力,和“短暫的領(lǐng)先”相比,是更本質(zhì)的競爭力。
當(dāng)被問及會不會因?yàn)楣?jié)奏“慢”,而受到投資人壓力時,唐文斌對《智能涌現(xiàn)》說:“有些公司確實(shí)通過一些浮夸的方式獲得了不錯的收益,我們也困惑過,要不要也這樣做。但后來想明白了,我不是很喜歡講我不信的話,也無法成為我不想成為的人。”
他把自己這些年的變化概括成三個階段:“初生牛犢不怕虎”的盲目自信,被現(xiàn)實(shí)教育后“覺得很多事情不知道怎么做”的迷茫,以及如今抵達(dá)的“謙虛的自信”——知道自己知道什么,也非常清楚自己不知道什么。
用AGI通用機(jī)器人開啟生產(chǎn)力極大富足的時代,是唐文斌當(dāng)下心中的星辰大海。不過,這一次的落點(diǎn)更腳踏實(shí)地:隨著模型能力提升逐個解鎖場景,先把自己在曠視時期就有積累的物流業(yè)務(wù)做到商業(yè)閉環(huán)。
以下是唐文斌與《智能涌現(xiàn)》的對話,內(nèi)容經(jīng)作者整理。
![]()
△原力靈機(jī)CEO唐文斌,圖片:采訪人提供
創(chuàng)業(yè)第一年,關(guān)鍵詞:迭代
智能涌現(xiàn):回顧原力靈機(jī)創(chuàng)業(yè)這一年,你腦子里冒出來的第一個詞是什么?
唐文斌:迭代。過去一年里,很多東西都在變——技術(shù)認(rèn)知、數(shù)據(jù)方案、場景選擇、融資節(jié)奏等等。和歷史上的經(jīng)驗(yàn)一樣,具身智能的變化也比我們預(yù)想的要快。
我們今天面對的,依然是一個充滿未知的領(lǐng)域。在今天的具身智能行業(yè)里,一家公司本質(zhì)的競爭力,不是今天有多領(lǐng)先,而是迭代效率有多高。誰能在變化中更快地發(fā)現(xiàn)問題、修正問題,誰才可能一直跑在前面。
智能涌現(xiàn):原力靈機(jī)的主創(chuàng)團(tuán)隊來自曠視,經(jīng)過曠視十多年的創(chuàng)業(yè)經(jīng)歷,你仍然覺得當(dāng)下的創(chuàng)業(yè)有很多意料之外的變化嗎?
唐文斌:是的,即便我們從AI 1.0時代積累了很多經(jīng)驗(yàn)教訓(xùn)。
曠視時期我們逐漸解決了計算機(jī)視覺、自動駕駛、大模型等領(lǐng)域的問題,到現(xiàn)在進(jìn)入具身智能領(lǐng)域。每一次身處其中的時候,我們并不知道明確的路線是什么,但歷史上每一次的感悟都是,技術(shù)變化的頻率比我們預(yù)期中更快。
對于現(xiàn)在我們所投入的具身行業(yè)也是一樣,我們依然在解決很多未知的問題,這需要我們快速迭代自己的想法。
智能涌現(xiàn):再次創(chuàng)業(yè),你還會有興奮感嗎?如果有的話,從何而來?
唐文斌:我覺得無論在曠視還是現(xiàn)在做機(jī)器人的創(chuàng)業(yè),都是在“把這個世界應(yīng)該被解決的問題做得更好”。這也是我們所說的工程師的興奮感,叫“我能解決這個問題”。
從曠視時期,我就形成了一套樸素的觀念,叫做“技術(shù)信仰,價值務(wù)實(shí)。簡單來說,我們沒有創(chuàng)造新需求,如果創(chuàng)造一個居家做情感陪伴的機(jī)器人,這相當(dāng)于創(chuàng)造了一個新需求。但我們目前在做的事情,而是用更好的工具解決已有問題,比如讓機(jī)器人去解決、替換原來工業(yè)場景里人類做起來繁雜、危險的工作。
智能涌現(xiàn):這可能是一個非常務(wù)實(shí)的定位,但是聽起來會不會沒那么“性感”?
唐文斌:我覺得要看怎么定義“性感”。我認(rèn)為今天我們不管在生活和生產(chǎn)的過程中,我們有大量的問題可以有更好的解法。解決好這些客觀存在的問題是可以產(chǎn)生巨大價值的,無論是商業(yè)價值、社會價值,還是用戶價值等等。
如果真的創(chuàng)造出了AGI通用機(jī)器人,人類會進(jìn)入一個生產(chǎn)力極大富足的時代。這種很高的技術(shù)期待本身,就是一種星辰大海式的愿景。
找好場景,解開“數(shù)據(jù)死鎖”
智能涌現(xiàn):現(xiàn)階段,具身智能的本質(zhì)問題,你覺得是什么?
唐文斌:是模型,模型能力夠強(qiáng),才能解鎖場景,而模型的突破點(diǎn)在數(shù)據(jù)。
數(shù)據(jù)本質(zhì)上是在消滅不確定性,真正有價值的是Outlier的數(shù)據(jù)。你只有讓機(jī)器人進(jìn)到真實(shí)場景,它才有機(jī)會犯錯,見到更多“錯題”,減少不確定性。
智能涌現(xiàn):關(guān)于數(shù)據(jù)采集,現(xiàn)在有很多方法,既有數(shù)采工廠,也有很多具身公司開發(fā)素材手套、胸前攝像頭等讓人類在實(shí)際工作采集數(shù)據(jù)。你們的采集方法如何?沒有自己開發(fā)數(shù)采工具嗎?
唐文斌:我們也有自己的數(shù)采工具,也買外面的數(shù)采工具和數(shù)據(jù)。但工具是方法,這些解決方法不本質(zhì)。
本質(zhì)的做法,還是要讓機(jī)器人在真實(shí)場景中把數(shù)據(jù)飛輪轉(zhuǎn)起來,收集到Failure Case。就像今天自動駕駛的數(shù)據(jù),平穩(wěn)運(yùn)行的數(shù)據(jù)并不稀缺,真正有價值的是接管的數(shù)據(jù),就是自動駕駛算法不Work時的數(shù)據(jù),才是AI真正要去學(xué)的東西。
現(xiàn)在采用的無論是遙操作還是以為人中心的視頻、數(shù)采手套等方法,實(shí)際上是在模擬場景,但它并不是收集機(jī)器人真實(shí)和物理世界交互的工作場景數(shù)據(jù)。也就是說,通過這樣的數(shù)據(jù),開發(fā)者并不知道機(jī)器人靠今天的邏輯,到底在什么地方會犯錯。
智能涌現(xiàn):不進(jìn)場景就沒有你說的Outlier數(shù)據(jù),沒有多樣的數(shù)據(jù)就訓(xùn)不出一個能進(jìn)場景干活的好模型——這是一個“死鎖”。這個死鎖怎么解開?
唐文斌:要找到適合當(dāng)前機(jī)器人能力的場景。現(xiàn)階段,我們要把機(jī)器人當(dāng)成學(xué)徒工,而不是期望很高的正式工。
我們總結(jié)了幾個找場景的條件:第一,容錯——犯錯后果不嚴(yán)重,或者有人兜得住;第二,對節(jié)拍有容忍度——機(jī)器人現(xiàn)在完成任務(wù)的時長不固定,但如果完成得慢,任務(wù)流程也不會因此崩潰;第三,長時間作業(yè)——否則客戶采購的性價比算不過來;第四,能泛化,如果任務(wù)太專用,非標(biāo)自動化基本就搞定了。
智能涌現(xiàn):你說現(xiàn)在原力靈機(jī)主要在做物流場景?是因?yàn)樗蒎e嗎?
唐文斌:物流表面上看不容錯,比如你買瓶可樂,沒發(fā)給你,這就是錯了,客戶會投訴的。但物流有很多流程環(huán)節(jié),可以通過系統(tǒng)設(shè)計變成容錯:讓機(jī)器人先干,失敗了人再接管上。
而且物流的節(jié)拍要求沒那么強(qiáng),一天大概有兩到三個波次。完成著兩三個波次就可以,至于到底是9點(diǎn)干完,還是10點(diǎn)干完,不對整體造成太大影響。
智能涌現(xiàn):所以你在場景上的策略是“沿途下蛋”?
唐文斌:我的模型最終是追求通用能力,并不是說我是朝著某個場景去的,只是在模型能力提升的過程中會逐漸解鎖一些場景。
所以,比起沿途下蛋,我更喜歡形容當(dāng)前的模型和場景是個“夾角關(guān)系”。橫軸是場景,斜著向上的這條射線是模型能力,兩者不是完全分開的,也不是一開始就重合的。只是隨著模型越來越強(qiáng),它能覆蓋的場景會越來越多,這個夾角會越來越小,最后趨向一致。
![]()
△唐文斌在黑板上畫起模型能力與場景解鎖的“夾角圖”。橫軸是場景,斜著向上的射線是模型能力,模型能力的提升,最終會落地在場景上。圖片:作者拍攝
“軟硬全棧”不是衡量估值的本質(zhì)問題
智能涌現(xiàn):曠視時期,你就聚焦物流場景,做原力靈機(jī)之后再輸出給客戶的方案、產(chǎn)品會有不同嗎?
唐文斌:簡單而言,無論是我們當(dāng)年在曠視做的物流機(jī)器人業(yè)務(wù),還是現(xiàn)在很多同行在做的方案,本質(zhì)上解決的都還是“搬運(yùn)”的問題。也就是說,機(jī)器人主要替代的是人的“腿”。
但真正更復(fù)雜的“手上動作”,其實(shí)一直沒有被很好解決。比如抓取、揀選、拿起、放下、打包,這些都還大量依賴人工。我們現(xiàn)在做原力靈機(jī),更希望讓模型逐步具備處理這些手部操作的能力,再和現(xiàn)有系統(tǒng)聯(lián)動起來,形成一整套方案。
智能涌現(xiàn):那原力靈機(jī)自己會做“手”的硬件嗎?
唐文斌:“手”其實(shí)是個廣義的概念,我們叫末端執(zhí)行器。兩指的夾爪是一種,三指是一種,四指、五指也都是。
我不認(rèn)為一種構(gòu)型可以吃遍所有場景,有一些場景,用三指手就可以完成任務(wù),成本還比五指手便宜。所以比做不做手更本質(zhì)的是,要明確自己服務(wù)的場景,真正需要的是什么。
智能涌現(xiàn):如果沒有自己研發(fā)硬件,或者如果不是所謂的“軟硬一體”全棧公司,會不會影響估值?
唐文斌:我覺得這不是本質(zhì)問題。做不做硬件本質(zhì)上都只是手段,關(guān)鍵還是看你想解決什么問題。
如果某個硬件環(huán)節(jié)和我們的核心結(jié)構(gòu)設(shè)計、產(chǎn)品主線強(qiáng)相關(guān),而且現(xiàn)成供應(yīng)鏈滿足不了需求,那我們當(dāng)然會考慮自己做;但如果外部廠商愿意配合定制,能夠滿足我們的要求,那我也沒有必要什么都親自下場。畢竟公司最寶貴的精力,還是應(yīng)該放在更有差異化的地方。
所以核心不在于“你是不是一定要自己做”,而在于你有沒有自己做的能力。 如果你完全沒有這個能力,就很容易被供應(yīng)鏈拿捏。但如果你具備自己做的能力,就可以主動選擇——哪些該自己做,哪些可以交給合作伙伴。就像蘋果公司,也不是自己生產(chǎn)。
最好的具身智能模型,應(yīng)該從Day 1就接觸物理世界數(shù)據(jù)
智能涌現(xiàn):你們在DM0發(fā)布會上,強(qiáng)調(diào)這是“具身原生模型”,還和階躍星辰做了數(shù)據(jù)融合訓(xùn)練。這算你們的“非共識”嗎?
唐文斌:與其說非共識,不如說這是別人做不了的事。
我們覺得最好的具身智能模型應(yīng)該從Day 1就開始接觸物理世界的數(shù)據(jù)。互聯(lián)網(wǎng)數(shù)據(jù)、自動駕駛數(shù)據(jù)、機(jī)器人數(shù)據(jù),三類數(shù)據(jù)混在一起訓(xùn),模型的上限會更高。
但三類數(shù)據(jù)在不同公司手里——互聯(lián)網(wǎng)公司、自動駕駛公司、機(jī)器人公司。只有特斯拉、小米等少數(shù)大型公司才會同時擁有這三類數(shù)據(jù)。
我們能做,是因?yàn)楹碗A躍星辰恰好是有底層信任。這不只是技術(shù)問題,需要合作公司之間有數(shù)據(jù)定價、資產(chǎn)歸屬、算力分?jǐn)偟确矫娴纳疃刃湃巍?/p>
![]()
△原力靈機(jī)DM0模型包含互聯(lián)網(wǎng)、自動駕駛、具身三類數(shù)據(jù)的多源混合訓(xùn)練,圖片:采訪人提供”
智能涌現(xiàn):為什么最好的具身智能模型,應(yīng)該從Day 1就接觸物理世界數(shù)據(jù)
唐文斌:你可以先把模型想象成一個初中畢業(yè)生,接受了九年制文化課,然后被拉去練三年體育,要變成“體校生”。這個學(xué)生沒有從小練體育,體能上限有限;狂練三年體育之后,文化課又落下了。所以最后得到的,通常是一個上限不高的體校生。
回歸到數(shù)據(jù)上,問題是這樣的,今天行業(yè)里大多數(shù)具身模型,本質(zhì)上還是先拿一個開源的VLM模型做底座,相當(dāng)于一開始接觸的主要是互聯(lián)網(wǎng)數(shù)據(jù);然后再加入動作數(shù)據(jù),微調(diào)成一個VLA。
這樣做,一方面會限制模型在真實(shí)世界中的能力上限,另一方面也容易在后期訓(xùn)練中出現(xiàn)“偏科”——為了強(qiáng)化動作能力,反而損失了一部分原本的通用理解能力。
所以我們更認(rèn)同一種“具身原生”的訓(xùn)練方式:從 Day 1 開始,模型就應(yīng)該見過足夠多的物理世界數(shù)據(jù)。
智能涌現(xiàn):現(xiàn)在行業(yè)里經(jīng)常把VLA、世界模型這些能力拆開來講,或者認(rèn)為世界模型要替代VLA。你們怎么理解它們的關(guān)系?
唐文斌:我們認(rèn)為,世界模型和VLA應(yīng)該是一套統(tǒng)一的架構(gòu),而不是誰替代誰。
現(xiàn)在很多人的思路是:一個世界模型負(fù)責(zé)預(yù)測“接下來世界會變成什么樣”,另一個VLA或策略模型負(fù)責(zé)決定“我應(yīng)該做什么動作”。但我們的理解不一樣——更好的方式,是在同一個框架里同時完成這兩件事:它既在預(yù)測動作,也在預(yù)測這個動作之后世界會發(fā)生什么變化。
因?yàn)槲锢硎澜绫緛砭褪怯幸蚬P(guān)系的。比如你伸手去抓一個物體時,腦子里其實(shí)已經(jīng)對它的重量、抓取方式和需要多大力形成了預(yù)期;但真正抓上去那一刻,如果發(fā)現(xiàn)它比預(yù)想中更重,你就會立刻根據(jù)觸覺和受力反饋調(diào)整動作。這個過程中,你對世界的理解和你的動作決策,本來就是一體的。
我們理解的世界模型也是這樣。它不應(yīng)該只是一個“預(yù)測下一幀畫面”的視覺模型,而應(yīng)該和VLA融合在一起,形成一套統(tǒng)一的訓(xùn)練框架。這里面還需要多模態(tài)信息,比如上面例子中所說的觸覺(力反饋),也需要有Memory,才能把任務(wù)真正做完整。
這也是為什么我們一直強(qiáng)調(diào),具身智能模型最好從Day 1開始就接觸物理世界數(shù)據(jù)——它要學(xué)的不是孤立的動作,而是動作、反饋和世界變化之間的完整因果關(guān)系。
智能涌現(xiàn):你們聯(lián)合Hugging Face發(fā)起了RoboChallenge這個具身模型的真機(jī)Benchmark,也引起了業(yè)內(nèi)對原力靈機(jī)“又做裁判又做選手”的爭議。所以,在你看來做評測的必要性是什么?
唐文斌:其實(shí)評測是非常重要的。我們內(nèi)部有一句話說叫,如果你花了50塊錢,這個模型應(yīng)該花20塊錢去評測一下它。否則如果你自己都不知道如何衡量他的好壞,我們先不說衡量大家,我們就先衡量自己,如果都沒有這根尺子。你如何能夠把這事兒做好?
![]()
△“RoboChallenge最新評測榜單(截至2026年3月30日),圖片:采訪人提供”
智能涌現(xiàn):如果你的模型真的好,最后客戶買單了,這不是一種更實(shí)際的Benchmark嗎?
唐文斌:對,但這個反饋周期很長。而且,其實(shí)今天客戶買單,可能是出于很多種原因。客戶不買單的模型,大概率不是一個好模型;但好模型不一定會得到客戶的訂單。
以及當(dāng)前可能模型在某個場景能力很強(qiáng),但如果想考察它通用場景中的泛化能力,那還是需要一個Benchmark評測。
務(wù)實(shí)與做自己
智能涌現(xiàn):你們在今年2月10日,成立近一年的時候,才正式發(fā)布了第一款模型。和行業(yè)普遍節(jié)奏比,會不會有點(diǎn)“慢”?
唐文斌:我覺得今天的一些短暫的領(lǐng)先并不本質(zhì),比如別人一成立就發(fā)布了模型,或者DM0目前在Benchmark上的表現(xiàn)比較好。但當(dāng)前的領(lǐng)先還說明不了什么,過兩天可能就被追上了。
現(xiàn)在的本質(zhì)是因?yàn)楹芏鄸|西都在變化,真正重要的是迭代效率——你內(nèi)部能不能更快地發(fā)現(xiàn)問題、解決問題。如果迭代效率比別人高,你就能一直跑在前面。
智能涌現(xiàn):你曾經(jīng)說具身智能的“ChatGPT時刻”是,“一個場景1000臺機(jī)器人,持續(xù)運(yùn)行”。這個標(biāo)準(zhǔn)怎么來的?
唐文斌:一個場景1000臺持續(xù)運(yùn)行,意味著兩件事。第一是業(yè)務(wù)流程閉環(huán)了,不用人過多參與的情況下,機(jī)器人也可以持續(xù)完成任務(wù);第二是,賬算明白了,客戶愿意批量化使用。
達(dá)到這個水平,才能說是真正地被客戶用起來了。
智能涌現(xiàn):所以現(xiàn)在有真實(shí)的具身智能持續(xù)運(yùn)行的場景嗎?
唐文斌:持續(xù)運(yùn)行的商業(yè)化場景其實(shí)都沒那么快。我覺得大家對場景還是要有一定的耐心。但我覺得今年,最晚明年,至少在一線場景上,會出現(xiàn)真的商業(yè)化。
智能涌現(xiàn):那你怎么看待當(dāng)下具身行業(yè)里,那些“客戶采購具身智能公司的機(jī)器人組建數(shù)據(jù)采集工廠,又將采集的數(shù)據(jù)賣給機(jī)器人公司”,從而做大收入流水的現(xiàn)象?
唐文斌:這實(shí)際上是一種“循環(huán)收入,我不能說這些做法不對,這些企業(yè)確實(shí)獲得了收入。但公司要想清楚自己的價值導(dǎo)向,如果你的銷售成天在干循環(huán)收入,誰還愿意干那些真正難的事情?
智能涌現(xiàn):你現(xiàn)在對做To C的產(chǎn)品有想法嗎?
唐文斌:最終會做。但To C比To B難得多。To C最終有兩種,一種是做玩具,一種是做工具。現(xiàn)在具身智能To C還是在做玩具的階段,工具現(xiàn)在還有階段性的,沒到那個技術(shù)點(diǎn)上。
在C端,一個機(jī)器人通常要會干很多件事情,用戶才覺得有用。但在B端,它只要干好一件事,就能持續(xù)創(chuàng)造價值。而且C端對成本更敏感,對錯誤容忍度更低。
所以還是先從B端開始,等模型能力足夠強(qiáng),成本降下來,再想C端的事。
創(chuàng)業(yè)十年:愚昧之巔、絕望之谷、自信的平常心
智能涌現(xiàn):從業(yè)務(wù)本身來講,現(xiàn)在和十年前在曠視時,差異點(diǎn)是什么?
唐文斌:曠視當(dāng)時做了好幾個不同的業(yè)務(wù),覺得技術(shù)可達(dá),市場也可達(dá),就都去做了。但結(jié)果是人才稀釋了,最強(qiáng)的那些人被攤薄了。
這回到創(chuàng)業(yè)公司經(jīng)常被問到的一個問題“如果大廠干了這件事情你怎么辦呢?”。但實(shí)際上大廠并不是舉公司之力在干一件事情,而創(chuàng)業(yè)公司可以。
我的體會是,max(A+B+C)基本上等于max(A,B,C)。就是說,把多個能力簡單疊加,效果不會超過把最強(qiáng)的那一個做到極致。
智能涌現(xiàn):你當(dāng)下在企業(yè)管理中,最不能接受的現(xiàn)象是什么?
唐文斌:我們現(xiàn)在還比較強(qiáng)調(diào)開放和謙遜。我覺得我比較不想看到的,是一種叫自負(fù),就是Ego很大的情況。
當(dāng)然,作為創(chuàng)業(yè)公司,一旦做好決策,還是要堅決貫徹執(zhí)行。但在此之前,觀點(diǎn)是要被允許開放討論的。我覺得今天這個世界變化太快了,大家的智慧、開放的心態(tài)是能夠更好迭代的基礎(chǔ)。
智能涌現(xiàn):你覺得現(xiàn)在的自己,和十年前在曠視時有什么不同?
唐文斌:十年前剛創(chuàng)業(yè)的時候,很多東西不懂,是一種“初生牛犢不怕虎”的狀態(tài),覺得自己什么都行。后來被現(xiàn)實(shí)教育了,又走向另一個極端——不自信,覺得很多事情不知道怎么做。
再后來,試錯多了,慢慢回到一種自信的平常心,不是盲目的自信,也不是膽怯的不自信。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.