網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

對話原力靈機(jī)唐文斌：我不喜歡講我不信的話，也無法成為我不想成為的人

2026-03-30 14:41:06　來源: 36氪

北京舉報

分享至

文｜富充

編輯｜蘇建勛

創(chuàng)業(yè)滿一年，唐文斌的身上依舊保留著曠視時期的印記，在和我們的對話中，他時常說到“本質(zhì)”這個詞——那是曠視內(nèi)部的一個“流行詞”。

清華“姚班”畢業(yè)之后，唐文斌和同學(xué)印奇、楊沐在2011年創(chuàng)辦了曠視科技。在這家AI 1.0標(biāo)志性企業(yè)中，人們喜歡追問“本質(zhì)”。

創(chuàng)業(yè)曠視的14年里，唐文斌經(jīng)歷了AI 1.0浪潮的完整起伏。從高歌猛進(jìn)的業(yè)務(wù)擴(kuò)展，到屢次與上市失之交臂，這些經(jīng)歷也打磨著他對“本質(zhì)”的理解。

關(guān)于對曠視最重要的反思，唐文斌認(rèn)為是攤子不要鋪得太大，而是應(yīng)該先集中全力，把一個最有優(yōu)勢的業(yè)務(wù)做透。

近來履新階躍星辰董事長的印奇，在不久前的采訪中也有過類似表達(dá)——商業(yè)模式本質(zhì)上是做排除法。看過了熱鬧，大家更清楚一個道理：與其做很多事，不如想清楚什么不做。

2025年3月，唐文斌創(chuàng)辦具身智能公司原力靈機(jī)。二次創(chuàng)業(yè)中，唐文斌更會做減法了。

過去一年中，原力靈機(jī)沒有跟業(yè)界一起卷訂單規(guī)模，也沒有急著推出一個“軟硬全棧”的故事提升估值。

原力靈機(jī)的第一年，把主要精力放在模型開發(fā)，以及數(shù)據(jù)、框架、評測等AI基礎(chǔ)設(shè)施工作上。因?yàn)樵谔莆谋罂磥恚@些是決定迭代效率的基礎(chǔ)。

“一直跑在前面”的迭代能力，和“短暫的領(lǐng)先”相比，是更本質(zhì)的競爭力。

當(dāng)被問及會不會因?yàn)楣?jié)奏“慢”，而受到投資人壓力時，唐文斌對《智能涌現(xiàn)》說：“有些公司確實(shí)通過一些浮夸的方式獲得了不錯的收益，我們也困惑過，要不要也這樣做。但后來想明白了，我不是很喜歡講我不信的話，也無法成為我不想成為的人。”

他把自己這些年的變化概括成三個階段：“初生牛犢不怕虎”的盲目自信，被現(xiàn)實(shí)教育后“覺得很多事情不知道怎么做”的迷茫，以及如今抵達(dá)的“謙虛的自信”——知道自己知道什么，也非常清楚自己不知道什么。

用AGI通用機(jī)器人開啟生產(chǎn)力極大富足的時代，是唐文斌當(dāng)下心中的星辰大海。不過，這一次的落點(diǎn)更腳踏實(shí)地：隨著模型能力提升逐個解鎖場景，先把自己在曠視時期就有積累的物流業(yè)務(wù)做到商業(yè)閉環(huán)。

以下是唐文斌與《智能涌現(xiàn)》的對話，內(nèi)容經(jīng)作者整理。

△原力靈機(jī)CEO唐文斌，圖片：采訪人提供

創(chuàng)業(yè)第一年，關(guān)鍵詞：迭代

智能涌現(xiàn)：回顧原力靈機(jī)創(chuàng)業(yè)這一年，你腦子里冒出來的第一個詞是什么？

唐文斌：迭代。過去一年里，很多東西都在變——技術(shù)認(rèn)知、數(shù)據(jù)方案、場景選擇、融資節(jié)奏等等。和歷史上的經(jīng)驗(yàn)一樣，具身智能的變化也比我們預(yù)想的要快。

我們今天面對的，依然是一個充滿未知的領(lǐng)域。在今天的具身智能行業(yè)里，一家公司本質(zhì)的競爭力，不是今天有多領(lǐng)先，而是迭代效率有多高。誰能在變化中更快地發(fā)現(xiàn)問題、修正問題，誰才可能一直跑在前面。

智能涌現(xiàn)：原力靈機(jī)的主創(chuàng)團(tuán)隊來自曠視，經(jīng)過曠視十多年的創(chuàng)業(yè)經(jīng)歷，你仍然覺得當(dāng)下的創(chuàng)業(yè)有很多意料之外的變化嗎？

唐文斌：是的，即便我們從AI 1.0時代積累了很多經(jīng)驗(yàn)教訓(xùn)。

曠視時期我們逐漸解決了計算機(jī)視覺、自動駕駛、大模型等領(lǐng)域的問題，到現(xiàn)在進(jìn)入具身智能領(lǐng)域。每一次身處其中的時候，我們并不知道明確的路線是什么，但歷史上每一次的感悟都是，技術(shù)變化的頻率比我們預(yù)期中更快。

對于現(xiàn)在我們所投入的具身行業(yè)也是一樣，我們依然在解決很多未知的問題，這需要我們快速迭代自己的想法。

智能涌現(xiàn)：再次創(chuàng)業(yè)，你還會有興奮感嗎？如果有的話，從何而來？

唐文斌：我覺得無論在曠視還是現(xiàn)在做機(jī)器人的創(chuàng)業(yè)，都是在“把這個世界應(yīng)該被解決的問題做得更好”。這也是我們所說的工程師的興奮感，叫“我能解決這個問題”。

從曠視時期，我就形成了一套樸素的觀念，叫做“技術(shù)信仰，價值務(wù)實(shí)。簡單來說，我們沒有創(chuàng)造新需求，如果創(chuàng)造一個居家做情感陪伴的機(jī)器人，這相當(dāng)于創(chuàng)造了一個新需求。但我們目前在做的事情，而是用更好的工具解決已有問題，比如讓機(jī)器人去解決、替換原來工業(yè)場景里人類做起來繁雜、危險的工作。

智能涌現(xiàn)：這可能是一個非常務(wù)實(shí)的定位，但是聽起來會不會沒那么“性感”？

唐文斌：我覺得要看怎么定義“性感”。我認(rèn)為今天我們不管在生活和生產(chǎn)的過程中，我們有大量的問題可以有更好的解法。解決好這些客觀存在的問題是可以產(chǎn)生巨大價值的，無論是商業(yè)價值、社會價值，還是用戶價值等等。

如果真的創(chuàng)造出了AGI通用機(jī)器人，人類會進(jìn)入一個生產(chǎn)力極大富足的時代。這種很高的技術(shù)期待本身，就是一種星辰大海式的愿景。

找好場景，解開“數(shù)據(jù)死鎖”

智能涌現(xiàn)：現(xiàn)階段，具身智能的本質(zhì)問題，你覺得是什么？

唐文斌：是模型，模型能力夠強(qiáng)，才能解鎖場景，而模型的突破點(diǎn)在數(shù)據(jù)。

數(shù)據(jù)本質(zhì)上是在消滅不確定性，真正有價值的是Outlier的數(shù)據(jù)。你只有讓機(jī)器人進(jìn)到真實(shí)場景，它才有機(jī)會犯錯，見到更多“錯題”，減少不確定性。

智能涌現(xiàn)：關(guān)于數(shù)據(jù)采集，現(xiàn)在有很多方法，既有數(shù)采工廠，也有很多具身公司開發(fā)素材手套、胸前攝像頭等讓人類在實(shí)際工作采集數(shù)據(jù)。你們的采集方法如何？沒有自己開發(fā)數(shù)采工具嗎？

唐文斌：我們也有自己的數(shù)采工具，也買外面的數(shù)采工具和數(shù)據(jù)。但工具是方法，這些解決方法不本質(zhì)。

本質(zhì)的做法，還是要讓機(jī)器人在真實(shí)場景中把數(shù)據(jù)飛輪轉(zhuǎn)起來，收集到Failure Case。就像今天自動駕駛的數(shù)據(jù)，平穩(wěn)運(yùn)行的數(shù)據(jù)并不稀缺，真正有價值的是接管的數(shù)據(jù)，就是自動駕駛算法不Work時的數(shù)據(jù)，才是AI真正要去學(xué)的東西。

現(xiàn)在采用的無論是遙操作還是以為人中心的視頻、數(shù)采手套等方法，實(shí)際上是在模擬場景，但它并不是收集機(jī)器人真實(shí)和物理世界交互的工作場景數(shù)據(jù)。也就是說，通過這樣的數(shù)據(jù)，開發(fā)者并不知道機(jī)器人靠今天的邏輯，到底在什么地方會犯錯。

智能涌現(xiàn)：不進(jìn)場景就沒有你說的Outlier數(shù)據(jù)，沒有多樣的數(shù)據(jù)就訓(xùn)不出一個能進(jìn)場景干活的好模型——這是一個“死鎖”。這個死鎖怎么解開？

唐文斌：要找到適合當(dāng)前機(jī)器人能力的場景。現(xiàn)階段，我們要把機(jī)器人當(dāng)成學(xué)徒工，而不是期望很高的正式工。

我們總結(jié)了幾個找場景的條件：第一，容錯——犯錯后果不嚴(yán)重，或者有人兜得住；第二，對節(jié)拍有容忍度——機(jī)器人現(xiàn)在完成任務(wù)的時長不固定，但如果完成得慢，任務(wù)流程也不會因此崩潰；第三，長時間作業(yè)——否則客戶采購的性價比算不過來；第四，能泛化，如果任務(wù)太專用，非標(biāo)自動化基本就搞定了。

智能涌現(xiàn)：你說現(xiàn)在原力靈機(jī)主要在做物流場景？是因?yàn)樗蒎e嗎？

唐文斌：物流表面上看不容錯，比如你買瓶可樂，沒發(fā)給你，這就是錯了，客戶會投訴的。但物流有很多流程環(huán)節(jié)，可以通過系統(tǒng)設(shè)計變成容錯：讓機(jī)器人先干，失敗了人再接管上。

而且物流的節(jié)拍要求沒那么強(qiáng)，一天大概有兩到三個波次。完成著兩三個波次就可以，至于到底是9點(diǎn)干完，還是10點(diǎn)干完，不對整體造成太大影響。

智能涌現(xiàn)：所以你在場景上的策略是“沿途下蛋”？

唐文斌：我的模型最終是追求通用能力，并不是說我是朝著某個場景去的，只是在模型能力提升的過程中會逐漸解鎖一些場景。

所以，比起沿途下蛋，我更喜歡形容當(dāng)前的模型和場景是個“夾角關(guān)系”。橫軸是場景，斜著向上的這條射線是模型能力，兩者不是完全分開的，也不是一開始就重合的。只是隨著模型越來越強(qiáng)，它能覆蓋的場景會越來越多，這個夾角會越來越小，最后趨向一致。

△唐文斌在黑板上畫起模型能力與場景解鎖的“夾角圖”。橫軸是場景，斜著向上的射線是模型能力，模型能力的提升，最終會落地在場景上。圖片：作者拍攝

“軟硬全棧”不是衡量估值的本質(zhì)問題

智能涌現(xiàn)：曠視時期，你就聚焦物流場景，做原力靈機(jī)之后再輸出給客戶的方案、產(chǎn)品會有不同嗎？

唐文斌：簡單而言，無論是我們當(dāng)年在曠視做的物流機(jī)器人業(yè)務(wù)，還是現(xiàn)在很多同行在做的方案，本質(zhì)上解決的都還是“搬運(yùn)”的問題。也就是說，機(jī)器人主要替代的是人的“腿”。

但真正更復(fù)雜的“手上動作”，其實(shí)一直沒有被很好解決。比如抓取、揀選、拿起、放下、打包，這些都還大量依賴人工。我們現(xiàn)在做原力靈機(jī)，更希望讓模型逐步具備處理這些手部操作的能力，再和現(xiàn)有系統(tǒng)聯(lián)動起來，形成一整套方案。

智能涌現(xiàn)：那原力靈機(jī)自己會做“手”的硬件嗎？

唐文斌：“手”其實(shí)是個廣義的概念，我們叫末端執(zhí)行器。兩指的夾爪是一種，三指是一種，四指、五指也都是。

我不認(rèn)為一種構(gòu)型可以吃遍所有場景，有一些場景，用三指手就可以完成任務(wù)，成本還比五指手便宜。所以比做不做手更本質(zhì)的是，要明確自己服務(wù)的場景，真正需要的是什么。

智能涌現(xiàn)：如果沒有自己研發(fā)硬件，或者如果不是所謂的“軟硬一體”全棧公司，會不會影響估值？

唐文斌：我覺得這不是本質(zhì)問題。做不做硬件本質(zhì)上都只是手段，關(guān)鍵還是看你想解決什么問題。

如果某個硬件環(huán)節(jié)和我們的核心結(jié)構(gòu)設(shè)計、產(chǎn)品主線強(qiáng)相關(guān)，而且現(xiàn)成供應(yīng)鏈滿足不了需求，那我們當(dāng)然會考慮自己做；但如果外部廠商愿意配合定制，能夠滿足我們的要求，那我也沒有必要什么都親自下場。畢竟公司最寶貴的精力，還是應(yīng)該放在更有差異化的地方。

所以核心不在于“你是不是一定要自己做”，而在于你有沒有自己做的能力。如果你完全沒有這個能力，就很容易被供應(yīng)鏈拿捏。但如果你具備自己做的能力，就可以主動選擇——哪些該自己做，哪些可以交給合作伙伴。就像蘋果公司，也不是自己生產(chǎn)。

最好的具身智能模型，應(yīng)該從Day 1就接觸物理世界數(shù)據(jù)

智能涌現(xiàn)：你們在DM0發(fā)布會上，強(qiáng)調(diào)這是“具身原生模型”，還和階躍星辰做了數(shù)據(jù)融合訓(xùn)練。這算你們的“非共識”嗎？

唐文斌：與其說非共識，不如說這是別人做不了的事。

我們覺得最好的具身智能模型應(yīng)該從Day 1就開始接觸物理世界的數(shù)據(jù)。互聯(lián)網(wǎng)數(shù)據(jù)、自動駕駛數(shù)據(jù)、機(jī)器人數(shù)據(jù)，三類數(shù)據(jù)混在一起訓(xùn)，模型的上限會更高。

但三類數(shù)據(jù)在不同公司手里——互聯(lián)網(wǎng)公司、自動駕駛公司、機(jī)器人公司。只有特斯拉、小米等少數(shù)大型公司才會同時擁有這三類數(shù)據(jù)。

我們能做，是因?yàn)楹碗A躍星辰恰好是有底層信任。這不只是技術(shù)問題，需要合作公司之間有數(shù)據(jù)定價、資產(chǎn)歸屬、算力分?jǐn)偟确矫娴纳疃刃湃巍?/p>

△原力靈機(jī)DM0模型包含互聯(lián)網(wǎng)、自動駕駛、具身三類數(shù)據(jù)的多源混合訓(xùn)練，圖片：采訪人提供”

智能涌現(xiàn)：為什么最好的具身智能模型，應(yīng)該從Day 1就接觸物理世界數(shù)據(jù)

唐文斌：你可以先把模型想象成一個初中畢業(yè)生，接受了九年制文化課，然后被拉去練三年體育，要變成“體校生”。這個學(xué)生沒有從小練體育，體能上限有限；狂練三年體育之后，文化課又落下了。所以最后得到的，通常是一個上限不高的體校生。

回歸到數(shù)據(jù)上，問題是這樣的，今天行業(yè)里大多數(shù)具身模型，本質(zhì)上還是先拿一個開源的VLM模型做底座，相當(dāng)于一開始接觸的主要是互聯(lián)網(wǎng)數(shù)據(jù)；然后再加入動作數(shù)據(jù)，微調(diào)成一個VLA。

這樣做，一方面會限制模型在真實(shí)世界中的能力上限，另一方面也容易在后期訓(xùn)練中出現(xiàn)“偏科”——為了強(qiáng)化動作能力，反而損失了一部分原本的通用理解能力。

所以我們更認(rèn)同一種“具身原生”的訓(xùn)練方式：從 Day 1 開始，模型就應(yīng)該見過足夠多的物理世界數(shù)據(jù)。

智能涌現(xiàn)：現(xiàn)在行業(yè)里經(jīng)常把VLA、世界模型這些能力拆開來講，或者認(rèn)為世界模型要替代VLA。你們怎么理解它們的關(guān)系？

唐文斌：我們認(rèn)為，世界模型和VLA應(yīng)該是一套統(tǒng)一的架構(gòu)，而不是誰替代誰。

現(xiàn)在很多人的思路是：一個世界模型負(fù)責(zé)預(yù)測“接下來世界會變成什么樣”，另一個VLA或策略模型負(fù)責(zé)決定“我應(yīng)該做什么動作”。但我們的理解不一樣——更好的方式，是在同一個框架里同時完成這兩件事：它既在預(yù)測動作，也在預(yù)測這個動作之后世界會發(fā)生什么變化。

因?yàn)槲锢硎澜绫緛砭褪怯幸蚬P(guān)系的。比如你伸手去抓一個物體時，腦子里其實(shí)已經(jīng)對它的重量、抓取方式和需要多大力形成了預(yù)期；但真正抓上去那一刻，如果發(fā)現(xiàn)它比預(yù)想中更重，你就會立刻根據(jù)觸覺和受力反饋調(diào)整動作。這個過程中，你對世界的理解和你的動作決策，本來就是一體的。

我們理解的世界模型也是這樣。它不應(yīng)該只是一個“預(yù)測下一幀畫面”的視覺模型，而應(yīng)該和VLA融合在一起，形成一套統(tǒng)一的訓(xùn)練框架。這里面還需要多模態(tài)信息，比如上面例子中所說的觸覺（力反饋），也需要有Memory，才能把任務(wù)真正做完整。

這也是為什么我們一直強(qiáng)調(diào)，具身智能模型最好從Day 1開始就接觸物理世界數(shù)據(jù)——它要學(xué)的不是孤立的動作，而是動作、反饋和世界變化之間的完整因果關(guān)系。

智能涌現(xiàn)：你們聯(lián)合Hugging Face發(fā)起了RoboChallenge這個具身模型的真機(jī)Benchmark，也引起了業(yè)內(nèi)對原力靈機(jī)“又做裁判又做選手”的爭議。所以，在你看來做評測的必要性是什么？

唐文斌：其實(shí)評測是非常重要的。我們內(nèi)部有一句話說叫，如果你花了50塊錢，這個模型應(yīng)該花20塊錢去評測一下它。否則如果你自己都不知道如何衡量他的好壞，我們先不說衡量大家，我們就先衡量自己，如果都沒有這根尺子。你如何能夠把這事兒做好？

△“RoboChallenge最新評測榜單（截至2026年3月30日），圖片：采訪人提供”

智能涌現(xiàn)：如果你的模型真的好，最后客戶買單了，這不是一種更實(shí)際的Benchmark嗎？

唐文斌：對，但這個反饋周期很長。而且，其實(shí)今天客戶買單，可能是出于很多種原因。客戶不買單的模型，大概率不是一個好模型；但好模型不一定會得到客戶的訂單。

以及當(dāng)前可能模型在某個場景能力很強(qiáng)，但如果想考察它通用場景中的泛化能力，那還是需要一個Benchmark評測。

務(wù)實(shí)與做自己

智能涌現(xiàn)：你們在今年2月10日，成立近一年的時候，才正式發(fā)布了第一款模型。和行業(yè)普遍節(jié)奏比，會不會有點(diǎn)“慢”？

唐文斌：我覺得今天的一些短暫的領(lǐng)先并不本質(zhì)，比如別人一成立就發(fā)布了模型，或者DM0目前在Benchmark上的表現(xiàn)比較好。但當(dāng)前的領(lǐng)先還說明不了什么，過兩天可能就被追上了。

現(xiàn)在的本質(zhì)是因?yàn)楹芏鄸|西都在變化，真正重要的是迭代效率——你內(nèi)部能不能更快地發(fā)現(xiàn)問題、解決問題。如果迭代效率比別人高，你就能一直跑在前面。

智能涌現(xiàn)：你曾經(jīng)說具身智能的“ChatGPT時刻”是，“一個場景1000臺機(jī)器人，持續(xù)運(yùn)行”。這個標(biāo)準(zhǔn)怎么來的？

唐文斌：一個場景1000臺持續(xù)運(yùn)行，意味著兩件事。第一是業(yè)務(wù)流程閉環(huán)了，不用人過多參與的情況下，機(jī)器人也可以持續(xù)完成任務(wù)；第二是，賬算明白了，客戶愿意批量化使用。

達(dá)到這個水平，才能說是真正地被客戶用起來了。

智能涌現(xiàn)：所以現(xiàn)在有真實(shí)的具身智能持續(xù)運(yùn)行的場景嗎？

唐文斌：持續(xù)運(yùn)行的商業(yè)化場景其實(shí)都沒那么快。我覺得大家對場景還是要有一定的耐心。但我覺得今年，最晚明年，至少在一線場景上，會出現(xiàn)真的商業(yè)化。

智能涌現(xiàn)：那你怎么看待當(dāng)下具身行業(yè)里，那些“客戶采購具身智能公司的機(jī)器人組建數(shù)據(jù)采集工廠，又將采集的數(shù)據(jù)賣給機(jī)器人公司”，從而做大收入流水的現(xiàn)象？

唐文斌：這實(shí)際上是一種“循環(huán)收入，我不能說這些做法不對，這些企業(yè)確實(shí)獲得了收入。但公司要想清楚自己的價值導(dǎo)向，如果你的銷售成天在干循環(huán)收入，誰還愿意干那些真正難的事情？

智能涌現(xiàn)：你現(xiàn)在對做To C的產(chǎn)品有想法嗎？

唐文斌：最終會做。但To C比To B難得多。To C最終有兩種，一種是做玩具，一種是做工具。現(xiàn)在具身智能To C還是在做玩具的階段，工具現(xiàn)在還有階段性的，沒到那個技術(shù)點(diǎn)上。

在C端，一個機(jī)器人通常要會干很多件事情，用戶才覺得有用。但在B端，它只要干好一件事，就能持續(xù)創(chuàng)造價值。而且C端對成本更敏感，對錯誤容忍度更低。

所以還是先從B端開始，等模型能力足夠強(qiáng)，成本降下來，再想C端的事。

創(chuàng)業(yè)十年：愚昧之巔、絕望之谷、自信的平常心

智能涌現(xiàn)：從業(yè)務(wù)本身來講，現(xiàn)在和十年前在曠視時，差異點(diǎn)是什么？

唐文斌：曠視當(dāng)時做了好幾個不同的業(yè)務(wù)，覺得技術(shù)可達(dá)，市場也可達(dá)，就都去做了。但結(jié)果是人才稀釋了，最強(qiáng)的那些人被攤薄了。

這回到創(chuàng)業(yè)公司經(jīng)常被問到的一個問題“如果大廠干了這件事情你怎么辦呢？”。但實(shí)際上大廠并不是舉公司之力在干一件事情，而創(chuàng)業(yè)公司可以。

我的體會是，max(A+B+C)基本上等于max(A,B,C)。就是說，把多個能力簡單疊加，效果不會超過把最強(qiáng)的那一個做到極致。

智能涌現(xiàn)：你當(dāng)下在企業(yè)管理中，最不能接受的現(xiàn)象是什么？

唐文斌：我們現(xiàn)在還比較強(qiáng)調(diào)開放和謙遜。我覺得我比較不想看到的，是一種叫自負(fù)，就是Ego很大的情況。

當(dāng)然，作為創(chuàng)業(yè)公司，一旦做好決策，還是要堅決貫徹執(zhí)行。但在此之前，觀點(diǎn)是要被允許開放討論的。我覺得今天這個世界變化太快了，大家的智慧、開放的心態(tài)是能夠更好迭代的基礎(chǔ)。

智能涌現(xiàn)：你覺得現(xiàn)在的自己，和十年前在曠視時有什么不同？

唐文斌：十年前剛創(chuàng)業(yè)的時候，很多東西不懂，是一種“初生牛犢不怕虎”的狀態(tài)，覺得自己什么都行。后來被現(xiàn)實(shí)教育了，又走向另一個極端——不自信，覺得很多事情不知道怎么做。

再后來，試錯多了，慢慢回到一種自信的平常心，不是盲目的自信，也不是膽怯的不自信。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.