網易首頁 > 網易號 > 正文申請入駐

地瓜機器人隋偉:從自動駕駛汽車到機器人,具身智能技術演變之路

2026-04-01 22:21:20　來源: 科技行者

北京舉報

分享至

作者 | 金旺

2025年年底，我們開始籌備《機器人新紀元》欄目同名視頻播客。

之所以有這樣的想法，是因為在做《機器人新紀元》欄目訪談報道這幾年里，總會陸續有人問：你們的內容有沒有視頻形式？

再加上身在其中的我們，也切身感受到了內容傳播介質的轉變，越來越多讀者開始習慣“閱讀”音頻和視頻，所以就有了做視頻播客的念頭。

當時想到做這個主題播客，最先想到的是，現在的具身機器人本質上依然是自動駕駛汽車的一個技術延續。

于是，就有了想請本就是從自動駕駛技術研究轉向具身智能技術研究的隋偉博士來做我們第一期節目的嘉賓的想法。

2026年春節回來后，我們邀請地瓜機器人算法副總裁隋偉來我們這里做客，在這之后在團隊內幾位同仁共同努力下，有了大家今天看到的這期節目。

第一期節目我們將主題定為“從自動駕駛汽車到機器人，具身智能的技術演變之路”，隋偉博士在一個多小時的訪談過程中，密集輸出了大量信息。

他告訴我們，自動駕駛與機器人系統中的任務，有很多相似之處；

他告訴我們，對于模型來說，數據迭代成本和效率直接影響著產品競爭力；

他告訴我們，為了訓練自動駕駛的BEV系統，當時團隊做了100-200萬視頻數據的標注；

他告訴我們，自動駕駛也好，具身智能也好，現在都在借鑒大模型發展的模型訓練范式；

當然，這些只是本期內容的冰山一角，我們相信這期節目能讓你對具身機器人有更深刻的理解，也相信它能為你帶來些許啟發。

以下為本期節目內容QA精選（經整理）：

01 自動駕駛，是一類特殊的機器人

Q：您是什么時候第一次接觸到機器人的？

隋偉：我在讀博士的時候就接觸過，但那時其實就是用機械臂來完成操作和抓取任務，因為當時機器人還處于比較早期階段，是從預編程剛剛往深度學習、智能化遷移的一個階段。

我們當時主要是用3D視覺去引導機械臂做這種物體的抓取，用的相關技術的話，其實還是模塊化的技術。

例如，先通過3D視覺識別物體的位姿，然后引導機械臂用傳統的規劃控制方法去做一些抓取和操作。

其實這個技術到現在來看的話也不算落后，像21年、22年的時候，很多這種操作任務實際上用的還是這種方法。

Q：您是2019年加入地平線的，然后開始做自動駕駛相關技術研究，當時自動駕駛是怎樣的一個發展階段？當時有做哪些工作？

隋偉：2019年自動駕駛處于L2剛要開始普及，L3限于高速場景，城市NOA還處于非常早期的demo階段。

2019年的時候，其實像國外，像特斯拉（這樣）走的比較快的，已經要開始往端到端方向轉，已經有個BEV相關算法，傳感器這些布局也從單目前視布局走到了環視布局。

我們當時在做的主要是單目往環視感知，就是L2往L3、高速的L3（場景）轉移的階段，我當時主要做的是深度估計，也是用來做避障，另外就是3D檢測，其實也相當于是BEV的一個前身。

Q：您當時在地平線所在部門，在業務上和后來您在機器人這塊的工作會有一些交集嗎？

隋偉：我當時在地平線在的部門叫平臺與技術部，我們當時是給整個地平線體系的事業部，像智能駕駛事業部、機器人事業部，提供一些算法和方案。

因機器人也好，自動駕駛也好，其實都屬于一種具身的形態，或者我們叫機器人研究形態，我們內部也會說，自動駕駛車輛其實是一種特殊的機器人。

那它里面有一些任務是非常相似的。

例如，所有這些，就不管是室內的消費機器人也好，或者像自動駕駛也好，其實它都需要解決A點到B點的移動問題，其中涉及到定位、導航、避障，涉及到規劃。

所以我們當時主要的任務就是給這兩個事業部提供一些算法，尤其是像3D視覺感知類的，還有定位建圖類的算法。

Q：自動駕駛相當于是把道路這個事兒切成很多個場景來做，如果是具身機器人的話，在某個特定場景里面，它也需要把特定場景中的多個任務切分才能實現在這個場景的初步通用嗎？

隋偉：對，所以我覺得像VLA的話，其實它隨著數據量或者模型的容量大小，通用性總是相對的，在某一個場景下去解決一類或多類任務，那我覺得這其實是比較合理的一個范式。

自動駕駛其實第一它有博弈的安全性要求，有高效性要求，還有舒適性要求，這三者要求非常高。因為也就是在2024年，端到端，尤其是一段式的端到端起來之后，城區的這種NOA才到了好用的程度。

02 具身智能，讓我們多了一個上游，多了一個下游

Q：您覺得當時特斯拉下場做機器人對整個行業來說重要嗎？

隋偉：非常重要，可以認為是具身智能的一個拐點，但具身智能并不是一個新的概念，即便是在2022年之前，其實我們在各種學術會議上都有具身智能這個版塊。

我記得在2022年參加一個VALSE會議的時候，在天津那邊就專門有一個workshop在講具身智能，但當時都在解決一些抓取、planning建模的一些問題，但當時具身智能沒有非常火熱的一個程度，用的也都是像機械臂這樣一些簡單形態的一些機器人。

到2022年底特斯拉發布了Optimus之后，把行業帶到了一個新的高度，其實相當于是給這個行業提出了一個新的難題。

因為從人形機器人這個形態來看，其實不單要解決這些操作的任務了，還有一些運控的任務，還有一些硬件難題，其實是開辟了一個新的領域。

Q：從產品形態上來看，其實您無論是在地平線還是在地瓜，最終做的都是芯片，但是從技術研究領域來看的話，您在此前后工作有哪些變化？

隋偉：從自動駕駛轉到具身智能這個領域，我們提供的都是AI芯片和一些軟件解決方案。

從底層AI感知來看，我認為沒有太大區別，尤其是像感知算法，像地平線和地瓜推出的BPU這個AI加速模塊，它其實是首先在自動駕駛中得到大規模驗證，我們很多AI感知算法都有大規模量產經驗，芯片和算法都已經在自動駕駛場景里面得到了打磨，那我要做的事情就是把這些已經打磨好的算法，還有之前的一些經驗，遷移到地瓜機器人來解決具身智能領域的問題。

但其實真正來到地瓜后，我發現要解決的問題還是非常多，比如像在自動駕駛的時候，我們不需要關注車輛的形態，不需要關注數據是怎么采集的，因為本身自動駕駛數據采集就很高效，不管是采集車也好，或者是數據閉環也好，都是非常高效的采集方式。

在機器人領域，目前硬件還沒有統一，數據采集也沒有收斂，數據采集成本高，如何去找到一條更合適的訓練數據的獲取方案，而且保證它是有效的，以及用完這些數據完成訓練后，讓它結合下游的控制去完成任務，這個其實有很多問題要解決。

自動駕駛其實不需要關注太多底層控制，具身智能我們是需要關注的，因為現有這些模型其實無法滿足精細化操作的要求，所以必須要和傳統控制方案、力控方案結合起來去完成這樣的一些任務。

所以就我們多了一個下游，也多了一個上游。

03 所有的深度學習問題，都是統計學問題

Q：自動駕駛和具身機器人其實是人工智能不同階段的兩個重要技術載體，我們現在再來看這兩個系統的話，它們有怎樣的相似度？您之前在地平線做自動駕駛有哪些技術可以沿用過來，有哪些技術不能沿用、但可以借鑒？

隋偉：我覺得自動駕駛是深度學習進行大規模落地實踐一個非常重要的場景，它的發展路線是可以給具身智能提供非常重要的參考，甚至汽車工業本身的發展也能給具身智能提供參考，其實我還專門研究了一下汽車發展史。

汽車其實一開始也不是像現在這樣四個輪子、一個方向盤這種標準化產品，大概在一八九幾年的時候，當時好像是奔馳發明了第一臺內燃機三輪車，方向盤也不是圓形的，而是有點像搖桿一樣去控制前向的轉向，這是第一臺內燃機式三輪車。

這樣的車其實它出來之后，滿足不了大眾需求，因為速度一快就容易翻車，所以到后面逐漸迭代出了四輪的形態，然后逐漸把方向盤變成了圓形，這個差不多已經是十年之后的事了。

再到1908年的時候，四輪車能夠滿足人類出行需求了，所以當時福特就發明T型（車）生產線，那個時候汽車的產量開始爆發式增長。

那在早期的時候，剛才說的早期車輛那個形態和現在的具身機器人差不多，每年的產量大概也就是幾千臺，都是作為一些奢侈品或者是一些稀罕物，然后在一些有錢有資本的人手里去做收藏展示。

T型車生產線出現之后，車的形態逐漸能滿足人類的需求了，產量也逐漸增加到了差不多一年1500萬臺，價格也降低了。只不過那個時候的人工智能軟件技術的發展沒有那么快，所以一直要到一百多年之后，隨著深度學習技術的發展，才開始快速智能化。

但也就十幾年的時間，智能駕駛就從實驗室的一個產品完成了落地的量產。

其實具身的發展我覺得也是一個參考。

目前這個階段我們看到，它的硬件并沒有收斂，形態也沒有收斂，例如自由度、傳感器、關節的形態、個數，還有身體的形態，其實都沒有完全收斂。

處于像三輪車那個時候的那個階段，然后也不能夠完全滿足這個任務的需求，尤其是復雜的一些操作任務，精細化操作的任務，所以它有一個階段要完成硬件的迭代。

完成硬件迭代之后，然后在場景里面能夠先工作起來去采集數據，完成智能化。

Q：BEV在自動駕駛領域是什么時候火起來的，對于自動駕駛系統來說，它有怎樣的歷史意義？

隋偉：BEV全稱是Bird's Eye View，是一個鳥瞰視角，其實它不是一個新的概念，在3D重建、3D視覺里很早就存在了。

BEV在自動駕駛里面火起來的是在2019年-2020年前后，也是從特斯拉AI Day公布了FSD之后，然后BEV在在自動駕駛領域是可行的，從那時開始逐漸發展起來，成為主流。

BEV感知出現之前，我們是通過單視角的感知，然后再去通過大量的后處理完成2D到3D的轉換。

但這種轉換會有很多問題，第一是很多時候這個假設是不成立的，我們假設道路是平的，其實很多的道路它都不是平的，你仔細看的話，其實道路中間是凸起的，兩邊是凹下去的，它不是一個平面，那這就會給這個測距帶來誤差，而且這誤差會非常大。

第二是檢測，尤其是兩個視角，兩個視角之間的這種拼接會非常的復雜。

所以BEV感知其實是解決了感知后處理，相當于是把后處理也交給模型去執行了，所以它輸入的是多視角的圖像，輸出直接是在3D空間里輸出的結果。

其實這也是端到端的基礎，因為端到端最終的空間也是在planning的空間，是在3D空間里。

Q：我看您在地平線有做一個4D標注系統，這是一個怎樣的系統？對于自動駕駛系統有怎樣的作用？

隋偉：4D標注系統其實主要是給BEV感知來提供真值的，因為在深度學習時代，或者說人工智能時代的落地場景中，最重要的就是數據，有多少數據就是有多少智能，所以真值標注非常關鍵。

那為什么在BEV時代非要有這個4D標注？

因為BEV它的感知模態發生了變化，原來在這種圖像感知時代的時候，你輸入的模型是2D的圖像，然后輸出也是在圖像空間的結果，也就是我們所說的所見即所得，它的感知結果和輸入是在同一個空間里面的。

BEV做的是3D重建，從圖像的數據直接輸出3D結果，既然輸出的是3D結果，那模型的訓練也需要3D真值去做監督，4D Label系統就是要解決這個問題。

Q：當時在4D標注系統做了大概多大體量的數據標注，才去推動BEV在地平線系統里的落地？

隋偉：BEV感知需要的數據是以短視頻形式出現的，例如，一輛車裝有11個camera，那它其實會記錄這11個camera在45秒到1分鐘這樣一個時間序列內的數據來作為一個訓練樣本。

這個視頻（片段）其實在業界一般都叫clip，我們大概有到200萬clips左右的數據，然后在BEV上能有一個比較好的一個效果了。

Q：百萬數據量的需求是怎么測算出來的？

隋偉：在自動駕駛里面的數據量的需求其實是有一套估算的方法的，但是前提條件是你要確定它的場景、需求，以及任務。

以動態物體檢測為例，3D的物體檢測，我要檢測這個場景里車輛和行人這樣的一個任務，那我們怎么去測算它的數據使用量呢？

首先我們會確定場景、需求、任務，比如說任務就3D檢測，那場景的話就是比如說城區、高速或鄉村，所有這些場景都要包含在內。然后我要有這個任務的要求，比如說它的召回是多少，準確率是多少，有準確的一個指標。

有了這種評價標準，我們就去估計這個模型，比如說我一開始的時候只有10萬clips，用這10萬clips訓練模型做一個評測，那看這個大概的模型的性能是在什么地方。

然后我們會不斷地增加數據去繪制這樣的一個模型成長曲線，隨著數據量的增長，看模型性能的增長情況。

大多數情況下這個模型的增長曲線并不是線性的，而是隨著數據量的增加，它的性能的增長會越來越緩慢，類似于一個log形狀的這個曲線。

有了這條曲線之后，我們就能大致測算出來這個模型要到這個性能大概需要多少數據。

Q：所以它其實還是一個數學問題。

隋偉：所有的深度學習其實都是統計學的問題。

04 具身智能、自動駕駛，都在借鑒大模型的技術路線

Q：自動駕駛系統里面的話，端到端技術路線可以分為幾個階段嗎？

隋偉：如果說端到端細分的話，我覺得可以分為三個階段。

第一個階段是VA，就是用視覺傳感器或者激光雷達輸出action。

第二個階段就是VLM+端到端，這是一個非常短暫的中間形態，其實目的就是用來解決上一個階段，VA面臨大量的corner case的問題。

雖然說端到端的好處是它本質上是一個模仿學習，它能解決擬人化的問題，就是可以在安全、舒適和高效這三個自動駕駛的評價標準里面去都達到一個比較好的效果。

尤其是擬人化，這個是很多傳統的規則方法是做不到的，但是它的問題是大量依賴數據，沒有見過的一些場景，它的效果就會非常差。

所以后面為了解決corner case問題，就出現了VLM+端到端這樣一個短暫的一個形態。

這個形態的出發點就是想用VLM這樣的一些模型的通用效果，去把這個常識遷移到端到端里面。

所以當時效果就是，你會看到，你給它一個自動駕駛的場景圖片，然后喂到VLM里，你問它到底我該怎么駕駛，其實它可以回答的非常好，因為它見過很多數據，它知道交通規則，它也知道該做什么樣的反應。但它的這個反應有可能是一個語言的描述。

如果把這個VLM稍作操作的話，它可以是一條粗糙的軌跡，然后把這條軌跡給到端到端里面，其實就是想利用它的這個常識性去解決corner case的問題。

但這一代方案有個最大的問題是，端上的算力不夠的情況下，這兩個是跑在雙系統，這兩個系統是不同步的，就會導致它們之間的訓練和迭代會非常復雜，所以就會出現第三個階段，第三個階段就是VLA。

VLA其實就是VLM和端到端的這樣一個一體化的階段，我們現在聽到的兩段式的端到端，就屬于剛才說的VLM+小的端到端模型，一段式端到端就是VLA。

Q：現在能看到的具身機器人，除了跳舞，就是疊衣服，還是planning的那個任務，為什么現在機器人的端到端還是只能執行這些任務？

隋偉：其實現在VLA的話，它已經可以做到電機信號這個層面上，就給輸入數據，然后輸出這些關節指令，然后直接去做執行。

那么，VLA為什么現在還在做疊衣服這樣的一些任務？

因為疊衣服、線纜、打包這些都屬于一些復雜的柔性長程任務，這是傳統先檢測后執行的方式解決不了的，當然我們也看到其實VLA之前也在做一些抓取和放置的一些操作，這些其實用傳統方法的效率會更高一些。

但VLA的使命是要解決通用性和方法性的問題，就是它能夠像VLM一樣自由地到任何場景中去執行任意一個任務，這是它的使命。

但是目前來說，從硬件或者從數據量來說的話，這個模型還不具備這樣的能力。

Q：通過規則編程和端到端是兩個大的階段，在自動駕駛領域會有一個技術跨越的時間節點嗎？

隋偉：在自動駕駛領域，我覺得2019年-2020年就是一個跨過了模塊化，進入到端到端這樣的一個時間節點。

表現就在BEV技術、感知技術的成熟，它為整個端到端奠定了基礎。

其實端到端也是分步驟的，第一步是先解決了感知后處理，第二步是解決了planning的問題，所以是感知能力越來越強，然后端到端越來越徹底，最終到這個planning。

在這個具身智能領域，我覺得倒不是說模塊化和端到端的問題，這個其實已經是共識了，不管是用VA也好，用VLA也好，我覺得目前大家都會認為端到端是最終的技術形態。

它的點在于數據量，誰能獲取足夠多的有效數據，那就能決定智能化的上限。

但獲取數據的前提又在于要在一個什么樣的場景、什么樣的任務，這些明確下來之后，然后就是高效的這種收集數據，構建數據閉環，去提高智能化。

Q：真實數據和仿真數據在兩類系統中的價值，和在這個時間節點上來看的話，它的意義會有不一樣嗎？

隋偉：自動駕駛的話，目前的數據狀況是，絕大部分的訓練數據還是靠實車采集，尤其是數據閉環、影子模式這些方式去實時回傳有效的corner case數據去做模型的迭代。

仿真數據在自動駕駛里其實主要還是負責評測，尤其是像這種world model可以控制的，用這種可控方式生成這種樣本數據，用來做一些特定場景的評測，評測結果比如說達到了一些指標要求之后，然后再去做一些發版。

這當然也跟這個自動駕駛數據獲取的便捷性和廉價性相關。

在具身智能領域，現在還沒有一條明確的數據路線。

最早的有仿真，然后有遙操，以及去年興起的UMI數據，但這些目前還都不能夠完全支撐具身數據的需求。

所以仿真數據和真實數據最大的問題還是在于，仿真數據它有域的gap，Real2Sim的gap，這種gap其實是很難跨越的，因為真實場景的數據其實是非常復雜多樣的，然后仿真的數據它相對會比較單一。

那前期如果說在具身領域數據采集能比較高效的情況下，我們肯定不會用仿真數據，只不過說現在比較困難的情況下，會回過頭來再去看仿真數據能產生什么樣的一些價值。

我覺得，一方面，在0到1階段訓練數據的情況下，仿真數據能起到什么樣的作用，以及在持續增加仿真數據的時候，它對模型的這種成長能帶來多大收益，這個是我要解決的。

第二，目前這種gap也很多，比如說圖像級別的、傳感器級別的Sim2Real gap，還有任務級別的gap、場景級別的gap。

那是不是說仿真數據在比如說像這種任務級別的gap上會更小一點，這些我覺得目前還都是需要來探索的。

Q：視頻數據、仿真數據、遙操數據、UMI數據，現在基本上就是這四大類，因為現在其實數據還是很不夠，很缺數據的一個狀態，我們其實希望越多的數據越好，這些數據都采集上來，它的融合應用會有gap嗎？

隋偉：我覺得談數據怎么使用的話，首先我們要看具身智能它可能的模型的訓練范式是什么樣的，那其實現在在人工智能領域有三個大的應用方向：第一個是大模型，第二個是智能駕駛，第三個是具身智能，底層都是深度學習技術。

其實現在像自動駕駛也好，具身智能也好，都在借鑒大模型發展的模型訓練范式。

那大模型的訓練范式，它首先是有預訓練，預訓練階段需要大量的數據，但是這個數據的質量要求可以不用特別高，在預訓練階段主要在干一個事情，就是next token prediction這個任務。這個token它可以是語言，可以是圖像，也可以是動作。

第二個階段叫SFT，就是有監督訓練，學會采集一些高質量的樣本去做訓練，來把這個通用的模型去往專用性去引導。

第三個階段是在這個基礎之上會有強化學習，強化學習可以理解為相當于是向下教一個學生，這個學生已經經過前面的預訓練和SFT到了一個優等生的階段，比如說考試到能到80分了，那通過強化學習的話，再給他提升到95分或者是100分，這個是三個訓練的步驟。

自動駕駛其實我們看現在也在走這個路線，尤其到VLA之后，也在走這個路線。實具身也是在走這三條路線，如果說是往通用性走的話。

那我們看這三個階段需要的數據，預訓練階段的話，其實它需要大量的低成本的數據，它精度要求沒那么高，在SFT它就需要非常高質量的數據，然后再到強化學習階段的話，它需要是怎么樣去給它一個反饋和交互。

所以我們再回過頭來看這幾種數據的采集方式，仿真我們其實可以先拋開不談，因為仿真的這個gap的問題，我覺得很難在短時間內進行解決的，還有一些數據資產的問題，剩下的就是UMI、遙操。

像UMI的話，我們認為它比較適合做這種預訓練的，那相比較于互聯網的視頻數據，它會更高效。

另外就是在得到預訓練的基礎之上，然后再通過遙操獲取的高質量數據，因為遙操其實采集的是機器人的模態數據去做微調，然后讓機器人在某些特定任務上達到比較好的效果，最后通過強化學習來最終再做一個提升，這是我們認為的范式。

05 具身機器人進工廠，為什么會“砍掉”雙足

Q：具身機器人已經開始有一定的收斂趨勢了嗎？

隋偉：其實能看到這個收斂的跡象，比如說從機器人的外在，我們也能看到一些收斂。

現在很多在工業或其它商業場景下，用的都是輪式底盤，再加上反弓式的腰部，以及雙臂，雙臂自由度一般也都是七個自由度的仿生臂，這個我們是能看到一些收斂的態勢的。

然后從算法上來講的話，基本上都是收斂到VA或者是VLA。

Q：然后具體到我們在做的芯片這塊，它也有這樣的一個趨勢嗎？

隋偉：對于芯片來說的話，它更像的是收斂到一個大腦。

比如說像自動駕駛的話，原來每個傳感器都有一個獨立的計算單元，但到后面的話，它會逐漸集中到一個大腦上。

那對于機器人來說的話，一定是這樣的一個趨勢，把各種數據的傳輸和計算都集中到一個域控芯片上。

Q：現在有針對具身機器人的專用芯片嗎？

隋偉：其實是有專門針對具身的芯片的，像地瓜，我們推出的旭日S600芯片，其實就是專門面向具身行業的。

國外的話，英偉達也有專門面向具身的Jetson系列芯片。

目前有大規模量產的其實主要就是這兩家。

然后具身的芯片其實和智駕的芯片，除了一些工規和商規的要求之外，在很多底層模塊上，其實很多都是一致的，因為本身都是做這個AI加速算法的，那區別就在于它的一些外圍接口。

比如說像車輛的傳感器的種類和數量和具身里面的種類和數量都是不一樣的，這方面會有一些區別，但底層架構其實都是一致的，像這種AI加速器，還有像這種MCU，其實目前都是共用的。

所以芯片來說，并不是說需要收斂，主要是怎么用好這個芯片，因為具身機器人還沒有大規模的量產，所以在這一塊其實可能需要做的工作更多一些。

Q：具身機器人在工業場景，輪式+雙臂成為一個共識，這有什么原因？

隋偉：輪式和全人形主要區別在于下肢。

輪式的話，相當于它可以用比較成熟的移動策略做一些簡單的移動，但是它的問題是需要改造場景，比如說做不了越障，然后對一些斜坡這些也有要求。

全人形的話，雙足的優點是它具備越障的可能性，比如上樓梯，各種各樣的障礙物，理論上只要人能過的地方它都能過，但是問題是在于它現在的技術難度非常大，就是雙足的通用行走能力目前其實還沒有完全解決。

我們看到的這些很多都是盲眼的運動，但是如果要跟真實的世界去做交互的時候，這個其實目前還沒有到完全能夠落地的程度。

在工業場景下，其實很多情況下它是可以進行場景改造的，比如這種移動，我可以去掉一些樓梯，改造成一些平面或者斜面，一些簡單的斜面、斜坡，能讓這個機器人的輪式能自主移動，其實它能滿足需求的，那底層的邏輯其實還是通用和專用的一個區別。

像雙臂或者雙足的全人形的話，它是通用人工智能的最佳的載體，因為它的運動上限、能力上限非常高。

在工廠里，輪式的通用性要弱于全人形，但對于這個場景來說是足夠用的。

所以技術來說，并不是越復雜或者越高等級越好，而是能滿足場景需求的那個技術才是最好的。

在工廠里面它需要的是一個穩定的、高的下限，這是目前全人形不具備的。

06 機器人跳舞，是不是一個好的商業模式

Q：26年的央視春晚上的機器人，表現出的哪些能力是您意料之外的？

隋偉：其實我覺得印象比較深刻的還是宇樹的武術表演，非常震撼。

其實震撼主要點在于，我會發現它的硬件上限其實非常高，我們其實也在用宇樹G1做一些開發，我們能做一些舞蹈動作，但稍微激烈一點的舞蹈動作，它不是特別穩定。

但是至少從春晚的這個效果來看的話，它的硬件上限其實非常高，你可以看到它可以做各種各樣的翻跟頭、很高的起跳和降落的這種動作，所以我覺得這個體現出了它的這個硬件的上限。

這個上限我覺得是機器人往通用性、智能化走的一個非常重要的基礎。

Q：然后您是怎么看機器人跳舞這件事兒，它會成為當下一個比較好的機器人量產落地的商業模式嗎？

隋偉：它是一種商業模式，而且是有價值的商業模式。

其實我們可以對比那個無人機集群表演，其實我們看到現在的大量的這種人形機器人陣列式的表演，其實它效果是非常震撼的，和無人機的那個表演它的需求是類似的。所以我覺得從無人機的這種表演看的話，其實它是真的存在這樣的需求的，那機器人其實也會存在，當然機器人它的這個陣列表演，我認為它只是一種載體，首先它證明了這個硬件具備這樣的能力，但它這個需求能不能持續，還要看它這個載體承載的內容，比如說它表演的形式或者表演的內容能不能持續吸引大眾，那我覺得這個可能是一個比較重要的點。所以我認為這個表演肯定是有需求的，而且是一個比較好的目前這個階段技術能夠剛剛滿足的一個需求。

Q：參照自動駕駛汽車的商業化路徑，具身機器人的商業化可以劃分為幾個階段，以及各個階段會有哪些關鍵技術成熟作為標志？

隋偉：參考智能駕駛的話，首先我們要看硬件的成熟度，硬件的上限要足夠高，這個上限不光是性能的上限，還有它的穩定性的上限。

例如同樣是機器人，第一你要滿足標準化生產，第二你在工廠里或其它場景里工作，你能穩定工作多久，這些底層的硬件一定要足夠成熟，上限高，然后也極其穩定，我認為這個是第一步。

那怎么看第一步的成熟度呢？

就是先通過人在環的方式或者遙操方式，你看它能完成多少任務，以及完成任務的效率是多少。

我認為比較合理的指標應該是在有遙操的情況下，它的工作效率能達到人的80%，甚至到100%，這是第一點，這個是檢驗硬件的成熟度。

第二個階段是這些硬件逐步滿足需求后在場景中得到應用，比如說從情緒價值，再到有一些危險場景，或者是勞動力成本非常高的場景，增加機器人的產量。

在這種場景下，我們機器人的數量到了50萬臺或者100萬臺，那我認為可能是一個臨界點。

就是有50萬臺或者100萬臺機器人在場景里面工作，哪怕是通過遙操的方式，它采集的數據是直接有效的數據，這種數據它對具身機器人帶來的智能化增長會非常快，所以我認為是第二個節點。

第三個節點是有這些技術能力或者是這個范式驗證成功之后，就可以推到更多更通用的場景里，例如C端場景、家庭場景。

我認為具身智能是有這樣的一個技術發展的路線。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.