對話人物簡介:
余軼南/ 維他動力創始人兼CEO,前地平線智能駕駛總裁。
趙哲倫/維他動力聯合創始人、產品&市場負責人。
宋巍/維他動力聯合創始人兼工程負責人。曾任地平線軟件平臺總架構師、智駕創始團隊成員。
2023年,具身智能領域出現了一個非常重要的信號——如果端到端能實現自動駕駛, Then what’s next?
“如果你認為它能夠改變機器人的未來,就應該跳進去將它真正實現出來。”
于是,余軼南、趙哲倫和宋巍,在2024年成立了維他動力。
![]()
在他們看來,這個行業里很多的玩家,要么是聚焦于做硬件,要么聚焦于做AI,而從「維他動力」的名字就能看出來,他們要將兩件事兒合在一起做。
「維他」指的是智能生命,「動力」則是指運動性能。
他們的目標,是要在5年內讓機器人大規模進入家庭辦公和服務場所,并能提供高質量服務;而長期目標,是在10-20年內,成為全球前三的智能機器人公司。
![]()
機器人的集成水平,已超越汽車
在集成化的演變中可以看到,過去的很多機器人,需要把負責不同功能的板卡集成到一個機器人中,占用了很大的空間。而如今,機器人的集成度已經走到了汽車前邊。
“今天的整車電子電氣架構,分為底盤域,智駕域,交互域;下一代的汽車才會走到智能本體+智能交互,機器人產業其實已經比汽車行業往前走了一步。”余軼南說道。
目前,維他動力為機器人構建了兩個核心域——智能本體域、智能交互域。
![]()
得益于這種集成化的架構,維他動力的首款產品——Vbot智能伴隨機器人,可以配置當前同尺寸機器人中最大容量的電池組。其樣機續航已從1-2個小時提升至4小時,上市前可接近700Wh,能支持一天使用。同時,它在關節模組、能量扭曲密度方面也得以提升。
“高度集成化最大的好處,就是把空間預留出來了。原來的四足機器人,肚子里要放好多塊板子,可能每條腿都需要各自運算。但今天我們產品的兩塊芯片一塊是在頭部,一塊在身體里,可拓展空間更大。”趙哲倫說道。
簡化傳感器,不只為降本
維他動力的主要傳感器采用了前視雙目攝像頭+一顆禾賽JT系列激光雷達。余軼南介紹稱,人的視角大概為150°左右,但是通過頭部左右運動可擴展至180°-320°,上下視角可擴展到200°。基于此,其首款產品大幅簡化了傳感器的數量。
這不僅能帶來你在硬件成本的降低,也能讓算力實現更好的覆蓋。
“我們比主流高端智駕的每百萬像素算力,提高了3-8倍,這樣也會讓機器人在感知方面能夠做得更好。”
![]()
趙哲倫表示,中階智駕基本需要6顆攝像頭覆蓋全車,高階智駕則需要12顆攝像頭,因為它需要廣角和長焦的組合才能覆蓋全車,這樣分配到每百萬像素上的算力其實是非常有限的。
“所以我們在一開始去考慮機器人的長期架構時,就希望精簡。”
同時,基于視覺在暗光、異形障礙物的局限性,維他動力也為機器人補充了的專用的360°激光雷達。
Agent架構&全模態交互
“由于人與機器人的距離通常比手機、電腦都遠,所以人與機器人最好的交互方式,就是自然交互。”
在交互方面,維他動力設置了一套面向機器人的Agent架構——以用戶的語言輸入,來觸發Agent大腦的部分,讓機器人對上下文做出正確的響應。
在表達情緒方面,Vbot機器人不僅能傳達眼神,還會伴隨不同的聲音音調,以及肢體動作。
“我們認為機器人應該是一個全模態的交互方式,在感知層面,你的視覺、聽覺還有觸覺都能夠作為input,在Agent架構里進行分析,然后通過我們的屏幕、肢體和揚聲器,以及機器人耳朵上的指示燈去表達情緒。”
趙哲倫指出,在《溫暖的科技》一書中,提出在整個表達情緒的構成中,55%是靠肢體語言,38%靠語氣,只有7%才是靠語言。因此,Vbot智能伴隨機器人也會通過多模態來表達驚訝、勇敢、害怕、開心,驚喜等情緒。
現在,多數機器人都以語言對話作為交互方式,但維他動力堅持不讓機器狗「說人話」,而是用一種可愛的聲調強調其動物屬性。
余軼南稱,團隊專門探討過「說人話」的問題,但被否決了。他們認為特征應高度符合屬性,一旦讓它說人類語言,就「出戲」了。
關鍵一步:甩掉遙控器
余軼南認為,不管是對于自動駕駛還是機器人,快系統+慢系統、大腦+小腦結合的方式,都會是未來的主流技術架構。
據介紹,維他動力為機器人開發了一套1b左右的中小規模VLA模型。它主要接收Agent對任務的需求,同時接入對環境感知以及機器人本體的信息。
“它的輸出包括思維鏈、各種各樣的Action、對于環境的感知識別和響應,以及進行環境的探索…這也是一套快慢思考的雙系統。”余軼南介紹道。
同時,維他動力也利用世界模型,讓機器人在數字環境中學習:“我們可以做4000多個類似的環境,然后在一個GPU上同時去跑。”
在數字環境中,不僅能夠模擬一些隱患問題,還能模擬所有的傳感器,包括像攝像頭,激光雷達,還有本身的IMU等等。
![]()
“無人駕駛跟輔助駕駛的最大區別,應該是有沒有方向盤。”余軼南表示,在機器人這里,「甩掉遙控器」是自主移動的關鍵一步。
他指出,在有遙控器的情況下,事實上是遙控器承擔了對環境的感知,如果沒有遙控器的話,就需要機器人本身去感知。實現這一目標的最大壓力,是系統對于環境本身的理解。
![]()
要想甩開遙控器,就需要將機器人身上的攝像頭像素、激光雷達點云融合進一個AI網絡,然后去產出對環境的理解。這也是維他動力選擇了遠大于其他四足機器人的算力平臺的原因。(地瓜機器人S100P計算平臺,最高算力128TOPS)
在設計上花費最多精力
“‘機器人設計’這個Topic,其實至今還很少被深入討論,但卻是我們花費精力最多的部分。”
趙哲倫認為,設計應當是機器人最核心的部分。如今的機器人風格都比較偏工業,還有一些則偏玩具化,更像低齡化產品。另外,有一些機器人只能在室內行走,有的能戶外行走卻沒法上臺階。
所以,維他動力為他們的機器人作出了如下定義:
1、全地形運動能力;
2、不能過于玩具化,而是要找到「友善的平衡」。
3、全圓角設計,使用更高級材質提高品質等等;
4、簡約設計,未采用過多色彩,遵循黃金分割比例;
除了工業設計,維他動力還有來自游戲、動畫行業的動畫師,依據迪士尼的12個動畫原則,表達機器人的情緒。
![]()
“我們覺得第一款產品的高度不能比孩子高,這樣整體會顯得更有親和力。另外,其實我們也做過人形機的調研,但是感覺人形進家還是有挑戰的,因為它帶來的風險還是比較高的:如果它在你家的某個地方摔了,有可能帶來的損失是用戶不可接受的,所以我們先以一個體積更小、重量更小的機器人去做嘗試。”
外接功能擴展
和很多機器人一樣,Vbot智能伴隨機器人也可以通過多個物理接口擴展功能。例如,它的背板上可以插一個筐,用來背東西。同時維他動力也專門設計了1/4的螺母,便于安裝360°的環視攝像頭,實現跟拍功能。
“它本身有很強的負載能力,不光是背東西的負載,也包括拖東西的負載。它還可以用拾球器去撿網球,通過各種各樣的連接工具與世界互動。”
![]()
至于未來要不要給它增加夾爪,余軼南表示,增加夾爪討論最多的不是技術問題,而是外觀造型問題。如果要上夾爪,就必須看不起不突兀,能和造型融為一體。
明年將進軍海外
在維他動力看來,海外市場的「大House家庭」,通常具備庭院和上下層,Vbot智能陪伴機器人的點到點運載能力在這里將得以發揮。
“明年,我們會進到海外。在歐美的大家庭中,雖然房子面積很大,但家里裝電梯的、有傭人的還是非常少的,所以我們認為四足機器人會成為一個House的標配。”
今年年底,維他動力首款產品將迎來上市。之后在次年1月份的CES上,該公司也會開啟海外政策。
“我們會確保在明年春節以前,通過量產產線出來的機器人能就交付到家庭里,進入到我們的生活中。”
![]()
長期記憶的必要性
“去爸爸的房間”“去書房給媽媽送杯水”...這些簡單的指令,意味著機器人需要對用戶家庭關系、空間、信息形成長期記憶。
“長期記憶是必須做的,過去的汽車行業已經做了大量嘗試,包括聲紋識別等等。但由于車沒有強調角色屬性,所以大家的體感可能不是那么強。但我發現長期記憶對于機器人來說非常必要,不然它很可能聽了陌生人的指令,造成用戶困擾。”
趙哲倫稱,在信息層面的長期記憶,主要依靠對大語言模型的上下文關鍵信息記憶,比如家庭角色、職業,甚至用戶最近在焦慮的事情等等。
“我們認為機器人的產品化過程中,至少應該有這三維的記憶:空間、人物角色,上下文關鍵信息。”
![]()
最后,趙哲倫表示,維他動力這半年的融資已經達到了3億元,這些資金足以支撐首款機器人的規模化量產,并可以保證產品交付。
“目前,工廠的搭建及試制都在進行中。對于第一款產品來說,這一套流程的周期會比較長。我們需要更多的試制的過程,讓產品質量變得更好。在今年的10月到12月之間,我們會開啟產品早鳥內測。”
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.