337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

不做遙操作、不采真機數據,這家公司的機器人靠學習“人類第一視角數據”干活|AI Founder請回答

0
分享至


“具身智能目前陷入動作模仿的泥潭,環境或任務一旦改變,技能就有很大可能會失效。只有讓機器人像人一樣,先理解物理世界,再執行具體任務,才是真正給機器人裝上一個大腦。”深度機智創始人陳凱向智客ZhiKer表示。

2024 年底,陳凱率先提出“AnthroLearning”(人類學習)路線時,幾乎沒人相信。這位人工智能領域深耕十五年,曾任職微軟亞洲研究院首席研究員、主導產品年調用量達千億次的科學家,得到的反饋是沉默,甚至質疑。

彼時,具身智能的主流技術路線是遙操作,讓人類戴著設備控制機器人,記錄每一個動作軌跡,再讓機器人反復模仿,或者用互聯網視頻、仿真數據訓練。這些方法的邏輯很直接,讓機器人“背”會動作。

但這條路線存在明顯局限。陳凱認為:“這些主流技術路線的本質上是在“手把手教猴子干活”,效率低下,真正的突破口在于通過人類第一視角數據向大腦注入物理常識,讓猴子進化成人。”

轉折來得比預期更快。

2025年5月,硅谷有具身智能企業開始轉向人類第一視角數據。也是在這個月,陳凱與同是畢業于中科大少年班學院的張翼博共同創立了深度機智。

去年年底,深度機智聯合北京中關村學院率先使用1000小時人類第一視角數據訓練出的PhysBrain基座模型,展現出令人驚艷的結果。在“把胡蘿卜放進盤子”任務中,機器人的夾子碰到胡蘿卜時選擇了像人一樣推動胡蘿卜,讓它滾入盤中,在多次嘗試后發現盤子邊緣過高無法推入后,主動轉變策略,改為夾取,夾一次沒進去,又修正夾取換角度和力度,最終成功。這種靈活性是無法通過預編程實現的。也就是說,機器人自己“涌現”出了變通與糾錯能力。

智客ZhiKer與深度機智創始人陳凱、聯合創始人/CEO張翼博進行了一次對話,試圖回答:為什么是 2026 年?為什么是中國?這條路線收斂之后,產業會發生什么變化?

以下為與陳凱、張翼博的對話全文,略有刪減:

智客ZhiKer:2024-2026年,具身智能行業在技術路線上經歷了什么?為什么你在2024年底提出的“人類學習”路線,到2026年初就成了行業共識?這個收斂速度是你預料之中的嗎?

陳凱: 這個收斂速度比我們預期的要快。我們在2024年底提出“AnthroLearning”(人類學習)概念的時候,這條路線非常有爭議,因為當時大家講的還是遙操作、真機、仿真、互聯網視頻,根本沒有人類第一視角。

轉折點發生在2025年5月。特斯拉宣布Optimus會逐漸放棄動作捕捉和遙操作數據,轉為從人類第一視角數據去學習機器人的技能。6月,原Google DeepMind科學家Andy Zeng創辦的Generalist AI發布了機器人拆解積木的Demo,機器人在將積木塊放進盒子時,采用的是扔的動作,表明他們也在直接從人類數據學習。

這種對物理交互的靈活運用,恰恰是傳統真機軌跡擬合難以企及的。至去年底,Skild AI、Physical Intelligence、NVIDIA等硅谷做具身智能的公司都在向“人類第一視角數據”看齊,在硅谷基本已達成共識。

張翼博: 各個大廠在春節前后相繼組建新的團隊,今年3月份之后,這條技術路線開始受到大家追捧。我們預測,2026年會是“AnthroLearning”(人類學習)的元年。

智客ZhiKer:遙操作、真機、仿真、互聯網視頻學習等,這些技術路線的問題出在哪里?

陳凱: 大家不管是走VLM(Vision-Language Model)、VLA(Vision-Language-Action)還是世界模型路線,每一家都在強調自己在這條路線上積累了多少數據、模型設計有多好,最終都會卡在一個點上,就是基座模型缺乏物理常識。

VLM模型不理解空間,不能夠理解時序。譬如,桌子上面放了幾個杯子,它數不清有幾個,對于人來說輕而易舉的事情,對于模型來說非常難,所以有人專門去做增強模型的空間智能。世界模型或視頻生成模型,生成的內容在視覺上可以亂真,但是運動的真實性或者物理真實性就比較差。

而“人類第一視角數據”采集自真實物理世界,天然蘊含空間理解與交互過程。我用一個更直白的比喻來解釋:現在的軌跡擬合方式就像是在手把手教猴子干活,教它洗菜、做飯、洗碗。但是猴子完全不理解人類社會的常識。我們要做的是先賦予物理常識,讓它進化成人,再讓它學習特定技能,這比手把手教動作高效得多。

張翼博:真正的突破在于物理常識的注入,不是簡單的軌跡標注,是對任務的深層理解。比如開礦泉水瓶是什么,先做什么后做什么,這些維度的標注門檻極高,這是人們習以為常的下意識行為,屬于智能的“暗物質”。

智客ZhiKer:PhysBrain 與英偉達的技術路線對比如何?有觀點認為,深度機智在這一方向上已有先發優勢,你們怎么看?

陳凱: 從時間線上看,我們兩家的技術管線搭建幾乎同步。英偉達2026年2—3月公開方案,我們2025年3月啟動預研、6月搭出數據管線。不同之處在于,英偉達專注手部軌跡預訓練,我們直接增強VLM本身。最終都收斂到用人類數據增強物理直覺,按進度和投入判斷,我們略領先英偉達。

具體而言,我們圍繞數據怎么轉譯、架構怎么設計、訓練目標怎么設定三個環節,搭建出一套全棧矩陣,把視頻中的隱性經驗提取成結構化監督信號,任務怎么拆解、關鍵狀態是什么、手該怎么動、物體之間有什么約束、時空關系是怎樣的。


Egocentric2Embodiment翻譯管道的核心是把人類第一視角視頻轉碼成機器人能學的結構化教材,通過多層次拆解任務規劃、關鍵狀態、手部動作和物理約束,確保時序邏輯連貫且每個判斷都有畫面證據支撐,最終輸出帶標準答案的VQA監督數據。確保機器人知其然也知其所以然,而非瞎猜。

利用這套方法,我們構建了數據集E2E-3M,并訓練出具身大腦PhysBrain。在完全未出現在訓練集中的SimplerEnv四個操作任務上,PhysBrain(8B版本)以67.4%的平均成功率力壓行業標桿Physical Intelligence的Pi0.5,領先優勢達10%。

智客ZhiKer:PhysBrain的“涌現能力”具體指什么?能否舉例說明?

陳凱:涌現能力體現在模型對物理交互的直覺式理解,而非機械執行預設動作。

在SimplerEnv的胡蘿卜抓取任務中,模型接到的指令只是把胡蘿卜放進盤子里。第一次夾取失敗后,它并沒有重復同一個抓取動作,而是發現夾爪已經碰到了胡蘿卜,順勢改為用夾子把胡蘿卜往盤子方向推,一次推不進去,又加大力度重新推了一次,最后才主動切換策略重新抓取。

要知道,“推”這個動作從未包含在訓練數據里,模型也沒有看過失敗軌跡示范,這種靈活應變更像是一種內生的物理直覺。

這種“智能涌現”的出現,是物理常識注入帶來的質變。讓模型擁有物理常識的同時,不丟失原有的通用理解能力,我們在架構層面做了另一項關鍵設計“左右腦”同構架構TwinBrainVLA。

我們引入一個同構但被凍結的VLM模塊作為“左腦”,保持其開放世界理解能力不變;同時引入可訓練的“右腦”網絡,專門處理機器人本體感知狀態和低級動作策略。

關鍵在于“左右腦”之間的信息交互,通過非對稱混合Transformer機制(AsyMoT),右腦可以動態查詢左腦的語義知識,左腦參數不會被下游任務污染。

這種設計的精妙之處在于知識遷移而不遺忘,右腦學會動作控制時,左腦依然保有識別易碎物品的常識及推斷約束條件的能力。遇到新場景時,左右腦協同工作,既不會變成“只會抓杯子不懂杯子會碎”的純執行機器,也不會停留在“知道要輕放但手不聽使喚”的紙上談兵階段。

張翼博:在過往一年當中,我們觀測到了非常多次的智能涌現,也和英偉達交叉驗證了這個數據規模是有效的。我們用 1000 小時的數據實現了這樣的模型性能,這本身就是對新范式的一次關鍵驗證。

智客ZhiKer:從數據采集到模型訓練的周期和成本如何?

陳凱:數據采集、處理和模型預研同步推進的全流程不到3個月。核心難有三個,一是制作數采設備,二是數據確權與隱私合規,三是打造數據處理管線提取物理常識。管線建立后,訓練視頻生成模型和多模態大模型就比較順暢。

張翼博:我們是國內第一批完成10萬小時量級多模態第一人稱視角數據采集的公司,通過自研的全套技術方案,綜合成本遠低于市場其他類型數據,數據有效性也大幅提升。

何旭國(深度機智硬件負責人): 很多人認為腦袋上裝一個攝像頭就完成了數據采集,但真正解決這個問題的時候,有大量的工程化問題需要解決。我們在定義什么樣的數采設備可以進入到真實生產生活。

目前所有的設備,它的存儲、電量不可能做到又小、時間又長、功耗還低,這是矛盾的。智能眼鏡每增加 10 克,對耳朵的負擔都非常明顯。所以我們最開始就拋棄了傳統智能眼鏡作為數采設備的解決方案。

我們最終收斂到把整個設備的形態對頭部負擔盡可能小,把所有的存儲、算力、通訊等基本功能外置,定制了腰包、電源、存儲、電腦,開發了軟件,做了這個解決方案。


我們部署了一個輕量級手部檢測模型。畫面中出現手的時候就開始拍攝,畫面中沒有手了拍攝就結束,這樣最大程度保證了數據的有效性。

智客ZhiKer:你們還研發了自主站立工業級擬人體機器人,為什么一家做“大腦”的公司要做本體?

陳凱: 使用人類數據學習的最佳載體,應該是高度擬人的機器人。

何老師不僅負責數據采集設備,也為大腦設計身體。這款機器人全身采用萬元級諧波力控電機關節模組,全身一共72自由度,而且這款機器人在不通電的情況下可以自主站立,這對于機器人未來進入場景非常重要,它可以實現低能耗和高安全性。


張翼博:諧波全身力控是技術路線,擬人體是結構路線。擬人體要求每個自由度與人對齊,手指長度、胳膊肘長度均需匹配,即結構同構。我們的優勢在于“諧波+同構”兼得,諧波關節模組尺寸正是行業難點,我們已取得關鍵突破。

智客ZhiKer:公司最終定位是做機器人大腦,還是有思考的機器人本體?未來規劃是什么?

陳凱:最終目標是具身AGI,或者說具備物理智能的大模型,用模型能力為機器人提供服務,提供更理解物理世界、更理解交互的Token。

張翼博:短期來講我們要做“沿途下蛋”。先開源4B的小模型,讓行業看到這了路的可行性,同時我們的數采設備也已經逐漸開始商業化;下一步,把更大的模型做成產品,讓大家調用;同時,我們還在探索養老和教育場景。

智客ZhiKer:技術路線收斂之后,數據標注、算力、真機驗證,哪個環節會成為新的瓶頸?中國在哪個環節有優勢?

張翼博: 中國的優勢首先在數據。美國采集并標注第一視角 27 萬小時,花費巨額成本。中國擁有更豐富的數據來源和更低廉的采集成本,千萬小時人類第一視角數據,今年在中國整個行業就會達到。

再說算力。國產卡完全可以承接,我們有充足的國產算力資源作為支撐?,F在技術已經收斂了,下一步就是投入信心、國家支持、全行業共同努力。中國實現彎道超車或者直線超車是非常有可能的。

陳凱: 還有一個關鍵是標注與模型架構、訓練方法緊耦合。對手部軌跡建??赡苤恍鑾讐K錢算力,但對空間常識、任務理解的標注可能需要幾百塊,投入巨大,回報也巨大。

智客ZhiKer:中國和美國在具身智能領域各有側重,但如果具身智能是AGI 問題,這個分工會被打破嗎?中國在大模型上的追趕經驗能復用到具身智能上嗎?

陳凱:中美確實各有側重,中國在本體領域有顯著的競爭優勢,美國在具身大腦方向起步更早。

中國在具身大腦方向上的力量還需要加強,但是我們對趕超甚至領先非常有信心。一是場景儲備,制造業立國,幅員遼闊,數據上天然有優勢。二是硬件協同,具身大腦可與本體同步迭代,以更高效率設計適配大腦的身體。三是制度創新,國產芯片突破,北京中關村學院等新型教育機構探索新科研組織方式。

不管是制度創新、產業協同,還是場景豐富度、國家意志,具身大腦的方向上,我們起步不晚,積累不淺,完全有信心走出一條自己的路。

張翼博:能與物理世界交互的人工智能,估值空間巨大。這既是國家需求,也會對生產制造業、家庭服務業影響深遠,讓勞動變成一種選擇,而非必需。

如果具身智能成為AGI的原生能力,將重構整個AI產業鏈。我相信中美會齊頭并進,不會是美國遙遙領先。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
突發訃告!蔣彥強不幸離世,年僅40歲

突發訃告!蔣彥強不幸離世,年僅40歲

南方都市報
2026-03-27 15:53:39
時代最令人失望者!加州州長怒批馬斯克:親手將美國電車王冠讓給了中國

時代最令人失望者!加州州長怒批馬斯克:親手將美國電車王冠讓給了中國

快科技
2026-03-27 14:18:12
蜜雪的零售邊界,不止于一杯杯奶茶、咖啡、或啤酒

蜜雪的零售邊界,不止于一杯杯奶茶、咖啡、或啤酒

晚點LatePost
2026-03-26 18:50:35
全球唯一雙座隱身戰機!殲-20S跨界作戰有多震撼?專家解析

全球唯一雙座隱身戰機!殲-20S跨界作戰有多震撼?專家解析

齊魯壹點
2026-03-27 06:56:45
部分娃哈哈宏勝工廠停產,有工廠已放假

部分娃哈哈宏勝工廠停產,有工廠已放假

界面新聞
2026-03-27 14:59:14
自戰事爆發以來 伊朗平均每天賣油能多賺1.7億

自戰事爆發以來 伊朗平均每天賣油能多賺1.7億

財聯社
2026-03-27 11:05:06
關于伊朗的十大虛假敘事——你是如何被網軍欺騙的?

關于伊朗的十大虛假敘事——你是如何被網軍欺騙的?

楓嶺社
2026-03-27 10:49:09
羅技:“我一降價,你還不是像狗一樣跑過來”

羅技:“我一降價,你還不是像狗一樣跑過來”

電腦吧評測室
2026-03-26 22:05:58
感冒三藥、失眠三藥、牙痛三藥......40種常見病的三藥配對一覽表!

感冒三藥、失眠三藥、牙痛三藥......40種常見病的三藥配對一覽表!

環京快爆
2026-03-26 11:13:27
充電9分鐘續航超千里:全新騰勢Z9GT開啟閃充時代

充電9分鐘續航超千里:全新騰勢Z9GT開啟閃充時代

大眾侃車
2026-03-26 18:02:02
張雪峰女兒親自辟謠!父母恩愛沒離婚,回應三個問題,口才很意外

張雪峰女兒親自辟謠!父母恩愛沒離婚,回應三個問題,口才很意外

離離言幾許
2026-03-27 14:42:23
張雪峰去世僅兩天!公司宣布重大決定:收回他所有肖像使用權

張雪峰去世僅兩天!公司宣布重大決定:收回他所有肖像使用權

娛樂圈圈圓
2026-03-26 21:47:07
中美俄石油儲量對比:俄800億桶,美國超700億桶,中國有多少?

中美俄石油儲量對比:俄800億桶,美國超700億桶,中國有多少?

福建平子
2026-03-27 11:27:57
“咬死”ASML,禁止維修光刻機只是開始,輪到中國工程師頭疼了!

“咬死”ASML,禁止維修光刻機只是開始,輪到中國工程師頭疼了!

流史歲月
2026-03-27 12:05:09
一女子在湖南省道縣人民醫院生產后,與新生兒不幸雙雙離世,多方回應

一女子在湖南省道縣人民醫院生產后,與新生兒不幸雙雙離世,多方回應

半島官網
2026-03-27 15:13:26
奇瑞犀牛電池能“抗造”到離譜?切角、穿刺、泡水不爆炸,甚至還能正常供電!

奇瑞犀牛電池能“抗造”到離譜?切角、穿刺、泡水不爆炸,甚至還能正常供電!

極果酷玩
2026-03-27 14:58:30
史上首次:特朗普簽名將印上美元紙幣,打破165年傳統

史上首次:特朗普簽名將印上美元紙幣,打破165年傳統

上觀新聞
2026-03-27 12:58:08
打虎!廣東省政協副主席郭永航被查

打虎!廣東省政協副主席郭永航被查

極目新聞
2026-03-27 18:37:06
再婚8年,丈夫老實憨厚,鄰居卻悄悄提醒:你男人全身都是秘密

再婚8年,丈夫老實憨厚,鄰居卻悄悄提醒:你男人全身都是秘密

烙任情感
2026-03-26 16:32:02
涉嫌嚴重違紀違法,張建生被查

涉嫌嚴重違紀違法,張建生被查

都市快報橙柿互動
2026-03-27 14:59:18
2026-03-27 18:59:00
鈦媒體APP incentive-icons
鈦媒體APP
獨立財經科技媒體
131427文章數 862021關注度
往期回顧 全部

科技要聞

楊植麟張鵬夏立雪羅福莉,聊龍蝦、聊漲價

頭條要聞

美方稱在美軍事基地裝爆炸物的男子逃往中國 中方回應

頭條要聞

美方稱在美軍事基地裝爆炸物的男子逃往中國 中方回應

體育要聞

邵佳一:足球就像一場馬拉松

娛樂要聞

張雪峰靈堂內景曝光,四周擺滿了鮮花

財經要聞

我在小吃培訓機構學習“科技與狠活”

汽車要聞

與眾08,金標大眾不能輸的一戰

態度原創

家居
藝術
旅游
健康
軍事航空

家居要聞

曲線華爾茲 現代簡約

藝術要聞

張大千:形成于未畫之先,神留于既畫之后

旅游要聞

春滿京城 | 日壇玉蘭,紅墻一隅的春日清雅

干細胞抗衰4大誤區,90%的人都中招

軍事要聞

伊朗:已組織超100萬人為地面戰斗做準備

無障礙瀏覽 進入關懷版