337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

人形機器人,如何跑出數據荒漠

人形機器人拿起“逆襲”劇本

0
分享至

2026.04.20


本文字數:2943,閱讀時長大約5分鐘

作者 |第一財經 彭海斌

4月19日,北京亦莊機器人馬拉松決出勝負。

300余臺機器人參與競逐,它們或是自主導航,或是人類遙控完成了比賽。相比去年,機器人的運動能力大幅提升。現在機器人除了跑馬,還已經登上春晚舞臺,進入工廠流水線。這種技術進步有目共睹,而缺憾也一目了然:機器人依然不夠聰明。

機器人現在困于數據荒漠里。高質量數據,比石油還稀缺,阻礙了人工智能技術進入真實世界的腳步。“具身智能一定會出現涌現時刻的,而且涌現時刻一定是和數據量與數據組成掛鉤的。”覓蜂科技董事長兼CEO姚卯青不久前對第一財經記者表示。

缺口有多大

具身智能以機器人的形態,走出實驗室、奔赴千行百業。

人形機器人已經可以以自主的方式跑完半場馬拉松,它們也進入龍旗科技的平板工廠完成上下料工作,更不必提在舞臺上武術表演了。但機器人現在跑步的時候還是踉踉蹌蹌,工廠流水線上只能完成特定環節的工作,舞臺表演看上去還有些憨傻。

這些機器人,能完成一些工作,但確實還不太聰明。大語言模型比如ChatGPT、DeepSeek都已經見證了智能涌現,而機器人智能還在等待這一刻的到來。

高質量、標準化、規模化的數據,是驅動機器人奔向智能化時代的核心基石。姚卯青認為,機器人的智能涌現時刻一定是和數據量與數據組成掛鉤的。

“人形機器人是一個比汽車更大更具想象力的空間,我們正在這個時代的起點。雖然萬億產業蓄勢待發,但整個行業卻面臨著很大的瓶頸和挑戰——數據荒漠。”姚卯青在17日的智元合作伙伴大會上表示。

大語言模型的數據獲取成本比較低,可以從互聯網的各種日常應用里面輕松獲取。迪士尼的動畫、電子版的蘇東坡詞集,都可以成為大語言模型的高質量數據。

“目前最領先的大語言模型,比如GPT5用了100萬億token的訓練語料。”姚卯青說,1個token近似于0.75個英語單詞,正常人如果每分鐘誦讀150個單詞,需要100億個小時才能讀完這些語料集。

機器人所需數據的獲取難度高很多。高質量的真機數據,需要機器人去真實世界里摸爬滾打。比如機器人上手搬運行李、清潔房屋,才能獲取這些動作反饋的數據。如果說大語言模型需要的是一維的文本資料,機器人需要的就是三維開放世界的知識,數量級、復雜度、獲取成本都不可同日而語。

從數據供給側來看,過去兩年全國各地陸陸續續出現數據采集企業,它們有場景資源,有采集能力,但是缺少標準化的運營和管理體系,以及一套完整成熟的數據后處理、治理和流通的能力。只有原始數據是遠遠不夠的,它們需要經過很多的加工和標注,才能為人工智能企業所用。這導致一些數據采集企業空有資源卻沒法變現。

從數據的需求側來看,AI大模型公司、科技大廠的具身團隊、初創的人形機器人公司都需要海量的高質量數據,但是卻無法找到能穩定、快速地供給和高質量的方案,嚴重拖慢了AI類產品的落地。

極佳視界是一家具身智能和通用機器人的獨角獸公司,4月份剛剛完成新一輪的15億融資。在智元合作伙伴大會的圓桌環節,極佳視界聯合創始人朱政表示,該公司在訓練模型的過程中,大概使用了幾十萬個小時的數據。這些數據主要有兩個來源,第一是各種網上公開的數據,包括合作伙伴,包括學術機構開源出來的數據;第二則是極佳視界自己采集的數據。

“大部分數據都是在實驗室環境下,或者說在人工設置好的場景下采集的。我們覺得還不夠真實,希望數據更多一些泛服務場景、工業場景,甚至家庭場景,更加真實我們覺得更好。”朱政說。

外購數據質量往往不達標,數據質量參差不齊。

“我們之前做多模態模型的時候,一張圖可能給它幾千句話的標注,詳細地描述這張圖里面的背景、前景、發生了什么,以及不同標注員對它的理解。現在的視頻數據,除了自己采回來的數據之外,都是非常簡略地標注,對整個環境的標注、對任務的描述遠遠不夠。”朱政表示。

姚卯青深有同感。

“這些數據里面,標注很多是不太規范的,各種傳感器之間的空間標定,時間上的同步也有很多問題。標注質量也比較粗糙,臟數據還是充斥著整個市場的。”姚卯青說,現在的大模型都是數據驅動,什么樣的數據就產生什么樣的模型。“garbage in、garbage out,如果你是垃圾數據進,就垃圾模型出。”

數據低質,造成的深層次問題是,如果有一個好的算法,訓練后卻沒有得到好的效果,機器人企業將難以分辨,到底是數據不好,還是模型出了問題,甚至可能因此而否定掉優秀的算法。

“今天整個行業的高質量數據匯聚在一起,湊湊可能就50萬小時的規模。”姚卯青認為,要達到智能涌現時刻,1億小時的訓練數據可能都不夠。高質量真機數據的供需之間,存在成千上萬倍的差距。

鴻溝如何填平

各家機器人企業,數據標準各自為戰。

不少機器人企業在自主生產數據,但數據格式、標注等都是自成體系。

“它們都是一個個的孤島,很難互通復用。這就造成了企業與企業之間、上游與下游、應用方與數據生產方等的協作成本非常高,整個產業很難形成合力快速地往規模化發展。”姚卯青分析說。

真機數據成本高昂,采集一小時數據大概需要200元甚至更高。按照這樣的成本核算,人類恐怕會因為總體成本太高而難以采集幾百億小時數據。仿真數據等雖然訓練效果不及真機數據,是一個退而求其次的選擇,但也變得不可或缺。

智元專門成立了覓蜂科技以采集和加工數據。根據覓蜂科技的規劃,2026年要實現千萬小時級的數據產能,其中包括真機、仿真,也包括人類數據。

“數據金字塔包括三層,最上面這一層是真機的數據,它一定是最有針對性、質量最高的數據;中間這一層是仿真數據;下面這一層是視頻數據、互聯網數據,現在我認為可能更具代表性的是人類數據。”光輪智能CEO謝晨表示。

數據的核心問題,謝晨認為不在數據本身,而是在模型評價上。現在缺乏一個足夠開放的、足夠真實的,且可規模化的落地到真實場景的具身模型評價方式。如果沒有合適的評價體系,企業就不知道用什么樣的數據能夠做好具身模型。

這個可規模化的評價體系,謝晨認為底層需要的是仿真,所以他認為真機數據、仿真數據、人類數據都至關重要。它們都是智能涌現的必要條件。

就如同特斯拉FSD有上百萬輛車,不斷地從真實場景拿回數據。具身智能需要用人類的手腳與全世界各種各樣的物體進行交互以獲取數據。具身數據的難度、數據需求的規模可能會在特斯拉FSD的1000倍。

謝晨認為,比照特斯拉的100萬輛汽車,具身智能需要10億個數據生成器,這需要動員真機、仿真和人類三大核心來源。

在數據稀缺的情況下,現在對數據的利用效率還很低,亟待提高。

據朱政透露,極佳視界用了幾十萬個小時的數據訓練模型,為此每年要在GPU算力上花掉幾千萬人民幣。如果按照當下的數據使用效率,極佳把訓練數據擴增100倍甚至1000倍的時候,單單為GPU燒掉的錢就會超過它所能承受的支付能力。

“我們一方面要擴增數據,一方面要努力地改善模型的架構,提高運行的效率。”朱政說。

在今年的北京亦莊機器人馬拉松上,人形機器人奔跑的速度已經追平人類運動員。但人形機器人企業探尋高質量數據的馬拉松才剛剛開始。

微信編輯| 蘇小

:bianjibu@yicai.com

:business@yicai.com

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
秦嵐首度公開父母過世,一個人辦追悼會不哭,和魏大勛不婚不育

秦嵐首度公開父母過世,一個人辦追悼會不哭,和魏大勛不婚不育

椰黃娛樂
2026-04-18 13:41:46
鄭麗文之后,國民黨大佬抵京!她的2個“必然”、狠狠敲打賴清德

鄭麗文之后,國民黨大佬抵京!她的2個“必然”、狠狠敲打賴清德

墨印齋
2026-04-19 19:59:49
最新!美國10名頂尖科學家接連消失,特朗普緊急回應,原因被曝光

最新!美國10名頂尖科學家接連消失,特朗普緊急回應,原因被曝光

影像溫度
2026-04-19 17:27:22
朝鮮男人煙不離手,金正恩抽什么牌子的香煙?一包煙的價格是多少

朝鮮男人煙不離手,金正恩抽什么牌子的香煙?一包煙的價格是多少

番外行
2026-04-16 08:25:40
兩性關系:異性好友同住一間房,男生不敢動,女生卻在裝睡

兩性關系:異性好友同住一間房,男生不敢動,女生卻在裝睡

游戲收藏指南
2026-04-20 11:02:04
57歲好萊塢女星太敢說:自曝生猛夫妻生活,不用生娃更盡興

57歲好萊塢女星太敢說:自曝生猛夫妻生活,不用生娃更盡興

橙星文娛
2026-04-18 16:47:02
上海遼寧隊焦點戰CCTV5直播!遼寧季后賽對手鎖定山東,廣東爭前4

上海遼寧隊焦點戰CCTV5直播!遼寧季后賽對手鎖定山東,廣東爭前4

老吳說體育
2026-04-20 11:07:00
今年英超不讓四!歐冠席位幾已確定,曼聯門神歸功于學會丑陋贏球

今年英超不讓四!歐冠席位幾已確定,曼聯門神歸功于學會丑陋贏球

羅米的曼聯博客
2026-04-20 09:28:20
車主速看!4月30日前未辦理,5月1日起一律扣分罰款

車主速看!4月30日前未辦理,5月1日起一律扣分罰款

西莫的藝術宮殿
2026-04-20 08:03:03
李雨桐泄露薛之謙手機號、身份證號,被北京警方行拘10天

李雨桐泄露薛之謙手機號、身份證號,被北京警方行拘10天

瀟湘晨報
2026-04-19 17:48:09
隆基董事長實名舉報萬科,可能會進一步動搖萬科與合作方信任基石

隆基董事長實名舉報萬科,可能會進一步動搖萬科與合作方信任基石

老潘聊地產
2026-04-17 21:08:12
拉住跳樓女友5分鐘至力竭,仍被判10%責賠8萬:司法自由裁量+無限責任令人不寒而栗

拉住跳樓女友5分鐘至力竭,仍被判10%責賠8萬:司法自由裁量+無限責任令人不寒而栗

少爺寫春秋
2026-04-18 22:47:55
朝鮮想買中國的殲10CE戰斗機,結果被拒絕了

朝鮮想買中國的殲10CE戰斗機,結果被拒絕了

安安說
2026-04-19 14:59:08
最差勁的美國總統是誰,不是特朗普、不是拜登,而是作惡多端的他

最差勁的美國總統是誰,不是特朗普、不是拜登,而是作惡多端的他

手里有讀
2026-04-20 09:41:28
中央定調,養老金調整通知可能4-5月發?30年工齡能加超100元嗎?

中央定調,養老金調整通知可能4-5月發?30年工齡能加超100元嗎?

王五說說看
2026-04-20 07:05:10
廣東宏遠今日早報!新大外仍未注冊,杜鋒再創紀錄,登頂潛力賽

廣東宏遠今日早報!新大外仍未注冊,杜鋒再創紀錄,登頂潛力賽

多特體育說
2026-04-20 09:33:14
女大學生感覺多位男生喜歡自己,到處表白被拒確診桃花癲

女大學生感覺多位男生喜歡自己,到處表白被拒確診桃花癲

半島晨報
2026-04-19 20:41:49
科爾2000萬留隊!勇士官宣大變革:為庫里豪賭字母哥詹皇小卡!

科爾2000萬留隊!勇士官宣大變革:為庫里豪賭字母哥詹皇小卡!

錢說體育
2026-04-19 18:00:40
研究表明:男性嫖娼率6.4%,女性出軌率15%,且越有錢越開放!

研究表明:男性嫖娼率6.4%,女性出軌率15%,且越有錢越開放!

黯泉
2026-04-01 17:28:39
韋東奕終于升了!七年講師熬出頭,評審會開到院長臉通紅

韋東奕終于升了!七年講師熬出頭,評審會開到院長臉通紅

娛小余
2026-04-03 22:52:32
2026-04-20 11:48:49
第一財經資訊 incentive-icons
第一財經資訊
第一財經官方賬號
250792文章數 622088關注度
往期回顧 全部

科技要聞

藍色起源一級火箭完美回收 客戶衛星未入軌

頭條要聞

男子收到陌生賬號轉賬8萬余元 3天后奢侈品牌商家找來

頭條要聞

男子收到陌生賬號轉賬8萬余元 3天后奢侈品牌商家找來

體育要聞

七大獎項候選官宣!文班或全票DPOY

娛樂要聞

鹿晗生日上熱搜,被關曉彤撕下體面

財經要聞

月之暗面IPO迷局

汽車要聞

外觀非常驚艷 全新一代寶馬6系有望回歸

態度原創

數碼
親子
旅游
公開課
軍事航空

數碼要聞

小米米家中央空調人感風風管機雙出風預售:超一級能效,8999元

親子要聞

普通家庭養娃補鈣,90% 家長都補錯了!

旅游要聞

贛鄱千年道:見證一片葉子的多種“打開方式”

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:美艦向伊朗貨船開火炸出個洞

無障礙瀏覽 進入關懷版