337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

人形機器人,如何跑出數據荒漠

0
分享至

2026.04.20


本文字數:2943,閱讀時長大約5分鐘

作者 |第一財經 彭海斌

4月19日,北京亦莊機器人馬拉松決出勝負。

300余臺機器人參與競逐,它們或是自主導航,或是人類遙控完成了比賽。相比去年,機器人的運動能力大幅提升。現在機器人除了跑馬,還已經登上春晚舞臺,進入工廠流水線。這種技術進步有目共睹,而缺憾也一目了然:機器人依然不夠聰明。

機器人現在困于數據荒漠里。高質量數據,比石油還稀缺,阻礙了人工智能技術進入真實世界的腳步。“具身智能一定會出現涌現時刻的,而且涌現時刻一定是和數據量與數據組成掛鉤的。”覓蜂科技董事長兼CEO姚卯青不久前對第一財經記者表示。

缺口有多大

具身智能以機器人的形態,走出實驗室、奔赴千行百業。

人形機器人已經可以以自主的方式跑完半場馬拉松,它們也進入龍旗科技的平板工廠完成上下料工作,更不必提在舞臺上武術表演了。但機器人現在跑步的時候還是踉踉蹌蹌,工廠流水線上只能完成特定環節的工作,舞臺表演看上去還有些憨傻。

這些機器人,能完成一些工作,但確實還不太聰明。大語言模型比如ChatGPT、DeepSeek都已經見證了智能涌現,而機器人智能還在等待這一刻的到來。

高質量、標準化、規模化的數據,是驅動機器人奔向智能化時代的核心基石。姚卯青認為,機器人的智能涌現時刻一定是和數據量與數據組成掛鉤的。

“人形機器人是一個比汽車更大更具想象力的空間,我們正在這個時代的起點。雖然萬億產業蓄勢待發,但整個行業卻面臨著很大的瓶頸和挑戰——數據荒漠。”姚卯青在17日的智元合作伙伴大會上表示。

大語言模型的數據獲取成本比較低,可以從互聯網的各種日常應用里面輕松獲取。迪士尼的動畫、電子版的蘇東坡詞集,都可以成為大語言模型的高質量數據。

“目前最領先的大語言模型,比如GPT5用了100萬億token的訓練語料。”姚卯青說,1個token近似于0.75個英語單詞,正常人如果每分鐘誦讀150個單詞,需要100億個小時才能讀完這些語料集。

機器人所需數據的獲取難度高很多。高質量的真機數據,需要機器人去真實世界里摸爬滾打。比如機器人上手搬運行李、清潔房屋,才能獲取這些動作反饋的數據。如果說大語言模型需要的是一維的文本資料,機器人需要的就是三維開放世界的知識,數量級、復雜度、獲取成本都不可同日而語。

從數據供給側來看,過去兩年全國各地陸陸續續出現數據采集企業,它們有場景資源,有采集能力,但是缺少標準化的運營和管理體系,以及一套完整成熟的數據后處理、治理和流通的能力。只有原始數據是遠遠不夠的,它們需要經過很多的加工和標注,才能為人工智能企業所用。這導致一些數據采集企業空有資源卻沒法變現。

從數據的需求側來看,AI大模型公司、科技大廠的具身團隊、初創的人形機器人公司都需要海量的高質量數據,但是卻無法找到能穩定、快速地供給和高質量的方案,嚴重拖慢了AI類產品的落地。

極佳視界是一家具身智能和通用機器人的獨角獸公司,4月份剛剛完成新一輪的15億融資。在智元合作伙伴大會的圓桌環節,極佳視界聯合創始人朱政表示,該公司在訓練模型的過程中,大概使用了幾十萬個小時的數據。這些數據主要有兩個來源,第一是各種網上公開的數據,包括合作伙伴,包括學術機構開源出來的數據;第二則是極佳視界自己采集的數據。

“大部分數據都是在實驗室環境下,或者說在人工設置好的場景下采集的。我們覺得還不夠真實,希望數據更多一些泛服務場景、工業場景,甚至家庭場景,更加真實我們覺得更好。”朱政說。

外購數據質量往往不達標,數據質量參差不齊。

“我們之前做多模態模型的時候,一張圖可能給它幾千句話的標注,詳細地描述這張圖里面的背景、前景、發生了什么,以及不同標注員對它的理解。現在的視頻數據,除了自己采回來的數據之外,都是非常簡略地標注,對整個環境的標注、對任務的描述遠遠不夠。”朱政表示。

姚卯青深有同感。

“這些數據里面,標注很多是不太規范的,各種傳感器之間的空間標定,時間上的同步也有很多問題。標注質量也比較粗糙,臟數據還是充斥著整個市場的。”姚卯青說,現在的大模型都是數據驅動,什么樣的數據就產生什么樣的模型。“garbage in、garbage out,如果你是垃圾數據進,就垃圾模型出。”

數據低質,造成的深層次問題是,如果有一個好的算法,訓練后卻沒有得到好的效果,機器人企業將難以分辨,到底是數據不好,還是模型出了問題,甚至可能因此而否定掉優秀的算法。

“今天整個行業的高質量數據匯聚在一起,湊湊可能就50萬小時的規模。”姚卯青認為,要達到智能涌現時刻,1億小時的訓練數據可能都不夠。高質量真機數據的供需之間,存在成千上萬倍的差距。

鴻溝如何填平

各家機器人企業,數據標準各自為戰。

不少機器人企業在自主生產數據,但數據格式、標注等都是自成體系。

“它們都是一個個的孤島,很難互通復用。這就造成了企業與企業之間、上游與下游、應用方與數據生產方等的協作成本非常高,整個產業很難形成合力快速地往規模化發展。”姚卯青分析說。

真機數據成本高昂,采集一小時數據大概需要200元甚至更高。按照這樣的成本核算,人類恐怕會因為總體成本太高而難以采集幾百億小時數據。仿真數據等雖然訓練效果不及真機數據,是一個退而求其次的選擇,但也變得不可或缺。

智元專門成立了覓蜂科技以采集和加工數據。根據覓蜂科技的規劃,2026年要實現千萬小時級的數據產能,其中包括真機、仿真,也包括人類數據。

“數據金字塔包括三層,最上面這一層是真機的數據,它一定是最有針對性、質量最高的數據;中間這一層是仿真數據;下面這一層是視頻數據、互聯網數據,現在我認為可能更具代表性的是人類數據。”光輪智能CEO謝晨表示。

數據的核心問題,謝晨認為不在數據本身,而是在模型評價上。現在缺乏一個足夠開放的、足夠真實的,且可規模化的落地到真實場景的具身模型評價方式。如果沒有合適的評價體系,企業就不知道用什么樣的數據能夠做好具身模型。

這個可規模化的評價體系,謝晨認為底層需要的是仿真,所以他認為真機數據、仿真數據、人類數據都至關重要。它們都是智能涌現的必要條件。

就如同特斯拉FSD有上百萬輛車,不斷地從真實場景拿回數據。具身智能需要用人類的手腳與全世界各種各樣的物體進行交互以獲取數據。具身數據的難度、數據需求的規模可能會在特斯拉FSD的1000倍。

謝晨認為,比照特斯拉的100萬輛汽車,具身智能需要10億個數據生成器,這需要動員真機、仿真和人類三大核心來源。

在數據稀缺的情況下,現在對數據的利用效率還很低,亟待提高。

據朱政透露,極佳視界用了幾十萬個小時的數據訓練模型,為此每年要在GPU算力上花掉幾千萬人民幣。如果按照當下的數據使用效率,極佳把訓練數據擴增100倍甚至1000倍的時候,單單為GPU燒掉的錢就會超過它所能承受的支付能力。

“我們一方面要擴增數據,一方面要努力地改善模型的架構,提高運行的效率。”朱政說。

在今年的北京亦莊機器人馬拉松上,人形機器人奔跑的速度已經追平人類運動員。但人形機器人企業探尋高質量數據的馬拉松才剛剛開始。

微信編輯| 蘇小

:bianjibu@yicai.com

:business@yicai.com

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
伊朗議長:對美不信任仍未完全化解 敦促美方對等履約

伊朗議長:對美不信任仍未完全化解 敦促美方對等履約

環球網資訊
2026-04-19 10:55:53
伊朗消息人士:伊方尚無參加下一輪伊美談判的計劃

伊朗消息人士:伊方尚無參加下一輪伊美談判的計劃

新華社
2026-04-20 04:00:04
莫言:告訴你一個基本不會得罪人的方法,那就是當別人找你幫忙時,你一定要痛痛快快地拒絕,猶猶豫豫地同意

莫言:告訴你一個基本不會得罪人的方法,那就是當別人找你幫忙時,你一定要痛痛快快地拒絕,猶猶豫豫地同意

每日一首古詩詞
2026-04-09 06:06:47
何潔自曝養家艱難,40歲斷崖式衰老?明明一手好牌,為何被打爛

何潔自曝養家艱難,40歲斷崖式衰老?明明一手好牌,為何被打爛

扒點半吃瓜
2026-03-10 07:00:13
血脂高不高,看頭就知道,血脂高的人會有這3個表現,看看有沒有

血脂高不高,看頭就知道,血脂高的人會有這3個表現,看看有沒有

芹姐說生活
2026-04-18 15:44:42
國家出手抓的4位央視主持!個個都淪為階下囚,最嚴重的出賣國家

國家出手抓的4位央視主持!個個都淪為階下囚,最嚴重的出賣國家

汪巗的創業之路
2026-04-19 21:13:34
女籃世界杯分檔出爐!中國隊直接避開5大勁敵:這下沖擊四強穩了

女籃世界杯分檔出爐!中國隊直接避開5大勁敵:這下沖擊四強穩了

籃球快餐車
2026-04-19 06:07:20
存儲芯片,要崩盤了嗎?

存儲芯片,要崩盤了嗎?

君臨財富
2026-04-19 22:55:54
裁員投票我寫了自己,結果50人里49票是我,唯獨董事長沒選我

裁員投票我寫了自己,結果50人里49票是我,唯獨董事長沒選我

紅豆講堂
2026-02-09 13:25:09
上海男籃沖擊22連勝!全力擊敗遼寧隊,洛夫頓復出,央視直播

上海男籃沖擊22連勝!全力擊敗遼寧隊,洛夫頓復出,央視直播

體壇瞎白話
2026-04-19 07:27:44
英超瘋狂一夜:絕殺頻現,保級隊驚天逆轉

英超瘋狂一夜:絕殺頻現,保級隊驚天逆轉

余憁搞笑段子
2026-04-20 00:20:16
正式退出,全紅嬋無緣亞運會?跳水隊官宣選拔條件,全紅嬋獲資格

正式退出,全紅嬋無緣亞運會?跳水隊官宣選拔條件,全紅嬋獲資格

懂球社
2026-04-19 20:23:38
數名醫生強調:只要做過腸息肉切除手術,術后病人一定關注這幾點

數名醫生強調:只要做過腸息肉切除手術,術后病人一定關注這幾點

今日養生之道
2026-04-19 20:58:20
1985年,國安叛徒藏身南美,中國6名兵王萬里鋤奸,FBI顏面盡失

1985年,國安叛徒藏身南美,中國6名兵王萬里鋤奸,FBI顏面盡失

干史人
2026-04-14 21:10:03
“一個針頭給15人采血”浙江宣傳為何又默不作聲?

“一個針頭給15人采血”浙江宣傳為何又默不作聲?

清哲木觀察
2026-04-19 11:14:52
人民幣升值了1200點!首次成為第二大結算貨幣,美元占比大幅回落

人民幣升值了1200點!首次成為第二大結算貨幣,美元占比大幅回落

別人都叫我阿腈
2026-04-19 10:30:51
懸殊的7-2!丁俊暉接近會師趙心童,6-4到6-10,中國出局首人確定

懸殊的7-2!丁俊暉接近會師趙心童,6-4到6-10,中國出局首人確定

小火箭愛體育
2026-04-19 20:41:49
伊朗向中國通報!談判團差點被美軍“團滅”,全程連電話都不敢打

伊朗向中國通報!談判團差點被美軍“團滅”,全程連電話都不敢打

荷蘭豆愛健康
2026-04-19 21:53:37
真是犟種!福建男子深夜補胎還價50被拒,竟踩著沒氣的胎把車開走

真是犟種!福建男子深夜補胎還價50被拒,竟踩著沒氣的胎把車開走

火山詩話
2026-04-17 07:08:22
就在剛剛,中國東方航空正式宣布

就在剛剛,中國東方航空正式宣布

安安說
2026-04-19 15:05:08
2026-04-20 04:39:00
第一財經資訊 incentive-icons
第一財經資訊
第一財經官方賬號
250769文章數 622083關注度
往期回顧 全部

科技要聞

50分26秒破人類紀錄!300臺機器人狂飆半馬

頭條要聞

半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

頭條要聞

半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

何潤東漲粉百萬!內娛隔空掀桌第一人

財經要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬 極氪8X為什么這么多人買?

態度原創

藝術
游戲
健康
數碼
手機

藝術要聞

超模施特洛耶克寫真曝光,簡直美到窒息,別錯過!

如何將ZH-1火力最大化?《戰艦世界》15.3版本造船廠加點攻略

干細胞抗衰4大誤區,90%的人都中招

數碼要聞

華為新機發布前瞻:闊折疊X Max+影像旗艦Pura 90,都沒懸念了

手機要聞

8.8英寸小鋼炮!REDMI K Pad 2核心配置揭曉

無障礙瀏覽 進入關懷版