前不久春晚舞臺上,一段人形機(jī)器人的表演點燃了不少觀眾的熱情。流暢的動作、整齊的編排,讓很多人直呼“遙遙領(lǐng)先”。
緊接著,一段短視頻又在平臺上迅速傳播:畫面里,中國士兵一聲令下,春晚“同款”機(jī)器人完成機(jī)動、交替、掩護(hù)、射擊、換彈,一氣呵成,仿佛已經(jīng)具備戰(zhàn)術(shù)能力。
不少人由此得出結(jié)論——具身智能已經(jīng)可以上戰(zhàn)場了。
但事實真是如此嗎?
今天我們不賣關(guān)子:
春晚表演,本質(zhì)上是基于預(yù)設(shè)程序的演出編排;
而那段“戰(zhàn)術(shù)視頻”,則是AI生成的合成內(nèi)容。
不過,問題并沒有因此失去意義。
真正值得思考的是:
如果未來AI+人形機(jī)器人要走向軍事或高復(fù)雜場景應(yīng)用,它還差什么?需要多久?又會在哪個國家率先成熟?
這篇文章,我們把“具身智能”拆開講清楚。
![]()
一、什么是具身智能?
簡單說四個字:AI有了身體。
過去幾十年,機(jī)器人早已存在。工業(yè)流水線上的機(jī)械臂,就是最典型的代表。它們強壯、精準(zhǔn),但非常“死板”。一旦環(huán)境變化,系統(tǒng)就會失效。
而今天的大模型時代,AI擁有了理解能力。
當(dāng)AI不再只存在于服務(wù)器,而是被裝進(jìn)一個物理軀體里,它就從“會說話的軟件”,變成“能行動的存在”。
我們可以把具身智能拆解成四部分:
1. 軀體(腿和手)
2. 感知系統(tǒng)(視覺+觸覺)
3. 大腦(芯片與算力)
3. 靈魂(大模型)
下面一塊一塊說。
![]()
二、軀體:腿容易,手最難
1)腿部:技術(shù)已相對成熟
談到雙足行走,就繞不開Boston Dynamics(一家美國機(jī)器人公司)。
它們最新的全電動Atlas擁有50多個自由度,跌倒后可以用非人類方式折疊身體再站起。翻跟頭、跳躍都不是問題。
腿部控制,本質(zhì)是“和地面博弈”。
一旦掌握平衡與重心轉(zhuǎn)移的循環(huán)邏輯,就可以在不同地形上復(fù)用。
開源社區(qū)已經(jīng)有大量成熟算法。
在行走這一塊,軟件甚至走在硬件前面。
但——
2)手部:真正的難關(guān)
走路是周期任務(wù),
手部操作幾乎都是非周期性的。
一只仿生靈巧手通常有15~20個自由度。
自由度一翻倍,控制空間指數(shù)級增長。
人類之所以能創(chuàng)造文明,靠的正是雙手。
目前的突破方向,是盡量“像人”。
以挪威公司EXOS的腱驅(qū)動設(shè)計為例(行業(yè)常見方案),
電機(jī)放在前臂,手指內(nèi)部只有高強度纖維繩索模擬肌腱。
好處是什么?
- 慣性小
- 可以高頻微調(diào)
- 出現(xiàn)誤差時會“自適應(yīng)形變”
這讓機(jī)器人真正有機(jī)會進(jìn)入家庭,而不是只存在于圍欄內(nèi)的工廠。
在軍事層面也是一樣——
如果沒有靈巧手,連“扣扳機(jī)”“換彈夾”都做不到。
三、感知:看得見,還要摸得著
光有四肢不夠,機(jī)器人必須理解環(huán)境。
1)視覺系統(tǒng)
目前走純視覺路線的代表,是Tesla(特斯拉)的 Optimus。
它背后的核心是FSD視覺架構(gòu)。
不同于依賴激光雷達(dá)的路線,特斯拉通過多攝像頭數(shù)據(jù)融合構(gòu)建3D體素空間,并用占用網(wǎng)絡(luò)預(yù)測遮擋物體。
更重要的是數(shù)據(jù)規(guī)模——
全球數(shù)百萬輛車每天采集真實世界視頻數(shù)據(jù)。
數(shù)據(jù)量,就是AI的糧食。
![]()
2)觸覺系統(tǒng):最后一塊拼圖
視覺之外,人類還有一項與生俱來的能力——觸覺。
近年出現(xiàn)的新趨勢,是全身覆蓋數(shù)字觸覺皮膚。
這種電子織物每平方厘米上千個傳感單元,
并通過邊緣計算在“皮膚層”先處理90%的數(shù)據(jù),只把關(guān)鍵變化傳給中樞。
這解決兩個關(guān)鍵問題:
- 遮擋環(huán)境下的盲操
- 精細(xì)力度控制
比如在黑暗環(huán)境中維修設(shè)備,或者精細(xì)焊接。
沒有觸覺,機(jī)器人只是“看著干活”;
有了觸覺,它才開始“真正接觸世界”。
![]()
四、大腦:算力與芯片
這一塊的主導(dǎo)者幾乎沒有懸念——
NVIDIA(英偉達(dá))。
NVIDIA推出的機(jī)器人原生芯片平臺,強調(diào)數(shù)字孿生仿真訓(xùn)練。
在虛擬世界中進(jìn)行高速物理模擬,再把模型直接部署到實體機(jī)器人。
這意味著——
未來機(jī)器人可能實現(xiàn)“即插即用式學(xué)習(xí)”。
誰掌握算力,誰就掌握進(jìn)化速度。
五、靈魂:大模型才是關(guān)鍵
如果說芯片是大腦硬件,那么大模型就是靈魂。
當(dāng)前主流路徑包括:
- Google(谷歌)的 Gemini
- 特斯拉自研模型
- 多家初創(chuàng)公司的人形機(jī)器人VLM方案
最前沿的方向,是把感知、決策、控制三段式結(jié)構(gòu),壓縮為端到端神經(jīng)網(wǎng)絡(luò)。
不再是“識別—規(guī)劃—執(zhí)行”,
而是類似人類的“看到就動”。
這會帶來一個關(guān)鍵能力——
在復(fù)雜環(huán)境中保持連續(xù)動作,不抽搐、不報錯、不僵死。
如果未來要用于軍事或災(zāi)害救援,這種連續(xù)性至關(guān)重要。
![]()
六、人形一定是最優(yōu)解嗎?
很多人會問:
既然要軍事化,為什么非得人形?
直接給機(jī)器人裝武器不是更高效?
這個問題看似合理。
但我們忽略了一點——
現(xiàn)有武器系統(tǒng),幾乎全部圍繞“人類形態(tài)”設(shè)計。
槍械、車輛、建筑通道、掩體結(jié)構(gòu),都是基于人類尺寸與生理構(gòu)造。
如果不是人形,就需要為每一種武器重構(gòu)接口。
成本極高。
人形的優(yōu)勢,不在殺傷力,而在泛用性。
它可以:
- 第一階段持槍
- 第二階段搬運傷員
- 第三階段駕駛載具
而不需要更換平臺。
![]()
七、中國處于什么位置?
很多人會注意到,春晚機(jī)器人來自中國企業(yè)。
以宇樹科技為代表,
中國的人形機(jī)器人出貨量確實在增加。
但應(yīng)用場景目前更多集中在:
- 教育
- 展示
- 表演
相比之下,歐美公司更傾向直接瞄準(zhǔn)工業(yè)和社會生產(chǎn)。
中國真正的優(yōu)勢在哪里?
在供應(yīng)鏈。
長三角和珠三角,機(jī)器人核心零部件可以在一小時車程內(nèi)集齊。
諧波減速器、交叉滾子軸承、微電機(jī)、力傳感器,全產(chǎn)業(yè)鏈密集分布。
規(guī)模化能力,可能比單點技術(shù)更重要。
歷史上,中國在很多行業(yè)的勝出,并非最早發(fā)明,而是最早實現(xiàn)大規(guī)模、低成本。
具身智能,未必例外。
![]()
八、真的會走向“終結(jié)者”嗎?
很多人擔(dān)心:
機(jī)器人會不會搶工作?
會不會變成無人士兵?
從現(xiàn)實來看——
距離科幻電影還很遠(yuǎn)。
真正的瓶頸并不在“殺傷能力”,
而在泛化能力、能源密度、材料強度與系統(tǒng)穩(wěn)定性。
更現(xiàn)實的問題是:
當(dāng)機(jī)器人成本低于人工,
誰更有性價比?
那一天到來時,變化才會真正發(fā)生。
結(jié)語
春晚的機(jī)器人,是舞臺藝術(shù)。
短視頻里的戰(zhàn)術(shù)畫面,是AI合成。
但這不妨礙我們正視一個趨勢:
AI正在獲得身體。
具身智能正在經(jīng)歷百花齊放階段。
歐洲強調(diào)人文與安全,
美國強調(diào)突破與野心,
中國強調(diào)規(guī)模與成本。
未來會如何演變,沒有人能給出準(zhǔn)確時間表。
但可以確定的是——
真正的革命,不是某一段視頻,
而是當(dāng)AI真正能在現(xiàn)實世界中持續(xù)、穩(wěn)定、低成本地完成復(fù)雜任務(wù)。
那一刻,變化才算真正開始。
在那之前,
我們既不必盲目興奮,也不必過度恐懼。
保持理性,比情緒更重要。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.