![]()
撰文丨王聰
編輯丨王多魚
排版丨水成文
近幾年,基于大語言模型(LLM)的人工智能,以及機器人技術取得了一系列突破性進展,將二者結合的具身智能(Embodied AI)機器人,擁有無限想象空間。然而,將自然語言指令轉化為機器人的可靠物理動作,仍是該領域面臨的核心挑戰(zhàn),也就是說,我們仍需努力讓機器人能夠“聽懂人話”。
2026 年 3 月 16 日,華為諾亞方舟實驗室(Huawei Noah’s Ark Lab)的研究人員在 Nature 子刊Nature Machine Intelligence上發(fā)表了題為:A robot operating system framework for using large language models in embodied AI 的研究論文。
該研究通過將大語言模型智能體(LLM Agent)與機器人操作系統(tǒng)(ROS)相結合,構建了一個通用具身智能框架——ROS-LLM,并完全開源,該框架具備以下特性——自動將語言模型輸出轉化為機器人可執(zhí)行指令;支持內聯(lián)代碼和行為樹兩種可互換的執(zhí)行模式;通過模仿學習實現(xiàn)原子技能的自擴展能力;結合自動化優(yōu)化與人機交互反饋實現(xiàn)持續(xù)改進。經(jīng)多場景驗證(包括長周期任務、桌面重組、動態(tài)優(yōu)化等),該框架展現(xiàn)出良好的穩(wěn)健性、可擴展性和適應性。值得注意的是,所有實驗結果均基于開源預訓練模型實現(xiàn),且均在真實機器人(涵蓋固定基座機械臂和帶機械臂可行走機器人)上進行,從而為具身智能研究提供了可復現(xiàn)的解決方案。
這項研究不僅展示了人工智能與機器人技術融合的巨大潛力,更為我們描繪了一個更加智能、便捷的未來生活圖景——當機器人能夠真正聽懂人話,人類-機器人協(xié)作將進入一個全新時代。
![]()
機器人的“最后一公里”難題
傳統(tǒng)工業(yè)機器人雖然精準高效,但需要專業(yè)工程師編寫復雜的控制程序。這種專家依賴模式成本高昂,且難以適應家庭、實驗室等非結構化環(huán)境。當任務稍有變化,就需要重新編程,這大大限制了機器人的普及應用。
更棘手的是,現(xiàn)實世界充滿不確定性——物體位置變化、環(huán)境動態(tài)調整、任務需求多樣,傳統(tǒng)預設程序難以應對這些挑戰(zhàn)。這正是機器人從工廠走向家庭的“最后一公里”障礙。
ROS-LLM:連接語言與動作的智能橋梁
ROS-LLM框架的核心創(chuàng)新在于,它巧妙地將大語言模型(LLM)的“思考能力”與機器人操作系統(tǒng)(ROS)的“執(zhí)行能力”無縫對接。
工作原理:當你用自然語言(人話)發(fā)出指令時,大語言模型會理解你的意圖,將其分解為一系列原子動作(例如“移動到咖啡機前”、“拿起咖啡杯”等),然后生成對應的 ROS 代碼,指揮機器人按步驟執(zhí)行。
三大核心技術突破——
模仿學習新技能:非專家可以通過三種方式教機器人新動作——視覺觀察、搖桿遙操作或直接手把手教學。研究團隊在廚房模擬環(huán)境中,成功教會了機器人攪拌、傾倒、拋鍋、擦桌子、調味和磨碎等烹飪動作。
人類反饋實時修正:就像教小孩子做事一樣,當機器人犯錯時,只需簡單糾正(例如提醒它“別忘了拿刀叉”),它就能立即調整策略。實驗顯示,在復雜任務中,加入人類反饋后成功率顯著提升。
環(huán)境自適應能力:如果目標物體被移動,機器人會重新定位并完成任務。更智能的是,它還能記住這次經(jīng)驗,下次遇到類似情況時自主應對,減少對人的依賴。
![]()
性能與交互結果
真實世界的全面驗證
研究團隊在三大場景中驗證了框架的實用性:
家庭廚房任務:UR5 機械臂成功完成了“煮咖啡”這一包含 12 個步驟的復雜任務,從尋找杯子到操作咖啡機,全程自主完成。
遠程操控任務:遠在歐洲的操作員通過聊天界面,成功控制了位于亞洲的機器人完成避障抓取任務,僅有 2-3 秒的延遲。
化學實驗室自動化:機器人完全按照自然語言描述的實驗步驟,自主完成了“測試碳酸氫鈉 pH 值”的化學實驗,包括配制溶液、使用 pH 試紙、觀察顏色變化等精細操作。
![]()
咖啡制作任務分解為 12 個原子動作
開源開放的生態(tài)優(yōu)勢
與許多依賴商業(yè)大模型的研究不同,ROS-LLM 全部使用開源模型(例如 DeepSeek-7B Coder),確保了技術的可復現(xiàn)性和可訪問性。研究團隊已將完整代碼開源,任何研究者都可以在此基礎上繼續(xù)創(chuàng)新。
論文中的對比顯示,ROS-LLM 在多個維度上超越了現(xiàn)有方案:同時支持開源模型、人類反饋、環(huán)境反饋、真實機器人實驗、模仿學習、原子動作優(yōu)化、遠程控制和完整的 ROS 能力。
人人可用的機器人時代
這項研究的深遠意義在于,它大幅降低了機器人使用的技術門檻。未來,家庭服務機器人、實驗室助手、遠程作業(yè)設備等,都可能通過自然語言直接控制,無需編程專業(yè)知識。
研究團隊表示,最終目標是讓機器人像智能手機一樣普及,讓每個人都能輕松地與機器人協(xié)作,完成從家務到專業(yè)工作的各種任務。
隨著大語言模型(LLM)的不斷進步和機器人硬件的成本下降,ROS-LLM這樣的框架將加速機器人進入千家萬戶的進程。或許不久后,對機器人說“幫我做晚飯”或“整理一下房間”,就會像今天使用語音助手設置鬧鐘一樣平常。
論文鏈接:
https://www.nature.com/articles/s42256-026-01186-z
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.