網易首頁 > 網易號 > 正文申請入駐

AWE2026：聲網RTCx對話式AI 讓硬件“能看會動”

2026-03-13 14:36:10　來源: 趣味科技

湖南舉報

分享至

在3月12日開幕的2026年中國家電及消費電子博覽會（AWE 2026）上，聲網以兩大重磅發布亮相——對話式 AI 開發套件 R 全系列產品與“泛 IPC 實時交互+智能處理引擎”，并攜數十款搭載其技術的明星硬件產品組，向業界展示了其決定硬件交互體驗的關鍵角色。

從 AI 毛絨玩具到桌面情感機器人，從出海攝像頭到 3D 打印機，基于人類自然語言的對話式 AI 與高可靠的實時傳輸能力，正成為連接數字智能與物理實體的主線。聲網此次通過“開發套件迭代+行業解決方案升級”，為硬件廠商鋪設了一條從“能聽會說”到“能看會動”，從“看得見”到“能互動、會思考”的快車道。

開發套件一年三迭代：從“能聽會說”到“能看會動”

要在物理世界實現真正的智能，硬件不僅需要大模型作為“大腦”，更需要一套實時交互的“神經系統”。過去一年，聲網 R 系列開發套件以驚人的速度迭代：

2025年3月，聲網發布對話式 AI 開發套件 R1，專注于解決實時全雙工對話、背景降噪和智能打斷。發布至今，R1 套件出貨已達百萬量級，被廣泛應用于 AI 玩具、陪伴機器人等產品，成為行業內的標準參考方案之一。

2025年9月，針對移動化需求，聲網聯合紫光展銳、謹訊推出 R1-4G 開發套件，通過加入 4G 通信能力，賦予 AI 硬件無邊界陪伴的屬性，為智能穿戴和車載場景鋪平了道路。

在本次 AWE 上，聲網 R2 全場景 AI 機器人開發套件原型機首次亮相。R2 在繼承全雙工語音優勢的基礎上，新增了本地視覺識別與多自由度運動控制，實現了從“能聽會說”到“能看會動”的關鍵跨越。它能“看懂”手勢、識別人臉軌跡，甚至實現“走到你面前打招呼”或“轉頭注視說話者”這類充滿生命感的本能反應。這種“被看見”和“被注視”的體驗，讓 AI 從一個簡單應答的硬件，進化成了有靈性的陪伴者，為后續復雜場景落地提供了標準化的“技術基座”。

場景躍遷：從情感陪伴到具身智能，市場驗證AI硬件爆發力

技術的演進最終落腳于用戶體驗的變遷。在聲網展臺上，這種變遷直觀地表現為產品形態的進化。

早期的代表是珞博智能的芙崽 Fuzozo ，這款口袋里的 AI 毛絨寵物“618”預售10分鐘破千單，月出貨2萬臺，斬獲主流電商平臺 AI 玩具品類銷量冠軍。它憑借聲網提供的流暢全雙工對話能力，讓用戶第一次感受到——原來和機器聊天可以如此自然、無需喚醒、沒有延遲，證明了 AI 硬件走出工具屬性、進入情感維度的商業可行性。

而在 AWE 上亮相的陸卡卡，則代表了全新的物種。作為搭載 R2 套件的桌面級情感機器人，陸卡卡不再被動等待對話。當你走近它時，它會轉頭凝視你；當你指向某處，它能循聲辨位。這種“被注視”的體驗，將人機交互從“命令-響應”的機械流程，推進到了“感知-共鳴”的情感層面。

從芙崽到陸卡卡，是從“能聽會說”到“能看會動”的跨越。隨著運動控制算法與端側多模態模型的進一步融合，具身智能將是聲網的下一站。

開放的“基建”：AOSL開源，重塑芯片與硬件生態的協同邏輯

今年年初，聲網宣布了一項具有行業戰略意義的舉措：將核心的硬件抽象層項目 AOSL在 GitHub 全面開源。AOSL 在操作系統、芯片與 RTC 傳輸層之間定義了一套標準接口，屏蔽了底層 FreeRTOS、Linux 與不同芯片型號之間的差異。對于芯片廠商而言，接入 AOSL 意味著其硬件從出廠即具備了“聲網級”的實時互動能力。

本次 AWE 上聲網首次展現了最新的開源生態，這種“開源底座+商業套件”的模式，正在吸引越來越多芯片伙伴加入生態，將硬件的創新模式從過去的“一次性定制”推向了“可復用、可擴展”的生態協作。

泛IPC解決方案首發：提供高可靠傳輸與端云協同AI能力

如果說對話式 AI 開發套件解決的是“如何讓硬件更智能”的問題，那么聲網同步發布的 “泛 IPC 實時交互+智能處理引擎”，則直面“如何讓海量IoT設備在全球范圍內穩定連接、實時交互”的剛需。

對于攝像頭、掃地機器人、3D 打印機、寵物喂食器等設備，用戶的期待早已不是“能遠程看一眼”這么簡單。他們希望：在海外也能秒速打開家里的監控；在弱網環境下掃地機依然聽指揮；在寵物異常時第一時間收到提醒；在 3D 打印過程中實時掌控進度。這些期待的背后，是對實時交互能力與端云協同 AI 的雙重考驗。

聲網該解決方案集成四大核心能力：

1、全球覆蓋，秒見圖

依托聲網自研的 SD-RTN?（全球實時互動網絡），覆蓋200+國家和地區，特別針對東南亞、中東、北美及國內中小城市進行網絡深度優化。建聯成功率>99.9%，首幀出圖毫秒級，全球范圍實現“秒見圖”，徹底告別黑屏焦慮。對于出海 IPC 廠商，這意味著在東南亞、中東等網絡基礎設施薄弱地區，設備首次激活成功率>99.9%，從源頭降低退貨風險。

2、弱網不斷連，延遲穩定可控

基于聲網音視頻編解碼專利算法，即使在80%音視頻丟包的極端弱網環境下，依然能保障畫面流暢與指令實時響應，設備5s連通率達到99.5%。掃地機移動到庭院角落、割草機穿行于花園邊緣，依然保持連接控制，不會“失聯亂撞”。

3、端云協同AI，讓設備“會思考”

打通實時傳輸鏈路與云端 AI 能力，實時鏈路上可自由加載各類垂直場景智能識別算法，覆蓋寵物檢測、人臉識別、行為分析、聲音識別等場景。畫面/聲音在傳輸過程中同步完成AI分析，檢測結果實時推送到用戶端。設備廠商無需更換硬件，即可通過云端加載算法的方式，為存量設備增加增值服務。

4、多端互通+安全合規，為全球化掃清障礙

突破P2P方案通常限制2-4人的瓶頸，支持不限平臺、不限人數的交互與觀看。通過ISO/IEC 27001等系列認證，符合 GDPR、HIPAA、CCPA、COPPA 等全球法規要求。獨特的傳輸技術確保設備內網 IP 不直接暴露公網，從鏈路層規避黑客攻擊風險。

回顧這十年變遷，我們不難發現：無論是 APP 還是硬件，形態終將更迭，但人類通過最自然的語言與機器交互的訴求是永恒的。

當 AI 硬件從“功能機”向“情感機”、“智能體”進化，實時互動體驗的優劣將成為決定產品生死的關鍵。作為全球實時音視頻云服務的開創者，聲網始終致力于為人與人、人與Agent、Agent 與 Agent 的多模態實時交互提供最佳體驗。通過對話式 AI 開發套件的一代代升級、通過 AOSL 開源生態的構建、通過泛 IPC 解決方案的全球部署，聲網正在將復雜的實時互動能力標準化、模塊化，為整個行業鋪設通往萬物智聯時代的底層通路。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.