品玩3月19日訊,據 Soul 官方消息,Soul App AI團隊與上海交通大學X-LANCE Lab、西北工業大學ASLP@NPU團隊聯合發布并開源了SoulX-Duplug模塊。該模塊旨在通過流式狀態預測,將傳統語音對話系統從半雙工交互模式升級為全雙工模式,從而獲得更自然、實時的語音對話能力。
全雙工語音交互允許系統在生成回復時持續聆聽用戶輸入,支持打斷、停頓、附和等接近人類的對話行為。當前,工業界多采用級聯模塊(如VAD、ASR、Turn Detection)實現全雙工,但存在延遲高、缺乏語義理解等問題。SoulX-Duplug創新性地將語音活動檢測、流式語音識別與對話狀態預測在單一模型中統一建模,通過“文本引導的流式狀態預測”機制,顯著降低了系統延遲并提升了對語義意圖的理解精度。
該模塊定義了user_idle、user_nonidle等五種對話狀態,并采用三階段訓練策略。實驗表明,基于該模塊構建的系統在“Full-Duplex-Bench”基準的多個關鍵交互維度上表現均衡且出色,總體延遲優于傳統方案,為優化對話系統的記憶、推理等核心智能能力解除了交互機制的束縛。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.