337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

Mini-Omni-Reasoner:實時推理,定義下一代端到端對話模型

0
分享至



本文第一作者謝之非,共同第一作者馬子陽皆是來自于南洋理工大學的博士生。通訊作者為新加坡國立大學特聘教授顏水成和南洋理工大學數(shù)據(jù)與科學系校長講席教授苗春燕。共同作者為騰訊AI首席專家葉德珩和新加坡國立大學博士后研究員廖越。

兩千多年前,孔子說過「三思而后行」。這句古老箴言,其實點出了人類面對復雜問題的核心智慧:一步步推理,層層拆解,最終做出可靠的決策。

現(xiàn)在,已有諸多模型在復雜推理方面展現(xiàn)出顯著進展,如 DeepSeek-R1 和 OpenAI o1,部分多模態(tài)系統(tǒng)甚至能夠處理跨領域的復雜任務,展現(xiàn)出解決復雜現(xiàn)實問題的潛力。然而,在端到端對話模型中,推理能力尚未解鎖。

原因并不復雜。深度思考意味著模型往往需要在輸出前生成完整推理鏈,而這直接帶來延遲。對于語音對話系統(tǒng)而言,速度與質量同樣關鍵。一旦停頓過長,哪怕答案再精妙,也會破壞交互的自然感。

設想一個場景:你問語音助手「這份研究報告的結論可靠嗎?」。如果模型沉默十秒才給出語音的回復,則完全失去對話的體驗;若它立刻回答,但推理缺乏深度,又容易顯得表面化。問題在于:要么得到一個「強大但反應遲鈍」的助手,要么得到一個「迅速但思維簡單」的助手。魚與熊掌,似乎不可兼得。

基于這一挑戰(zhàn),我們提出了 Mini-Omni-Reasoner——一種專為對話場景打造的實時推理新范式。它通過「Thinking-in-Speaking」實現(xiàn)邊思考邊表達,既能實時反饋、輸出自然流暢的語音內容,又能保持高質量且可解釋的推理過程。



  • 論文標題:MINI-OMNI-REASONER: TOKEN-LEVEL THINKING-IN-SPEAKING IN LARGE SPEECH MODELS
  • 論文鏈接
  • https://arxiv.org/pdf/2508.15827
  • 項目主頁
  • https://github.com/xzf-thu/Mini-Omni-Reasoner

Mini-Omni-Reasoner:

邊思考,邊表達



讓我們暫時把視角放回人類自己。當一個人面對復雜問題時,往往不是「想完再說」,而是「邊說邊想」。當被問到「如何理解人工智能的未來」時,大多數(shù)人不會先默默推理數(shù)分鐘再完整輸出結論,而是會邊思考邊組織語言:「這個問題挺復雜的……我覺得可以從技術和社會兩個層面來看……」

Mini-Omni-Reasoner 正是受到這一啟發(fā),探索「邊思考,邊表達」的新范式。它允許模型在生成回答的同時進行內部推理,實現(xiàn)token 級別的思維流與輸出流交替生成。這樣既能保留邏輯深度與可解釋性,又能提供自然、低延遲的交互體驗。

「一心二用」——如何在大模型中實現(xiàn)?



「Thinking-in-Speaking」推理范式:傳統(tǒng)推理模型遵循「thinking-before-speaking」路線:先完整生成推理鏈,再一次性給出答案。邏輯雖完整,但交互性差,用戶必須等待較長時間。尤其在語音交互場景下,這種長時間的停頓極大削弱了使用體驗。

Mini-Omni-Reasoner 提出的則是「thinking-in-speaking」范式。模型在生成過程中同時維護兩條流:回答流(response stream)和推理流(reasoning stream)。二者像兩支交錯前進的隊伍,一邊輸出用戶可聽到的回答,一邊在后臺繼續(xù)進行邏輯演算。

通俗理解為:模型循環(huán)輸出p 個回答 token + q 個推理 token,直到完成任務。用戶感受到的是自然、幾乎無停頓的對話,而模型在內部始終維持嚴謹?shù)耐评礞湣U麄€推理過程如下。



這種機制突破了「要么快,要么準」的二元困境,讓「會想、會說」真正成為可能。

模型架構:Mini-Omni-Reasoner 采用了Thinker-Talker架構,像一對分工明確的搭檔:

  • Thinker:大腦擔當,負責語音理解和邏輯推理,交替產出回答 token 和推理 token。內部結構是「音頻編碼器 + 大模型」。

  • Talker:嘴巴擔當,只負責把回答 token 變成語音,而對推理 token 保持沉默,確保輸出始終簡潔、自然。

這種解耦方式的好處很直觀:Thinker 全力搞邏輯,Talker 專心搞對話,誰也不分心。

2:8 Token 交替設計:我們最終選擇了2:8 的回答–推理 token 比例,背后有幾層考量:

  • 推理比例更高 → 思維更完整,但可能反應太慢,實時性差。

  • 回答比例更高 → 說得快,但容易「說過頭」,邏輯沒跟上,甚至產生幻覺。

  • Chunk 過長 → 不管是全推理還是全回答,都會帶來延遲或質量問題。

結合實驗結果,我們發(fā)現(xiàn)推理鏈長度大約是回答的 2~3 倍,因此 2:8 是一個平衡點:既保證推理深度,又能保持實時語音合成的流暢性。比如,當模型每秒生成 50 token,就能給用戶帶來 10 個回答 token——對實時對話來說已經非常充裕。

「點石成金」——四階段數(shù)據(jù)合成管線



僅有架構還不夠,要真正掌握「邊思考邊表達」,還需要精心設計的數(shù)據(jù)與訓練流程。為此,我們構建了Spoken-Math-Problems-3M數(shù)據(jù)集,并設計了嚴謹?shù)臄?shù)據(jù)管線。

在數(shù)據(jù)構建中,我們面臨一個核心挑戰(zhàn)——解決**「邏輯錯位」(Anticipation Drift)**問題。即如何防止模型在回答時「搶跑」,說出推理流中尚未得出的結論。我們?yōu)榇嗽O計了兩大核心策略:

  • 異步推理機制:我們在數(shù)據(jù)層面「教會」模型一種新的說話藝術。在回答流中,先說一些「鋪墊語境」的話,為后續(xù)的推理爭取時間;而在推理流中,則要求模型「開門見山」,直奔主題,不講廢話。

  • 反序列化驗證:我們像一位嚴格的考官,將所有交錯的 token 重新組合成自然語言文本,然后利用強大的 GPT 模型進行語義和時間一致性檢查,剔除所有邏輯不連貫或存在「超越」現(xiàn)象的不合格樣本。

通過上圖中的四階段數(shù)據(jù)管線,我們?yōu)?Mini-Omni-Reasoner 提供了超過百萬份高質量的訓練數(shù)據(jù)。

「百煉成鋼」——五階段訓練方法

訓練 Mini-Omni-Reasoner 需要一個精心設計的五階段管線,因為模型不僅引入了定制化架構,還采用了全新的輸出形式。為了確保穩(wěn)定收斂并有效將文本推理能力遷移到語音,我們將訓練過程分解為五個逐步遞進的階段,總體思路為先在文本模態(tài)中保持或增強推理能力,再將其與語音模態(tài)對齊。

  • 對齊訓練:我們從 Qwen2.5-Omni-3B 初始化模型,解決架構不兼容問題,并先只微調音頻適配器,使用語音問答和對話數(shù)據(jù)橋接語音編碼器與 LLM 主干的接口,然后解凍除音頻編碼器外的所有模塊,適應新加入的特殊 token,確保模型在定制化 token 格式下無縫工作。

  • 混合數(shù)學預訓練:在模型對齊后,我們增強其數(shù)學推理能力,使用標準的「先推理再說話」數(shù)據(jù)集(包括文本和語音形式)進行預訓練,確保在引入 token 級交錯生成之前具備扎實的推理能力和數(shù)據(jù)對齊。

  • 文本 thinking-in-speaking 訓練:在文本模態(tài)中訓練模型交替生成推理 token 和回應 token,僅更新語言模型參數(shù),專注于掌握交錯推理-回應結構,不涉及語音變化。

  • 語音 thinking-in-speaking 訓練:將輸入替換為語音,僅微調音頻編碼器,保持 LLM 固定,使模型能夠在語音條件下保持推理增強的生成方式,實現(xiàn)推理范式在模態(tài)間的遷移。

  • Talker 訓練:最終階段訓練說話模塊,實現(xiàn)流暢自然的語音生成,整個 Thinker 組件凍結,僅訓練 Talker 以將交錯輸出轉換為語音,同時保留前面階段建立的邏輯基礎和推理能力。

「真金火煉」——實驗數(shù)據(jù)與案例分析

為了驗證 Mini-Omni-Reasoner 的有效性,我們在 Spoken-MQA 數(shù)據(jù)集上測試了模型與多種不同類型方法的對比,模型相比于基座模型 Qwen2.5-Omni-3B 有明顯的性能提升。



為了進一步展現(xiàn) Mini-Omni-Reasoner 與傳統(tǒng)的對話模型和基礎模型 Qwen2.5-Omni 模型的區(qū)別,我們分析了針對同樣問題不同模型的回答結果:實驗證明「Thinking-in-Speaking」方法可以有效地在保持回復內容自然簡潔的情況下保持高質量的推理過程。



結語

當下,大模型的推理能力已逐漸成為解決復雜問題的核心驅動力。但遺憾的是,這一能力在對話系統(tǒng)中仍未被真正釋放。為此,我們提出了Mini-Omni-Reasoner——一次早期的嘗試。誠然,它距離成熟應用還有很長的路要走,但「thinking-in-speaking」的實時推理機制,我們相信正是對話模型邁向復雜問題解決的必經之路。

展望未來,我們認為至少有幾個值得深入探索的方向:

  • 如何科學地評測模型在通用問題上的推理增益,如「人生的意義是什么」;
  • 如何讓對話模型自主決定何時需要「思考」;
  • 如何突破固定比例生成,探索更靈活多樣的思維范式。

總的來說,Mini-Omni-Reasoner 并非終點,而是一個起點。我們更希望它能成為拋磚引玉,引發(fā)學界和產業(yè)界對「對話中的推理能力」的持續(xù)關注與探索。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
吃完香椿炒雞蛋后,男子多器官衰竭!這起悲劇,給所有人敲響警鐘

吃完香椿炒雞蛋后,男子多器官衰竭!這起悲劇,給所有人敲響警鐘

DrX說
2026-03-20 14:00:07
荷蘭紅燈區(qū):在這里沒有做不到,只有你想不到的大尺度

荷蘭紅燈區(qū):在這里沒有做不到,只有你想不到的大尺度

番外行
2026-03-21 13:03:00
奧斯卡紅毯:女星個個風情萬種,贊達亞極簡美,妮可美到令人失語

奧斯卡紅毯:女星個個風情萬種,贊達亞極簡美,妮可美到令人失語

電影爛番茄
2026-03-21 20:49:21
黃山33歲抗癌博主汪閏昌去世,妻子為其墮二胎,臨終時不甘心怒吼

黃山33歲抗癌博主汪閏昌去世,妻子為其墮二胎,臨終時不甘心怒吼

寒士之言本尊
2026-03-19 19:13:59
令“油電混動技術”悲哀的是:雖打敗了所有對手,卻輸給了時代

令“油電混動技術”悲哀的是:雖打敗了所有對手,卻輸給了時代

興史興談
2026-03-19 22:28:36
他是著名演員,從發(fā)病到去世僅20分鐘,主持人兒子比他更有名

他是著名演員,從發(fā)病到去世僅20分鐘,主持人兒子比他更有名

削桐作琴
2026-03-21 15:03:45
重慶455萬畝油菜花驚艷全球!馬斯克稱贊“春意滿滿”

重慶455萬畝油菜花驚艷全球!馬斯克稱贊“春意滿滿”

上游新聞
2026-03-20 17:24:22
伊朗:成功打擊美軍第五艦隊

伊朗:成功打擊美軍第五艦隊

極目新聞
2026-03-22 08:45:11
凌晨的一聲悶響,美軍堅不可摧的神話碎了!

凌晨的一聲悶響,美軍堅不可摧的神話碎了!

安安說
2026-03-18 11:26:01
雙標現(xiàn)場?汪小菲對媽對妻態(tài)度天差地別,張?zhí)mT臺走秀難掩心酸

雙標現(xiàn)場?汪小菲對媽對妻態(tài)度天差地別,張?zhí)mT臺走秀難掩心酸

魔都姐姐雜談
2026-03-22 07:20:50
爆發(fā)式增長!10家算電協(xié)同成長最快企業(yè)

爆發(fā)式增長!10家算電協(xié)同成長最快企業(yè)

風風順
2026-03-22 00:00:04
本想拉著美國一起對付中國,特朗普一巴掌打醒了高市,你算老幾?

本想拉著美國一起對付中國,特朗普一巴掌打醒了高市,你算老幾?

老范談史
2026-03-21 14:15:40
小米SU7告別等單,讓其他車咋賣?

小米SU7告別等單,讓其他車咋賣?

鈦媒體APP
2026-03-21 10:37:34
留隊難了!拉什福德狀態(tài)低迷讓巴薩開始動搖,恐提前放棄買斷交易

留隊難了!拉什福德狀態(tài)低迷讓巴薩開始動搖,恐提前放棄買斷交易

零度眼看球
2026-03-22 08:07:42
原來他們是父女,都是知名演員,20多年隔閡難消除,他69歲仍單身

原來他們是父女,都是知名演員,20多年隔閡難消除,他69歲仍單身

素衣讀史
2026-03-21 20:40:56
布魯斯威利迎71歲生日! 黛咪摩爾曬天倫照:你需要的只有愛

布魯斯威利迎71歲生日! 黛咪摩爾曬天倫照:你需要的只有愛

ETtoday星光云
2026-03-20 13:30:04
釋永信案結局!挪用1.27億、受賄近4000萬,看樣子是徹底查清楚了

釋永信案結局!挪用1.27億、受賄近4000萬,看樣子是徹底查清楚了

一盅情懷
2026-03-21 20:18:33
早上一碗燕麥,全天都在和饑餓感作斗爭——哈佛研究顛覆你的認知

早上一碗燕麥,全天都在和饑餓感作斗爭——哈佛研究顛覆你的認知

富貴說
2026-03-19 13:50:28
重慶處級領導母親被舉報幾億房產:涉事領導被扒,事發(fā)全過程披露

重慶處級領導母親被舉報幾億房產:涉事領導被扒,事發(fā)全過程披露

博士觀察
2026-03-20 21:44:35
荒唐不可怕,可怕的是荒唐了幾十年,沒人問一句“憑什么”!

荒唐不可怕,可怕的是荒唐了幾十年,沒人問一句“憑什么”!

阿離家居
2026-03-20 04:49:00
2026-03-22 09:19:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12555文章數(shù) 142590關注度
往期回顧 全部

科技要聞

庫克在華這四天,一場既定的市場秀

頭條要聞

男子在壺口瀑布外拍視頻喊"門口要錢"被投訴 景區(qū)回應

頭條要聞

男子在壺口瀑布外拍視頻喊"門口要錢"被投訴 景區(qū)回應

體育要聞

誰在決定字母哥未來?

娛樂要聞

田栩寧終于涼了?出軌風波影響惡劣

財經要聞

通脹警報拉響,加息潮要來了?

汽車要聞

小鵬汽車2025年Q4盈利凈賺3.8億 全年營收767億

態(tài)度原創(chuàng)

教育
旅游
房產
手機
本地

教育要聞

校長講好五類故事,凝聚辦學人心

旅游要聞

千畝杏林迎客來,濟南南山柳埠街道解鎖春日度假新玩法

房產要聞

全城狂送1000杯咖啡!網易房產【早C計劃】,即刻啟動!

手機要聞

內存大漲價倒逼手機SD卡復活 網友:今夕是何年

本地新聞

春色滿城關不住|紹興春日頂流,這片櫻花海藏不住了

無障礙瀏覽 進入關懷版