337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

讓大模型【告別回合制】:同時看、聽、說、一直察言觀色|MiniCPM-o 4.5 開源

0
分享至

我做了一面「言出法隨」的墻:表面上是一面墻,隨時在任何區域出現任何我想要的東西

這面墻,會出現在我的新的 AGI Bar 里(正在裝修,很大)

整個酒吧會變成一個大的具身空間,布滿麥克風,識別我朝哪兒、說了什么,然后對應區域的墻面開始變化,機械臂開始運動

甚至,我還可以讓墻面去干活,比如可以讓它去我的某個賬號里拉取資料,也可以讓它執行各種操作。生成內容、找材料、執行動作,都行


但我遇到一個很頭疼的問題

現有的語音交互方案,一旦我腦子卡殼、話說到一半停頓了,系統就會判斷「他說完了」,然后開始執行

這讓交互變得很別扭。我不想每次都說一個喚醒詞,也不想用「over」來告訴 AI 我說完了。我需要的是一個能感知我有沒有說完話、能理解我到底想干什么的 AI

正常人聊天,不會是這樣的

微信里聊天,可能我說兩句、你說三句,甚至我不理你你又說了兩句。現在的 AI 對話太刻板了,必須一問一答,顯得很傻


而且把...你讓它從 1 數到 10,數到 7 的時候問它數到幾了,很多模型會直接說「10」。因為它腦子里已經預排到 10 了,中間打斷它根本沒用

之前只有一個解決方案,就是用 OpenAI 的 Realtime API,在加上一點魔改,實踐下來每個麥克風每個小時的成本在 30 美金左右...太特么貴了,而且中文并不好

前些日子跟面壁智能的朋友聊,他們整出了個新東西:全雙工全模態

全雙工的意思是,模型可以同時輸入和輸出,互不阻塞。它說話的時候還在聽、還在看,你可以隨時打斷它,它也能根據環境變化隨時調整

更關鍵的是,模型自己判斷什么時候該說話。不需要你說喚醒詞,不需要你說「over」,它能根據語義判斷你說完沒、你想要什么,在生活的場景中,成為真正的交互伙伴

這正好是我的墻壁需要的能力,而這個模型今天開源了:MiniCPM-o 4.5,9B 參數


MiniCPM-o 4.5 模型架構 先說清楚語音交互的幾種模式

目前市面上的語音交互方案,大概分兩類

第一類是「對講機模式」

大多數語音助手用的都是這個。系統先把你說的話識別成文字,處理完之后再用 TTS(文字轉語音)播報出來

流程是:語音 → 文字 → 處理 → TTS 播報


很顯然...這里的延遲是打不下去的,而且語音里的語氣,比如不同音調的 wocao,完全無法區分含義

第二類是端到端模式

OpenAI 的 Realtime API 和面壁的 MiniCPM-o 都屬于這一類。模型直接處理語音,不需要先轉成文字,交互更自然

Realtime API 的對話能力很強,但它只能處理語音,看不到畫面


MiniCPM-o 能同時處理語音和視頻。這是它的核心差異

這里要說一下,很多模型號稱能「看視頻」,其實是在你說話的間隙截一張攝像頭的圖片,然后處理這張靜態圖。不是真正的實時視頻流

MiniCPM-o 4.5 做的是原生全雙工全模態

「邊看、邊聽、主動說」


無論模型在沉默還是在說話,都保持著對外界的感知。你可以隨時打斷它,它也可以根據環境變化隨時調整輸出

比如在下面的這個例子中,模型會隨著畫面的變化,不斷描述

全雙工具體是怎么回事

說人話就是:模型的眼睛、耳朵、嘴巴可以同時工作,互不干擾

技術上怎么實現的?

模型把視頻流、音頻流、文本輸出這些并行的信息,切成很小的時間片(毫秒級),輪流處理。宏觀上看起來是同時進行的,實際上是快速切換


這樣做的好處是,模型說話的時候不會「閉眼捂耳」,可以根據你的反應隨時調整

還有一個關鍵能力:模型自己判斷什么時候該說話

現在很多產品靠 VAD(語音活動檢測)來判斷用戶說完沒。簡單說就是檢測到你停頓了一段時間(比如 1 秒),就認為你說完了

VAD 的問題很明顯:

  • ? 不知道是誰在說話,嘈雜環境下容易誤判

  • ? 拍個桌子可能被當成說話

  • ? 必須硬等一段時間才能判斷,延遲高

MiniCPM-o 4.5 不用 VAD。模型自己每秒判斷很多次,根據語義來決定要不要回應

它可以預判你是否說完,不需要硬等;也可以被打斷,根據你說的內容判斷而不只是聲音大小


主動交互機制示意 主動擇機回復

全雙工帶來的另一個能力是「主動交互」

你可以給模型下一個條件指令,它會持續監測,在條件觸發時主動回應

比如:「等綠燈亮了叫我」


模型會一直盯著畫面,看到信號燈變化就提醒你。這對視力不好的人過馬路很有用

比如:「等電梯到 24 層了叫我」模型實時跟蹤樓層數字,到了就喊你

這種模式,也可能會帶了更多人與AI的交互創新,比如和 AI 打個撲克

更有意思的是環境音識別

現有很多視頻通話模型只能聽懂人說話(Speech),聽不懂環境音(Audio)。MiniCPM-o 4.5 可以識別環境音

「微波爐叮了告訴我」、「聽到門鈴聲提醒我」、「水流聲停了喊我」這些它都能處理。因為是原生全雙工,不靠外掛工具,對環境音的識別比那些只能聽人聲的模型靈敏很多


持續在線的兩個層面

之前介紹過一個叫 OpenClaw 的項目

它是一個本地 AI Agent,可以理解為封裝了一個類似 Claude Code 的東西。通過心跳機制(Heartbeat)和定時任務(Cron),實現周期性監控。比如每 30 分鐘掃描一次緊急郵件,檢測到異常可以半夜發消息

OpenClaw 做的是Agent 側的持續在線。它負責執行任務、調用工具、管理流程

MiniCPM-o 4.5 做的是模型側的持續在線。它負責感知環境、理解語義、決定何時回應

這兩個層面如果結合起來會很有意思

一個持續感知的模型,加上一個持續執行的 Agent。模型看到什么、聽到什么,Agent 就去做什么

這才是我想要的「言出法隨」墻壁的完整形態


前幾天開了個溝通會

前幾天有個面壁的小會,聊了不少東西

有人問到具身智能。劉知遠說:MiniCPM-o 4.5 這種全雙工模型,非常接近機器人所需的狀態。人類就是邊聽邊說、多通道并行處理的。以前的模型做不到,一說話就不能看

姚遠(面壁多模態研發負責人)補充:目前具身智能最大的問題不在底層控制,在泛化性和長程規劃。全模態大模型是具身智能實現通用性的機會

李大海把具身智能分成三層:

  • ? 0.1 Hz:深度思考

  • ? 1 Hz:日常感知、規劃(MiniCPM-o 4.5 做的這層)

  • ? 10 Hz:具體動作控制


現在行業缺的是把 1Hz 的「大腦」和 10Hz 的「小腦」結合起來

面壁還將在今年年中,發布一個叫「松果派」的開發板,類似樹莓派,預裝了端側這套模型和推理框架。開發者可以直接上手做 AI 硬件原型


回到我的墻

我的「言出法隨」墻壁,硬件層面已經 ready 了。畢竟我是硬件出身

模型層面的需求是:一個能持續感知、不需要喚醒詞、能自己判斷我有沒有說完話的 AI

MiniCPM-o 4.5 給了一個方案

9B 參數,端側可部署,中文原生支持,成本可控

交互模式也變了。從「一問一答」到「隨時插話」,從「對講機」到正常人聊天

最后...再給大家看一個我覺得很有意義的東西:在盲道上,大模型會一直幫你看著路面,如果有不對的地方,它就會和你交互

然后,現在這個模型已經開源了,歡迎體驗


GitHub
https://github.com/OpenBMB/MiniCPM-o

Hugging Face
https://huggingface.co/spaces/openbmb/minicpm-omni

體驗鏈接
https://minicpm-omni.openbmb.cn/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
小虎牙弟弟喜當爹了

小虎牙弟弟喜當爹了

毒舌扒姨太
2026-03-21 22:34:04
擊落3架美軍F-15E的科威特飛行員,因多項罪名已被逮捕

擊落3架美軍F-15E的科威特飛行員,因多項罪名已被逮捕

碳基生物關懷組織
2026-03-17 22:35:07
這兩條新聞放一起看,諷刺至極

這兩條新聞放一起看,諷刺至極

清書先生
2025-09-28 17:07:07
蓉城半場2球領先!媒體人熱議:中超最激烈一戰,德比兩隊不一檔

蓉城半場2球領先!媒體人熱議:中超最激烈一戰,德比兩隊不一檔

奧拜爾
2026-03-21 20:32:12
漲價就真的沒人買:中國大陸顯卡銷量直接腰斬!

漲價就真的沒人買:中國大陸顯卡銷量直接腰斬!

快科技
2026-03-19 12:29:41
人到老年才知道,增加骨密度最好的運動,竟然不是跑步和走路

人到老年才知道,增加骨密度最好的運動,竟然不是跑步和走路

墜入二次元的海洋
2026-03-17 10:25:30
一個沒寫過代碼的工程師,用ClaudeCode干掉一個估算團隊的工作量

一個沒寫過代碼的工程師,用ClaudeCode干掉一個估算團隊的工作量

DeepTech深科技
2026-03-19 18:03:20
三星One UI 8.5國行分批推送,老機型續航暴漲,對比舊版直接封神?

三星One UI 8.5國行分批推送,老機型續航暴漲,對比舊版直接封神?

叮當當科技
2026-03-21 15:19:19
高市早苗訪問阿靈頓國家公墓并向美國士兵敬獻花圈,該公墓埋葬者包括廣島原子彈投彈手

高市早苗訪問阿靈頓國家公墓并向美國士兵敬獻花圈,該公墓埋葬者包括廣島原子彈投彈手

都市快報橙柿互動
2026-03-22 00:26:05
好消息!事關柳州卡樂天地項目改造!

好消息!事關柳州卡樂天地項目改造!

柳州全攻略
2026-03-21 20:08:40
臺積電創辦人張忠謀:如果想扼殺中國大陸,中國大陸真的無能為力

臺積電創辦人張忠謀:如果想扼殺中國大陸,中國大陸真的無能為力

混沌錄
2026-02-27 21:29:05
清華大學今年起陸續出版61冊思政課教學用書

清華大學今年起陸續出版61冊思政課教學用書

中國青年報
2026-03-19 21:27:08
“晚打不如早打,小打不如大打,打一個,不如拉日本一起打”。

“晚打不如早打,小打不如大打,打一個,不如拉日本一起打”。

安安說
2026-03-14 18:50:59
4S店賣一輛虧一輛?杭州經銷商:一輛官方指導價12.59萬元的車,成交價已擊穿8.4萬元

4S店賣一輛虧一輛?杭州經銷商:一輛官方指導價12.59萬元的車,成交價已擊穿8.4萬元

都市快報橙柿互動
2026-03-20 19:36:04
資本想“零元購”胖東來?于東來一招“分錢”破局

資本想“零元購”胖東來?于東來一招“分錢”破局

流蘇晚晴
2026-03-19 18:05:53
全紅嬋素顏回鄉,一個細節粉碎全網焦慮!她的路,其實早就鋪好了

全紅嬋素顏回鄉,一個細節粉碎全網焦慮!她的路,其實早就鋪好了

動物奇奇怪怪
2026-03-21 10:11:58
皇馬命運轉折!短短15天:4連勝+歐冠淘汰曼城 目標雙冠王

皇馬命運轉折!短短15天:4連勝+歐冠淘汰曼城 目標雙冠王

葉青足球世界
2026-03-21 14:55:03
白菜價再也沒有了!32G DDR5內存漲了3000元 SK海力士:缺貨還將持續4到5年

白菜價再也沒有了!32G DDR5內存漲了3000元 SK海力士:缺貨還將持續4到5年

快科技
2026-03-20 17:16:24
三大后衛齊發揮,繼偉雙拳難敵四手,烏戈正式表態

三大后衛齊發揮,繼偉雙拳難敵四手,烏戈正式表態

大飛說籃球
2026-03-22 00:16:01
江蘇一百歲老人,時隔60多年才突然發現:自己是中央特科重要人員

江蘇一百歲老人,時隔60多年才突然發現:自己是中央特科重要人員

舊史新譚
2026-03-21 13:27:49
2026-03-22 00:59:00
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
337文章數 49關注度
往期回顧 全部

科技要聞

宇樹招股書拆解,人形機器人出貨量第一!

頭條要聞

伊朗發射3800公里射程的導彈 最令美軍戰栗的細節披露

頭條要聞

伊朗發射3800公里射程的導彈 最令美軍戰栗的細節披露

體育要聞

誰在決定字母哥未來?

娛樂要聞

田栩寧終于涼了?出軌風波影響惡劣

財經要聞

通脹警報拉響,加息潮要來了?

汽車要聞

小鵬汽車2025年Q4盈利凈賺3.8億 全年營收767億

態度原創

家居
房產
健康
數碼
藝術

家居要聞

時空交織 空間綺夢

房產要聞

全城狂送1000杯咖啡!網易房產【早C計劃】,即刻啟動!

轉頭就暈的耳石癥,能開車上班嗎?

數碼要聞

炸鍋!國產存儲芯片再突破!手機固態價格大跳水,內存自由要來了

藝術要聞

斯托揚畫作:她們的眼神能勾動你的心!

無障礙瀏覽 進入關懷版