![]()
新智元報道
編輯:元宇
【新智元導讀】語音AI最煩人的一句話,可能終于要被谷歌干掉了。Gemini 3.1 Flash Live 正在逼近「像人與人說話那樣響應」的體驗:不僅更快、更自然,連在交通聲、電視聲這樣的真實噪音里,也更能聽清你在說什么。
剛剛,谷歌把語音AI最煩人的一句話狠狠干掉了:「請再說一次。」
![]()
這次谷歌新發布的 Gemini 3.1 Flash Live,直接瞄準了現實生活中最亂、最吵的那些場景。
![]()
https://blog.google/innovation-and-ai/technology/developers-tools/build-with-gemini-3-1-flash-live/
更重要的是,它不只是「聽」,它還能看,還能調用工具,還能守住設定邊界。
谷歌稱,這是在延遲、可靠性和更自然的對話表現上的一次躍遷式提升。
你說話的速度
就是它思考的速度
谷歌官方博客中提到,實時交互里,每一毫秒的延遲,都會破壞用戶期待的自然對話流。
因此,Gemini 3.1 Flash Live的一個目標,就是把語音Agent推進到「接近對話本身速度的響應」。
![]()
因為現實體驗中,語音AI最勸退人的不是答錯,而是那種你已經張嘴說完,它還在后臺轉圈帶來的「斷片」感。
谷歌這次改進的方向,不是某一個點,而是語音Agent最容易掉鏈子的整條實時交互系統:
一邊增強對音高、語速、重音和意圖的識別能力;一邊強化復雜系統指令遵循,讓Agent即便在對話突然轉向時,也能守住既定邊界、不輕易跑偏。
更關鍵的是,谷歌還專門強調了它在真實噪音環境中的任務完成率提升:
面對交通聲、電視聲等背景干擾,模型能更有效地區分有效語音與環境噪聲,在實時對話中更穩定地觸發工具、返回信息。
并且,相比2.5 Flash Native Audio,新模型在這些方面都有明確提升。
![]()
AI終于走出實驗室
想象在一個嘈雜的咖啡廳:
隔壁兩個人正在吵架,你一邊盯著明天的航班,一邊對手機說:幫我改簽到上午。
結果你說3遍,它仍是回答你3次:「抱歉,請再說一次。」
這樣的情景是不是很熟悉?
語音AI這些年最大的問題,并不是它「能不能聊天」,而是它能不能在你需要它的時候和它聊天。
這些需要和它聊天的場景,往往是在地鐵站、車上、開著電視的客廳、菜市場這些噪聲環境,所以,谷歌這次把「噪聲」放到了非常核心的位置。
![]()
新模型顯著提升了在嘈雜、真實環境中的任務完成率,能更準確地區分有效語音和交通聲、電視聲等環境噪音。
這些改進,讓語音AI能夠更適應真實場景的需要。
設計師、老人、玩家
三個人的AI已經不一樣了
谷歌官方列舉了Gemini 3.1 Flash Live在設計、陪伴和游戲三個代表性的案例。
![]()
設計師
語音第一次變成創作工具
谷歌官方稱,借助Gemini Live API,用戶現在可以直接用語音做創意設計,AI不僅能聽,還能看到你的畫布和當前選中的界面,然后給出設計點評、生成變體。
小功能背后,設計工作流也在改變。
以前你跟設計工具的關系,是手點。后來是手點+文字框。現在開始變成:你一邊看畫布,一邊開口,AI一邊理解、一邊改。
這意味著設計師不再只是「操作軟件」,而是在「調度一個實時搭檔」。
你不用停下來把腦子里的感覺翻譯成一大段prompt,而可以直接說:這個卡片太滿了、留白拉開、主按鈕再有互動性一點、這個版本偏保守,給我三個更大膽的……
這正是語音在創作場景里的真正價值,它將大大縮短靈感到執行之間的距離。
在Stitch這種場景里,語音已經不是輸入法了,而成了創作指揮棒。
![]()
老人
陪伴終于不是假聊天了
第二個案例,是Hey Ato。
這是一個面向老年人的AI陪伴設備。
谷歌給出的重點是,Ato利用Gemini 3.1 Flash Live的多種語言支持能力,把日常對話變成真正的聯系。
「AI陪伴」過去最大的問題不是功能少,而是太假、太模板化,而老年場景,對「實時感」「打斷恢復」「語言自然度」的要求,遠比年輕人想象得更高。
對很多老人來說,他們不會有耐心和能力去調參數,也不會切來切去看屏幕。
Gemini 3.1 Flash Live的多語言、低延遲和更自然對話,在這樣的場景中成了一個入門級的能力。
當AI設備真的能用父母更熟悉的母語,穩定地接住日常閑聊時,它才能真正讓「人機交互」切入「陪伴關系」這一高挑戰場景。
![]()
玩家
游戲里的NPC終于不像木頭人了
第三個場景最有戲劇感。
它來自Weekend團隊的RPG游戲Wit’s End。
谷歌官方說,他們把Gemini 3.1 Flash Live的「強角色塑造能力」和「類人的表達方式」結合起來,給Game Master加上了獨特的戲劇風格。
游戲也是實時語音AI最危險、也最容易炸場的場景,因為玩家對「卡頓」和「出戲」的容忍度極低,這也是為什么游戲行業會特別敏感地擁抱這類能力。
他們不需要一個「會回答問題的模型」,而是需要一個「能演、能接、能控場」的實時角色。
從Stitch到Ato,再到Wit’s End,谷歌Gemini 3.1 Flash Live其實都是在印證這樣一個變化:
語音+視覺Agent,正在同時滲透進創造、陪伴、娛樂這三種最貼近個體生活的場景。
實時AI競賽的戰火
正在燒向App
對于大廠來說,最值得警惕的,往往不是它們某個單點功能有多強,而在于它什么時候開始變成基礎能力。
Gemini 3.1 Flash Live這次最讓競爭對手感到危險的,也正是在這里。
自3月26日起,Gemini 3.1 Flash Live已通過Gemini API和Google AI Studio提供,當前為預覽版,開發者可通過Live API集成。
官方文檔中特別強調了tool use、session management、ephemeral tokens等關鍵能力,這些都直接對應實時Agent落地時最核心的工程問題。
![]()
https://ai.google.dev/gemini-api/docs/live-api/get-started-sdk
按照官方文檔,Gemini Live API基于有狀態WebSocket連接,支持連續的音頻、圖片和文本流輸入,并以低延遲方式返回語音結果。
輸入側可接收16kHz、16-bit PCM音頻,輸出側則返回24kHz、16-bit PCM音頻。
換句話說,它不是傳統那種「說一句、等一次結果」的調用方式,而更像一個持續在線的實時交互回路。
文檔還明確列出了多語言支持、用戶隨時打斷、函數調用與Google Search等工具接入、輸入輸出轉寫、主動音頻控制等能力。
對開發者來說,這些能力組合起來,意味著它已經不再只是一個會語音對話的模型,而是一個可直接接入應用工作流的實時Agent接口。
Google AI for Developers的版本說明也確認了模型名為gemini-3.1-flash-live-preview。
由此看,這次更新不再只是谷歌自家產品里的一個新功能,而是一個可被復制、可被集成、可被規模化嵌入的能力層。
不僅如此,谷歌還在博客中專門提到了兩類合作伙伴能力:WebRTC擴展,以及全球邊緣路由。
![]()
這說明谷歌考慮的已經不只是模型演示效果,而是更接近真實生產部署的要求。
視頻流、電話場景、跨區域低延遲分發,這些都不是「實驗室demo」會提前考慮的東西。
這次升級,官方不只開了API,還給了Live API文檔、示例,以及GenAI SDK代碼入口。
也就是說,下一波實時AI應用的爆發,不一定從大廠內部開始,很可能是從一批動作快的開發者和創業團隊開始。
很多人還在把「實時語音助手」理解成一個獨立產品,但未來真正可能發生的,并不是你去下載一個新的AI App,而是你原來每天就在用的App,某天突然多了一個按鈕。
它可以與你實時交互,會看、會聽、能做事,那時整個交互范式可能已經開始變化。
語音AI真正的敵人
也許不是技術
谷歌官方這次推出的是預覽版(preview),即Gemini 3.1 Flash Live現在仍處在預覽階段。
官方文檔已經提示了兩種典型接入模式:要么由后端中轉,與Live API進行服務器到服務器通信;要么由前端直接建立WebSocket連接,但在生產環境里推薦改用臨時Token,而不是直接暴露標準API Key。
當然,這套能力距離「無摩擦落地」還有一段距離。
因為,實時語音Agent并不只是模型問題,它還疊加了持續連接、音視頻流傳輸、狀態保持和安全控制等工程約束。
也就是說,Gemini 3.1 Flash Live雖然已經把「實時多模態交互」這層能力打開了,但要真正把它打磨成穩定產品,還需要回答以下現實性的問題:
成本會不會壓垮高頻使用?長時對話穩定性到底怎么樣?多人環境下的說話權分離能做到多穩?隱私、誤觸發、持續監聽的邊界怎么畫……
這些問題解決,實時語音Agent才有望真正成為「下一代入口」。
但至少這次Gemini 3.1 Flash Live發布讓我們看到:語音AI終于不那么像一個總在掉鏈子的笨助手了。
過去,人類用API調AI。接下來,AI會越來越頻繁地替你調用世界。
一旦響應速度追平人類開口的節奏,很多今天看起來還不成立的場景,明天就會突然成立。
比如,它能替你打電話、改簽、盯屏幕、陪父母聊天、打游戲……我們日常的耳機、手機、眼鏡也可能改變,我們經常使用的App也可能被重新定義。
那時,我們與機器溝通的習慣方式,可能真的是要改變了。
參考資料:
https://blog.google/innovation-and-ai/technology/developers-tools/build-with-gemini-3-1-flash-live/
https://x.com/OfficialLoganK/status/2037187750005240307
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.