去年這個時候,如果你在辦公室,原地突然就開始對著電腦說話,一次兩次會被人以為是在打電話,三番五次就不禁讓人懷疑——工作壓力是不是太大了,都開始自言自語了?
但到了今年,可能就是用語音解放雙手了。越來越多的員工選擇對著屏幕口述,而不是敲鍵盤。不管是寫代碼、寫方案,還是跟 AI 交流,用說的,開始變得越來越方便。
從「對話」到「操作」
3 月 3 日,Anthropic 向約 5% 的用戶推送了 Claude Code 的語音模式。操作極簡:在終端輸入 `/voice`,按住空格鍵說話,松手即執行,轉錄 token 完全免費。
![]()
語音轉文字,早就不是什么新鮮事兒了,但是,Claude Code 不是一個聊天應用——它是一個 AI 編程工具,年化收入在今年 2 月已突破 25 億美元,兩個月內翻倍。
當一個以「寫代碼」為核心場景的產品開始支持語音輸入,它傳遞的信號是:語音不再是一個「更方便」的選項,而是被嚴肅對待的生產能力。
Bloomberg 也發現了這個現象,并且走訪了紐約銷售平臺 Clay 的教育負責人 Yash Tekriwal 說,他用語音輸入的速度是每分鐘 205 個詞,打字只有 110 到 120 個。更關鍵的是,他發現口述的 prompt 質量更高。
![]()
打字時工程師會寫「fix bug」,但說話時會自然地給出更長、更具體的上下文描述。轉錄創業公司 Wispr 的 CEO Tanay Kothari 把這總結為:「打字時,你的 prompt 就是垃圾。」
200 毫秒,技術的拐點
語音作為生產工具之所以出現已久,卻現在才真正可用,背后有一個關鍵的技術閾值被突破:端到端延遲降到了 200 毫秒以內。
一條完整的語音 AI 鏈路需要三步——語音轉文字(STT)、大語言模型處理(LLM)、文字轉語音(TTS)。一年前,這條鏈路的總延遲在 500 到 800 毫秒,用戶能明顯感覺到「卡頓」。今年 3 月的多項基準測試確認,這個數字已經被壓縮到 200 到 250 毫秒。最典型的是 Deepgram Aura-2(TTS),首字節延遲 90–200ms,支持 7 種語言。
![]()
200 毫秒是一個什么概念?人類面對面對話中,輪換間隔的中位數大約在 200 到 300 毫秒。這就意味著,AI 語音交互的響應速度已經達到了人類對話的自然節奏。這意味著用戶不再需要「等待」AI 回應——對話可以像和真人說話一樣流暢地進行。
風水輪流轉
曾幾何時,語音也是互聯網的寵兒。
2011 年,微信上線。它在早期與米聊、飛信的競爭中冒頭,一個被反復提及的差異化功能就是語音消息。在智能手機剛剛普及、大量用戶尚不熟悉觸屏打字的年代,按住說話、松手發送的交互方式幾乎是零門檻、直覺性的。
語音消息幫微信在市場打開了缺口,但輝煌并沒有持續。隨著用戶習慣成熟,語音消息逐漸變成了一個被「忍受」多于「喜愛」的功能:60 秒的語音條需要慢慢收聽、無法快速瀏覽、在公共場合不方便播放,還得手忙腳亂地調音量。
微信自己也意識到了這個問題——它先后上線了語音轉文字、語音消息進度條拖拽、倍速播放等一系列補救功能,本質上是在承認,純語音的信息密度和使用效率,在很多場景下不如文字。
![]()
語音的用戶心智一度跌入低谷。在社交中,發語音甚至成了一種帶有壓迫感的行為,觀感很不好。
然而風水輪流轉,AI 的介入讓語音的價值結構發生了根本性的變化。過去,語音消息的問題在于:說的人省事了,但聽的人要花更多時間去解碼——信息的負擔從發送方轉移到了接收方。而現在,AI 充當了中間層:你對著 AI 說話,AI 把你的語音轉化為結構化的文字、代碼、指令。語音的「輸入快」優勢被保留了,而「輸出亂」的劣勢被 AI 吸收了。
這也是 Typeless 這樣的產品正在驗證的邏輯。它們不是在做「語音消息 2.0」,而是讓語音回歸為一種輸入方式——你說話,但對方看到的是整理好的文字。語音不再是一個需要被「忍受」的溝通格式,而是一個被 AI 翻譯過的高效輸入通道。
![]()
從微信語音消息到 Wispr、Typeless、Claude Code 語音模式,這條線畫出了一個完整的弧線:語音的第一次崛起靠的是低門檻,它的衰落是因為低效率,而它的第二次崛起靠的是 AI 解決了效率問題。同一個技術,運作方式已經完全不同。
一個 77 億美元的市場
Grand View Research 估算,AI 語音生成市場今年的規模約為 77 億美元,到 2030 年將達到 218 億美元。但數字背后隱藏著一個更有趣的問題:技術已經準備好了,人準備好了嗎?
Clay 的 Tekriwal 承認,當他最初在開放辦公區對著電腦說話時,同事的反應是困惑的,「這是在跟人說話,還是在自言自語?」盡管他的整個團隊后來都轉向了語音輸入,但這個「尷尬期」本身就說明,語音作為工作界面面臨的最大阻力不是技術問題,而是社會規范問題。
![]()
多倫多投資管理平臺 Boosted.ai 經驗更能說明問題。該公司去年在平臺中加入了語音功能,一個名為 Alfa 的 AI 語音助手,可以朗讀投資報告并接受語音指令。大多數機構客戶試過讓 AI 朗讀報告,但主動對 AI 說話的人少得多。
Wispr 的 Kothari 估計,用戶從鍵盤切換到語音大約需要兩到三周的適應期。他說了一句很有意味的話:「需要改變的是社會觀念——你不是因為對著電腦說話就成了瘋子。」
語音 AI 的故事,表面上是一個交互方式的升級——從打字到說話,從鍵盤到麥克風。但更準確地說,它是一次輪回:語音從來不缺「自然」的優勢,它缺的一直是一個足夠聰明的中間層,來彌合「說」和「被理解」之間的鴻溝。2026 年,這個中間層第一次真正就位了。
接下來的問題不再是「語音能不能用」,而是:當說話比打字更高效的時候,我們的工作方式、協作習慣、甚至思考節奏,會被怎樣改寫?
歡迎加入 APPSO AI 社群,一起暢聊 AI 產品,獲取,解鎖更多 AI 新知
我們正在招募伙伴
簡歷投遞郵箱hr@ifanr.com
?? 郵件標題「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關鏈接)
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.