網易首頁 > 網易號 > 正文申請入駐

辦公室里對著 AI 說話的人，可能會比用鍵盤打字的人更早下班

2026-03-07 11:10:50　來源: AppSo

廣東舉報

分享至

去年這個時候，如果你在辦公室，原地突然就開始對著電腦說話，一次兩次會被人以為是在打電話，三番五次就不禁讓人懷疑——工作壓力是不是太大了，都開始自言自語了？

但到了今年，可能就是用語音解放雙手了。越來越多的員工選擇對著屏幕口述，而不是敲鍵盤。不管是寫代碼、寫方案，還是跟 AI 交流，用說的，開始變得越來越方便。

從「對話」到「操作」

3 月 3 日，Anthropic 向約 5% 的用戶推送了 Claude Code 的語音模式。操作極簡：在終端輸入 `/voice`，按住空格鍵說話，松手即執行，轉錄 token 完全免費。

語音轉文字，早就不是什么新鮮事兒了，但是，Claude Code 不是一個聊天應用——它是一個 AI 編程工具，年化收入在今年 2 月已突破 25 億美元，兩個月內翻倍。

當一個以「寫代碼」為核心場景的產品開始支持語音輸入，它傳遞的信號是：語音不再是一個「更方便」的選項，而是被嚴肅對待的生產能力。

Bloomberg 也發現了這個現象，并且走訪了紐約銷售平臺 Clay 的教育負責人 Yash Tekriwal 說，他用語音輸入的速度是每分鐘 205 個詞，打字只有 110 到 120 個。更關鍵的是，他發現口述的 prompt 質量更高。

打字時工程師會寫「fix bug」，但說話時會自然地給出更長、更具體的上下文描述。轉錄創業公司 Wispr 的 CEO Tanay Kothari 把這總結為：「打字時，你的 prompt 就是垃圾。」

200 毫秒，技術的拐點

語音作為生產工具之所以出現已久，卻現在才真正可用，背后有一個關鍵的技術閾值被突破：端到端延遲降到了 200 毫秒以內。

一條完整的語音 AI 鏈路需要三步——語音轉文字（STT）、大語言模型處理（LLM）、文字轉語音（TTS）。一年前，這條鏈路的總延遲在 500 到 800 毫秒，用戶能明顯感覺到「卡頓」。今年 3 月的多項基準測試確認，這個數字已經被壓縮到 200 到 250 毫秒。最典型的是 Deepgram Aura-2（TTS），首字節延遲 90–200ms，支持 7 種語言。

200 毫秒是一個什么概念？人類面對面對話中，輪換間隔的中位數大約在 200 到 300 毫秒。這就意味著，AI 語音交互的響應速度已經達到了人類對話的自然節奏。這意味著用戶不再需要「等待」AI 回應——對話可以像和真人說話一樣流暢地進行。

風水輪流轉

曾幾何時，語音也是互聯網的寵兒。

2011 年，微信上線。它在早期與米聊、飛信的競爭中冒頭，一個被反復提及的差異化功能就是語音消息。在智能手機剛剛普及、大量用戶尚不熟悉觸屏打字的年代，按住說話、松手發送的交互方式幾乎是零門檻、直覺性的。

語音消息幫微信在市場打開了缺口，但輝煌并沒有持續。隨著用戶習慣成熟，語音消息逐漸變成了一個被「忍受」多于「喜愛」的功能：60 秒的語音條需要慢慢收聽、無法快速瀏覽、在公共場合不方便播放，還得手忙腳亂地調音量。

微信自己也意識到了這個問題——它先后上線了語音轉文字、語音消息進度條拖拽、倍速播放等一系列補救功能，本質上是在承認，純語音的信息密度和使用效率，在很多場景下不如文字。

語音的用戶心智一度跌入低谷。在社交中，發語音甚至成了一種帶有壓迫感的行為，觀感很不好。

然而風水輪流轉，AI 的介入讓語音的價值結構發生了根本性的變化。過去，語音消息的問題在于：說的人省事了，但聽的人要花更多時間去解碼——信息的負擔從發送方轉移到了接收方。而現在，AI 充當了中間層：你對著 AI 說話，AI 把你的語音轉化為結構化的文字、代碼、指令。語音的「輸入快」優勢被保留了，而「輸出亂」的劣勢被 AI 吸收了。

這也是 Typeless 這樣的產品正在驗證的邏輯。它們不是在做「語音消息 2.0」，而是讓語音回歸為一種輸入方式——你說話，但對方看到的是整理好的文字。語音不再是一個需要被「忍受」的溝通格式，而是一個被 AI 翻譯過的高效輸入通道。

從微信語音消息到 Wispr、Typeless、Claude Code 語音模式，這條線畫出了一個完整的弧線：語音的第一次崛起靠的是低門檻，它的衰落是因為低效率，而它的第二次崛起靠的是 AI 解決了效率問題。同一個技術，運作方式已經完全不同。

一個 77 億美元的市場

Grand View Research 估算，AI 語音生成市場今年的規模約為 77 億美元，到 2030 年將達到 218 億美元。但數字背后隱藏著一個更有趣的問題：技術已經準備好了，人準備好了嗎？

Clay 的 Tekriwal 承認，當他最初在開放辦公區對著電腦說話時，同事的反應是困惑的，「這是在跟人說話，還是在自言自語？」盡管他的整個團隊后來都轉向了語音輸入，但這個「尷尬期」本身就說明，語音作為工作界面面臨的最大阻力不是技術問題，而是社會規范問題。

多倫多投資管理平臺 Boosted.ai 經驗更能說明問題。該公司去年在平臺中加入了語音功能，一個名為 Alfa 的 AI 語音助手，可以朗讀投資報告并接受語音指令。大多數機構客戶試過讓 AI 朗讀報告，但主動對 AI 說話的人少得多。

Wispr 的 Kothari 估計，用戶從鍵盤切換到語音大約需要兩到三周的適應期。他說了一句很有意味的話：「需要改變的是社會觀念——你不是因為對著電腦說話就成了瘋子。」

語音 AI 的故事，表面上是一個交互方式的升級——從打字到說話，從鍵盤到麥克風。但更準確地說，它是一次輪回：語音從來不缺「自然」的優勢，它缺的一直是一個足夠聰明的中間層，來彌合「說」和「被理解」之間的鴻溝。2026 年，這個中間層第一次真正就位了。

接下來的問題不再是「語音能不能用」，而是：當說話比打字更高效的時候，我們的工作方式、協作習慣、甚至思考節奏，會被怎樣改寫？

歡迎加入 APPSO AI 社群，一起暢聊 AI 產品，獲取，解鎖更多 AI 新知

我們正在招募伙伴

簡歷投遞郵箱hr@ifanr.com

?? 郵件標題「姓名+崗位名稱」（請隨簡歷附上項目/作品或相關鏈接）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.