![]()
智東西
編譯 陳佳
編輯 程茜
智東西4月7日消息,谷歌今日悄然在iOS App Store上架了一款名為Google AI Edge Eloquent的語音聽寫應用。該應用免費且不限使用,默認基于本地的Gemma ASR模型完成語音識別、文本整理,無需聯網,數據不出手機;同時也支持切換至云端由Gemini進行文本潤色,在保障隱私的同時按需提升效果。
Eloquent還引入了個性化詞匯機制,可基于用戶常用表達建立專屬詞典,以提升識別準確率。
![]()
據The Next Web,這款應用沒有發布會、沒有博客說明,也未通過官方渠道提前預熱,卻在功能組合上與當前主流付費產品形成直接競爭。這款應用之后會有安卓版本,但目前還沒有上架。
一、轉錄、潤色、重寫一站完成,端側處理保隱私、云端增強提效果
具體來看,Eloquent的能力可以概括為語音轉錄、文本潤色與結構化重寫三類。這一過程將語音輸入、整理和輸出,壓縮在一次操作中,減少了后期手動編輯的步驟。
打開Eloquent后,界面會顯示一個帶實時波形的聽寫區域。用戶說話時,文本會同步生成。
用戶暫停或結束輸入后,系統會對語音內容進行處理,自動去除“嗯”“啊”等口頭填充詞,并對句子進行簡單整理,讓表達更接近書面文本。
處理完成的內容會自動復制到剪貼板,方便直接粘貼使用。
![]()
除核心轉錄功能外,Eloquent還提供四種文本轉換工具:“要點”(Key points)將口述內容中的主要信息提煉為條目列表;“正式”(Formal)將轉錄文本改寫為更專業的語體;“簡短”(Short)對內容進行壓縮;“詳細”(Long)則對內容進行擴展。
![]()
歷史記錄選項卡保存所有此前的轉錄內容,每條均可單獨刪除。使用統計功能追蹤累計字數和每分鐘字數,這一細節面向那些希望量化自己實際口述產出的效率導向型用戶。
在個性化方面,Eloquent還引入個人詞匯字典機制,用戶可以手動添加專有名詞與行業術語,以提升識別準確率。
用戶在登錄谷歌賬號后,還可以選擇從近期Gmail郵件中導入高頻詞匯,自動建立個性化詞匯檔案,無需手動配置。這是整款應用中唯一涉及谷歌賬號數據的功能,且完全可選。
![]()
這些功能背后的技術路徑,是端側優先加云端增強。Eloquent將處理能力盡量放在設備本地完成,其底層模型是谷歌自研的Gemma ASR,語音數據和個人內容無需離開手機,以保護用戶隱私。
在云端模式下,語音識別仍在設備端啟動,但文本潤色由云端的Gemini模型完成。這種可切換機制,使用戶在隱私與效果之間擁有選擇空間,尤其適用于對數據流轉敏感的使用場景。
二、免費無使用上限,支持iPhone本地離線轉寫
和市面上其他工具的不同之處在于,Eloquent支持在iPhone上本地離線處理,且完全免費、不設使用上限,這一組合正在對現有付費產品的定價邏輯形成壓力。
當前主流語音轉寫工具大多采用訂閱制,例如語音工具Wispr Flow與Willow月費約15美元,部分產品還需將音頻上傳至云端服務器處理。另一款強調隱私的Mac端應用SuperWhisper雖然支持本地運行,但仍需按年付費,且無法覆蓋移動端場景。
Eloquent并未納入谷歌常規的消費級產品體系,而是以Google AI Edge名義發布。該體系主要面向開發者,提供在Android和iOS設備上本地運行AI模型的工具與SDK。這一歸屬讓Eloquent不只是一個面向用戶的語音工具,也承擔了展示端側模型能力的角色,用于向開發者和企業說明Gemma在實際場景中的落地能力。
據The Next Web,過去一年主流科技公司正在加快推動AI模型向終端設備遷移,一方面出于隱私保護需求,另一方面也為了降低云端調用帶來的延遲與成本。在這一趨勢下,Eloquent將端側語音識別與文本處理能力落在日常輸入場景中,成為目前較為直接的落地案例之一。
此外,對于以Android為核心陣地的谷歌來說,Eloquent選擇優先登陸iOS并不常見。過去谷歌在AI能力的發布路徑上,通常會先在自有生態中落地,例如通過Pixel設備上的端側模型或AI Edge相關SDK展示新能力,再逐步擴展到其他平臺。
而此次在沒有同步推出Android版本的情況下先上線iOS,讓Eloquent更像是一場單獨試水,而非成熟產品體系內的常規正式上線。
結語:免費與本地處理,Eloquent指向更低門檻的語音轉寫
Eloquent把端側語音識別、文本自動整理和基礎內容處理放在同一個流程里,同時提供完全免費的使用方式,并允許在本地完成核心計算。這種組合此前多出現在不同產品或付費版本中,如今被整合進一個無需訂閱的移動端應用中,改變了語音轉寫工具的使用門檻。
Eloquent目前更像是Google AI Edge體系下的一次展示,其后續形態仍有待觀察,例如是否會持續更新、是否擴展到Android并接入系統級輸入場景。至少在現階段,這款應用已經展示出一種更具體的方向,即將語音輸入從云端服務轉向設備本地能力,并以更低門檻進入日常使用場景。
來源:Google AI for Developers、The Next Web、TechCrunch
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.