全球全模態大模型競賽迎來新變數。
3月30日,阿里巴巴正式推出千問系列新一代全模態大模型Qwen3.5-Omni。
這款模型在音視頻理解、跨模態推理、實時交互等215項第三方評測中拿下SOTA(State of the Art),直接對標并超越了谷歌Gemini-3.1 Pro的諸多核心指標。
![]()
Qwen3.5-Omni跑分圖
與市面上多數“拼接式”多模態方案不同,Qwen3.5-Omni采用混合注意力MoE架構,在海量文本、視覺數據及超過1億小時的音視頻素材上完成了端到端的原生預訓練。
這意味著,Qwen3.5-Omni并非簡單地將語音轉文字再處理,而是真正具備對視頻畫面、人物情緒、對話邏輯的深層次理解能力。
據官方披露,Qwen3.5-Omni支持113種語言及方言的語音識別(包括毛利語、海南方言等小語種),以及36種語言的語音合成。在考察抗噪能力的WenetSpeech測試中,其錯誤率遠低于Gemini;而在Multi-Lingual 30語言語音生成評測中,表現同樣壓過Gemini-2.5-Pro-TTS一頭。
![]()
Qwen3.5-Omni跑分圖
更值得關注的是其實時交互的“情商”——Qwen3.5-Omni能精準區分用戶的有效指令與隨口附和,自主判斷是否需要調用工具獲取實時信息(如天氣查詢),對話流暢度已接近真人水平。
如果說年初爆火的Vibe Coding還停留在文字/圖片生成代碼階段,Qwen3.5-Omni則直接將這一概念推進到了音視頻維度。
用戶只需打開攝像頭,對著草圖或實物口述需求,哪怕是包含復雜產品邏輯的描述,模型也能直接輸出帶UI界面的產品原型代碼。有意思的是,這一能力并非人工刻意調教的結果,而是模型在擴展原生多模態能力過程中自然涌現的副產品。
這種所見即所得的編程方式,對于產品經理、設計師乃至普通用戶而言,意味著從想法到原型的路徑被壓縮到了分鐘級。
除此之外,Qwen3.5-Omni在專業內容生產領域同樣展現出降本增效的潛力。
模型可對視頻畫面主體、人物關系、情緒起伏進行像素級拆解,自動完成章節切片與時間戳標注,支持超過10小時的長音頻輸入。以往需要數小時的人工后期梳理工作,如今可被縮短至秒級。短視頻平臺、直播平臺、內容審核機構、游戲廠商等內容密集型行業,或將成為首批受益者。
難能可貴的是,阿里在商業化路徑上延續了千問系列的高性價比策略。
目前,Qwen3.5-Omni已通過阿里云百煉平臺開放Plus、Flash、Light三檔API接口,普通用戶也可在Qwen Chat免費體驗。定價方面,每百萬Tokens輸入價格不到0.8元人民幣,不足Gemini-3.1 Pro的十分之一。
據第三方數據,千問系列目前穩居中國企業級大模型調用市場頭把交椅,覆蓋互聯網、金融、消費電子及汽車等行業的超100萬家企業客戶。
過去半年,市場注意力被OpenAI和谷歌多模態迭代牽引,國內廠商多被質疑為跟隨者。但這次,阿里在音視頻理解、方言識別和實時交互等細分維度實現了反超,且選擇了完全開放的API策略。這或許正是中國AI企業在全球化競爭中找到的有效路徑:不追求在所有榜單上霸榜,但在特定高價值場景建立不可替代性。
如今大模型技術門檻被抹平,剩下的就是執行力的較量了。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.