網易首頁 > 網易號 > 正文申請入駐

Qwen3.5-Omni深度體驗：這，才是「AI生產力」該有的樣子！

2026-03-31 12:25:47　來源: 華爾街見聞官方

上海舉報

分享至

你一定有過這種經歷：開完一場兩小時的會議，錄像文件安安靜靜躺在網盤里，但沒人愿意回看——因為回看的成本幾乎等于再開一次會。

一條爆款帶貨視頻刷到了，你隱約覺得它的轉化邏輯值得學，但既沒時間逐幀拆解，拆了也不知道怎么變成自己的腳本。

還有英文播客、發布會直播、夾雜方言且需要復盤的客服錄音——這些音視頻內容每天都在大量產生，但對絕大多數人來說，它們被"看過"或"聽過"之后，就再沒有然后了。

我們的日常中，大量非常非常有價值的音視頻內容無法被拆開、被檢索、更沒法總結經驗拿去復用。

而阿里千問剛剛發布的Qwen3.5-Omni，讓我們覺得這個問題開始有解了。

它是千問最新一代全模態大模型，采用混合注意力MoE架構，在海量文本、視覺及超過1億小時的音頻數據上做了原生多模態預訓練，在215項第三方性能測試中取得SOTA，多項核心指標超越Gemini-3.1 Pro。

比跑分更值得說的，是我們在實測中實際體驗到的東西——經過幾輪極其刁鉆的極限測試后，這個全模態模型徹底震撼到我了：

我們讓它拆解了一支《沙丘》預告片——它不僅按時間戳做了結構化分析，還推理出了角色間的隱含關系，生成了帶節奏設計和調色建議的復刻分鏡腳本；
我們給了它一條爆款TikTok帶貨視頻——它拆出了完整的轉化歸因，輸出了可以直接遷移到其他行業的5步腳本模板；
我們對著一張畫得很丑的手繪草圖口述需求——它直接生成了能跑的React頁面，然后我們繼續口述修改，它一輪輪迭代下去，上下文始終沒丟。

這意味著，你可以把一場兩小時的會議錄像扔給它，拿回一份帶時間戳的結構化紀要和待辦清單；把一條競品的爆款視頻丟進去，直接拿到可遷移的腳本模板；用它給客服錄音做質檢，輸出情緒軌跡和話術評分。

它的意義，絕不僅僅是多模態能力的又一次參數升級。它讓我親眼看到，原本只能"看一遍就過去"的音視頻內容，是如何被生生拆解成可以直接拿去干活的“數據資產”的。

而如果你給你的龍蝦接上Qwen3.5-Omni，給你的龍蝦裝上“眼睛”和“耳朵”，那么你就能獲得一個真正能聽懂語音指令、看懂視頻內容、理解音頻信息，還會操作電腦的數字員工。

這，或許才是那場我們期待已久的、屬于全模態大模型的真正生產力革命。

接下來，我們先來看看實測細節，再聊聊這個模型正在改變什么，以及阿里拿它在下一盤什么棋。

拆電影、復盤帶貨、口述寫代碼：全模態能力全面進化

（1）沙丘：不止是"看懂故事"

我們選了沒有字幕版的《沙丘》預告片作為第一個測試素材，來對Qwen3.5-Omni的多模態能力進行“極限測試”。

預告片天生就是視頻理解領域最不友好的素材：密集的鏡頭切換、多線敘事、大量隱喻和視覺暗示，視聽密度極高。

而對于Qwen3.5-Omni來說，第一輪的結構化信息提取幾乎沒有難度：劇情時間線、關鍵鏡頭、畫面文字、說話人與臺詞、角色陣營關系、情緒變化曲線，全部按時間戳精準剝離。

第二輪，我們指定了第24秒出現的臺詞，要求它回答對應畫面、說話者和情緒。它準確定位到"She would need to be strong, like her mother"，正確識別為保羅的畫外旁白而非現場對話，對應畫面為查妮沙漠逆光側臉特寫，情緒判斷——溫柔、敬重、期許——與畫面完全吻合。

真正的考驗，在于第三輪的"深層推理追問"——

我們要求它分析角色間的"隱含關系"并給出鏡頭和臺詞證據、識別預告片中的"伏筆"鏡頭及其對未來劇情的指向、生成一個45秒短視頻復刻分鏡腳本。

它準確識別出保羅與費德-羅薩之間的"鏡像宿敵"關系、保羅與杰西卡之間的"斷裂傳承"張力、查妮作為"人性錨點"的角色定位，而且附帶了視覺構圖證據和臺詞對照。

它給出的復刻分鏡腳本也不是模糊的敘事概括，而是帶有"慢板抒情→快速剪輯→史詩爆發"的三段式節奏設計，甚至包含調色方向、音效提示和字幕處理建議。

說實話，到這一步，它已經不是在"看懂視頻"，而是有點導演拆片的意思了。它把LLM的"視頻理解"能力，從摘要層推到了鏡頭語言解讀、關系推理層面。

（2）帶貨：從一條爆款Tiktok帶貨視頻里，拆出轉化的底層邏輯

對更多人來說，更現實的問題是：它在真實世界，在日常工作中是不是真的“有用”？

我們輸入了一條義烏招商類TikTok爆款帶貨視頻，要求Qwen3.5-Omni幫助我們拆解、復刻。

結果，模型不僅按Hook、賣點排序、畫面證明點、字幕策略、情緒節奏、CTA時間點、目標人群七個維度完成了結構化拆解，它的歸因分析也極具洞察力：三級物理證據鏈構建"所見即所得的信任"、"2萬種SKU + 20美分均價"制造數字錨點、保姆式全案承諾實現風險逆轉。

換句話說，它看出來了：這條視頻賣的不是商品，而是確定性。

為了驗證它是不是在生搬硬套營銷學名詞，我們告訴它，"我家工廠是賣T恤的，幫我按這個套路設計一個腳本"，要求它把這套邏輯遷移到"T恤定制工廠"場景。

結果，它不僅把剛剛分析出的5步轉化模板成功遷移到T恤場景，還把Hook極其自然地改成了"拉扯T恤展示彈性"，把實力證明換成了"印花機噴墨特寫+揉搓不掉色"，甚至附帶了評論區運營引導私信的實操建議。

也就是說，大模型不再只是內容理解工具，它已經可以充當不知疲倦的電商分析師和社交媒體運營專家。

（3）口述一個App：邊看、邊說、邊改

第三個測試，堪稱“Vibe Coding”的升級版——"音視頻Vibe Coding"。

我們手繪了一張故意畫得很粗糙的APP線框圖，打開攝像頭，手持草圖對著鏡頭口述："你看這個是我畫的界面草圖……請用React幫我生成完整代碼，可以直接運行的。"

它識別了手繪布局并生成了React代碼。接著我們繼續口述修改——"導航欄改成側邊欄，主按鈕放大一倍換圓角"，同時上傳替換圖片。之后又測了深色主題、進度條動畫、按壓反饋等迭代，它始終能延續上下文，不丟失之前的修改。

幾輪修改后，網頁成功上線。

整體體驗上來說，它接住了人類最真實的交互方式：邊看、邊說、邊改。不是以前那種"AI生成代碼你自己去調"的體驗，更像一個經驗豐富的開發者坐在你的旁邊。

（4）連起來看

從《沙丘》的復雜敘事，到帶貨的商業分析，再到口述做App的隨性交互，如果我們把上面的幾個測試案例串起來看就會發現：

Qwen3.5-Omni成功證明了：它能把復雜的、混亂的、連續的輸入，變成可以直接拿去用的結果。

另外補充兩個我們也測了但沒展開寫的用例：游戲視頻生成解說：網頁端出文案，API端出TTS語音；"24小時AI新聞編輯部"——50分鐘國際新聞發布會音頻走完信息提取、雙語稿件生成和語音播報，效果都不錯，感興趣的朋友也可以試試。

底層改變：從"看懂內容"到"拆成資產"

前面三個場景能跑通，不僅因為"能力變強了"，而是底層產品設計發生了質變：它把連續、混雜、難以檢索的音視頻流，強制拆解為高度結構化的中間層。

（1）拆得多細：不是摘要，是字段級的結構化資產

翻開官方API文檔你會發現，Qwen3.5-Omni對音視頻的推薦輸出格式不是一句籠統的摘要，而是三層硬結構：

Storyline（按時間戳融合音畫細節的故事線）；
Visible Text（帶起止時間和外觀特征的畫面文字清單）；
Speakers and Transcript（含說話人身份、口音、語氣、情緒的逐字稿）。

換句話說，它拿到的不再是"一團視頻"，而是一份可以被代碼直接調用、檢索和執行的結構化資產。這就是沙丘測試能做到精確回溯，TikTok測試能輸出可遷移模板的底層原因。

支撐這種顆粒度的，是實打實的模型基礎能力——混合注意力MoE架構，超過1億小時音頻數據的原生多模態預訓練，模型智力與qwen3.5-plus同一水平，215項第三方測試取得SOTA。

（2）拆得多長：超大上下文窗口

256K上下文窗口，支持超過10小時音頻、超過400秒720P視頻。

長內容真正的難點從來不是"看完"，而是跨段關聯和證據回溯——扔進10小時的會議錄音，問"第5分鐘提到的人在第30分鐘說了什么"；輸入帶貨直播錄屏，讓它揪出夸大宣傳的時間點并附上畫面和臺詞證據；用它給客服錄音做質檢，輸出情緒軌跡和話術評分。

這些過去高度依賴人力、極易出錯的信息整理工作，Qwen3.5-Omni正在試圖接管。

（3）交互：是動態接口

實時交互這一面，它支持智能語義打斷——不會因為你咳嗽一聲或隨口說個"嗯"就中斷發言，過濾掉了無意義的背景音干擾。

它原生支持聯網搜索的FunctionCall，能自主判斷是否需要拉起搜索來回應實時問題，開發者還能在回執中看到精確的計量信息。這從工程層面緩解了企業用大模型時最頭疼的"時效性與幻覺"問題。

語音表達層的能力提升同樣很有價值，現在，它支持113種語種和方言的語音識別，三十六種語言和方言的語音合成，內置47個多語言說話人和8個方言說話人。

在我們的實測中，無論是自稱"聲音像溫熱奶茶"的客服角色Tina，還是四川話的"晴兒"，角色感和產品感都很強。

這不只是"聽得懂更多"，而是為海外客服、審核質檢、有聲讀物、播客配音這些高頻場景備足了彈藥。

一句話簡單總結，Qwen3.5-Omni，讓音視頻變得"可拆"——不是"看懂了"，而是拆成可以檢索、可以復用、可以直接拿去干活的現成素材。

阿里真正想賣的，也不只是一個模型

聊完產品和技術，值得把視線從模型本身移開，看看阿里最近在組織和產品上的一系列動作——一條清晰的商業暗線就會浮出來。

不久前，阿里成立了由CEO吳泳銘直管的 Alibaba Token Hub（ATH）事業群，明確提出以“創造Token、輸送Token、應用Token”為核心。其中，首次亮相的“悟空事業部”定位極為明確：“B端AI原生工作平臺，將模型能力深度融入企業工作流”。

而在釘釘最新發布的“悟空”產品中，核心邏輯已經從“溝通即生成”進化為了“溝通即執行”（CLI化，AI直接調底層接口）。AI 不再只是陪你聊天，而是被要求自己去網上看競品視頻、分析小紅書爆款、跨系統拉取數據、甚至生成數據動畫。

注意這里的關鍵詞：看視頻、聽音頻、跨平臺執行。當AI Agent開始長出"手腳"，自主去處理大量音視頻內容時，它對全模態理解能力的需求和Token的消耗量，都將遠超純文本對話時代。

在這個背景下回看Qwen3.5-Omni，它的極低定價（每百萬Tokens輸入不到0.8元，比Gemini-3.1 Pro的1/10還低）和強大的結構化音視頻能力，更像是在為以悟空為代表的阿里B端企業級Agent大規模落地，儲備高性價比、穩定的全模態基礎設施。

要知道，把長達數小時的音視頻拆解成精細的結構化數據，過去意味著企業需要拼裝一整條鏈路——ASR轉寫、文本大模型、視覺理解模型、TTS合成——成本高、鏈路長、斷點多。

而現在，一個端到端的全模態模型，把這件事的門檻徹底踏平了。

我覺得Qwen3.5-Omni真正值得被記住的，不是它今天能看懂一段多復雜的電影預告片而是從這一刻起，它開始能把音視頻內容，變成企業工作流里可以切實處理、復用的“數字資產”——

全模態大模型驅動的生產力革命，正在來臨。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

6小時，200美元，0人類代碼：Anthropic把AI編程推過了臨界點

新智元 2026-03-31 12:34:21
0 跟貼 0
千尋智能高陽團隊提出 Point-VLA：視覺定位實現語言指令精準執行

機器之心Pro 2026-03-31 13:48:18
0 跟貼 0

京東卷出新高度！硬剛復雜指令長時長、自由態數字人直播絲滑了

機器之心Pro 2026-03-31 14:13:44
0 跟貼 0

博士生如何用龍蝦做知識管理？歡迎圍觀！

量子位 2026-03-26 23:23:30
0 跟貼 0
谷歌做了個論文專用版nano banana！頂會級Figure直出

機器之心Pro 2026-02-05 15:52:42
1 跟貼 1

如何點亮小龍蝦的牛馬技能包?

量子位 2026-03-18 12:51:26
0 跟貼 0

智能編碼扎根生產級場景，阿里云系統化解題

鈦媒體APP 2026-03-31 14:36:11
0 跟貼 0
“Token”時代，云廠商的生存法則變了

鈦媒體APP 2026-03-31 13:13:46
0 跟貼 0

11億AI大單，百度拿下！

智東西 2026-03-31 14:36:20
0 跟貼 0
中東戰火如何動搖“AI神話”？來看看全世界飆升的借貸成本吧

財聯社 2026-03-31 14:09:23
0 跟貼 0
阿里Qwen3.5-Omni發布：音視頻交互新突破，全模態能力登頂全球

雷科技 2026-03-31 11:40:07
1 跟貼 1
有大哥的模板，我們少走了幾年彎路

搞笑動畫更新 2026-03-30 12:31:03
1 跟貼 1
媒體：鄭麗文受邀訪大陸核心原因從當前局勢看不難猜

看看新聞Knews 2026-03-30 22:31:04
2163 跟貼 2163
谷歌HR自曝：73%簡歷死在這個機器手里，你寫的越好看越吃虧

野生運營 2026-03-31 07:47:40
0 跟貼 0
視頻里的小姑娘，就是張雪峰老師的女兒張姩菡niàn hàn

老趙日常雜談 2026-03-27 12:19:05
246 跟貼 246
館長說臺灣就沒有軍工能力＃臺灣

安安折紙 2026-03-30 03:23:41
0 跟貼 0
中方決定對日本國會眾議員古屋圭司采取反制措施

央視新聞客戶端 2026-03-30 10:43:13
2267 跟貼 2267
米家凈煙機 P2 深度體驗：超大吸力，PM2.5也壓得住？！

李大錘同學 2026-03-30 18:05:20
3 跟貼 3
“直接崩了，一天掉了一百多元！”有人瘋狂拋售，國際巨頭接連發布新技術……格局將被改變？

都市快報橙柿互動 2026-03-29 12:26:05
1904 跟貼 1904
館長力挺鄭麗文，直言看不慣便要說！

小島鴿手 2026-03-27 03:35:30
37 跟貼 37
男生教女生來跳舞，結果全網眼睛焊在他身上了！

愛笑西紅柿 2026-03-30 17:33:49
1 跟貼 1
核動力全電推進，005航母電磁彈射六代機遐想，模型跟蟲子似的！

風俱話生活 2026-03-30 11:23:49
0 跟貼 0
界面調查｜“副部級書法家”連輯被查：名與履歷攀升，字隨官位溢價

界面新聞 2026-03-31 09:28:16
15 跟貼 15
Mate80直播黑科技揭秘，Remy 3D技術原理是什么？

華商韜略 2025-12-22 10:48:58
0 跟貼 0
江蘇一老太太花24塊錢買鹵菜，順走40多塊錢的大腸，偷第二次時被發現，店主：當時沒反應過來東西丟了，等老人走后清點了下才明白

洪觀新聞 2026-03-30 15:41:26
360 跟貼 360
美國如果發動地面戰本次戰事軍費或突破10萬億美元

都市快報橙柿互動 2026-03-30 13:49:54
1641 跟貼 1641
家用SUV，你還會買豐田榮放嗎？【30分鐘深度體驗】

胖哥汽車頻道 2026-03-27 11:00:00
1 跟貼 1
印度又官宣自研五代機！17年就憋出個模型，能趕超中美俄嗎？

浩然簡史 2026-03-28 16:39:42
0 跟貼 0
加拿大美女博主深度體驗中國重慶，這里的建筑太獨特了

小黑和大白 2026-03-28 22:57:51
1 跟貼 1
1911 模型槍欣賞

飛翔大白鯨 2026-03-29 09:56:29
0 跟貼 0
山東設立中小學春秋假期:原則上每次3天，安排在每學期期中前后

齊魯壹點 2026-03-30 20:46:10
815 跟貼 815
豆包帶貨，千問充話費：大模型進入“辦事時代”

鈦媒體APP 2026-03-31 13:13:06
0 跟貼 0
曾喊出“用中國制造干掉日本制造” 張雪機車做到了

澎湃新聞 2026-03-31 08:23:31
23 跟貼 23
整個公司一起吃蝦！這個開源項目，讓OpenClaw實現企業級部署

量子位 2026-03-30 16:43:07
1 跟貼 1
6月起，網約車司機超8小時長時間工作將結束

半島官網 2026-03-31 09:30:28
356 跟貼 356
約80層樓高的神女大扶梯，把巫山縣城推向了臺前

新京報 2026-03-30 16:45:46
211 跟貼 211
工作中如何用龍蝦提效？記錄、查詢、做筆記

量子位 2026-03-26 23:23:37
0 跟貼 0
跟著老黃穿越舊金山，英偉達端到端輔助駕駛深度體驗

車東西 2026-03-30 10:28:06
0 跟貼 0
賴文峰直播談楊鈺瑩滿屏刷閉嘴，人活一世留點體面給彼此比啥都強

深藍獨奏 2026-03-31 07:11:04
0 跟貼 0
張峻豪一直播就跟回了自己家一樣，留下一堆笑料就走了

麻花娛樂ya 2026-03-26 20:26:07
0 跟貼 0

華爾街見聞官方

中國領先的金融商業信息提供商

143807文章數 2653075關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

親子

教育

健康

家居

公開課

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
13個毀掉你生活的不良習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

Qwen3.5-Omni深度體驗：這，才是「AI生產力」該有的樣子！

尚未正式宣發，國行蘋果AI半夜"意外閃現"

美方：伊朗前領導人對特朗普"撒謊" 所以我們殺了他們

美方：伊朗前領導人對特朗普"撒謊" 所以我們殺了他們

縣城修車工，用20年成為世界冠軍

絲芭傳媒舉報鞠婧祎：瞞報收入竟達85%

高薪內推藏陷阱!"招轉培"騙局盯上求職者

騰勢Z9GT到底GT在哪？

態度原創

辛苦考上幼師，幼兒園沒了

別讓生病拖垮成績！春季流感+超短學期，聰明家長都在這樣追進度

干細胞抗衰4大誤區,90%的人都中招

新婚愛巢 甜蜜情趣拉滿

新婚愛巢甜蜜情趣拉滿