今年這個春節檔,讓我覺得很幸運——
能在很近的距離,親眼見證,那么多優秀的國產AI模型和產品的誕生。
就今天除夕,傳聞已久的Qwen3.5,終于來了。
說不清為什么,千問大模型這時候發布,有種壓軸出場、塵埃落定的很壓秤的感覺。
尤其是旗艦模型Qwen3.5-397B-A17B,首次以開源權重亮相,最核心的概念是——原生多模態。
這個概念之前大家走的路線,大多是“拼接”。
想讓模型看懂圖,就在語言模型旁邊外掛一個視覺 encoder,把圖片轉成 token 再塞進去。
本質上還是“看圖說話”和“文字理解”兩件事,最后把兩件事的理解湊在一起。
![]()
但Qwen3.5這次玩的是,從預訓練第一天起,就讓文本、圖像、音頻、視頻這些數據在一個統一的底層空間里共同學習,視覺和語言在早期就完成了深度融合。
這意味著什么?意味著模型不再是「看到」一張圖,而是「理解」一張圖,它理解圖中的空間關系、邏輯順序,甚至能結合上下文去做推理和執行。
在處理 GUI 理解、視頻分析等多模態任務時,一個模型即可端到端完成,無需維護復雜的多模型 pipeline。
就在去年7月,黃仁勛跟王堅院士深談的時候就談過這個趨勢:
“我們已經進入AI推理時代,下一波浪潮,是物理AI。”
現在回頭看,Qwen3.5這一步,似乎就是沖著“物理AI”去的。
讓AI從能說會道的聊天機器人,變成能觸碰、能感知、能執行的智能體,去真正理解和操作那個三維的、實體的物理世界。
帶大家一起盤一盤,Qwen3.5這塊「原生多模態」的料,到底硬在哪兒。
![]()
01.當AI有了眼睛和手
咱們以前聊智能體,大多是文本層面的交互。
你跟AI說“幫我訂個外賣”,它給你生成一段訂外賣的步驟說明,或者最多調用個API接口。
這離我們想象中的數字助手,還有一段距離。
而Qwen3.5這次放出來的能力,是讓模型自己有了眼睛和手,能直接像人一樣操作手機和電腦屏幕,也可以進行多形態的互動。
我測試了幾個例子,體驗很不一樣。
![]()
比如說我直接對Qwen3.5下達指令:“參考紅包雨視頻,做一個視覺捕捉手部動作的抓紅包的游戲。”
![]()
這在過去是一個需要拆解成很多步驟的流程:
得先用一個模型學習紅包雨視頻,一個模型提取手部動態關鍵幀,再用一個模型做紅包的視頻動效,還得用一個模型寫前端代碼……最后還得找個工程師把代碼跑起來看效果。
但在Qwen3.5這里,它就是一步到位。
它自己盯著屏幕看視頻,理解時序關系和事件演變,然后同時處理視覺理解和代碼生成,最后直接給出一個可運行的「新年抓紅包」小游戲。
這種能力的背后,是原生多模態帶來的「智能體推理」變化。
因為所有模態共享表征空間,它在看視頻里那個按鈕位置的同時,也在想這個按鈕對應的代碼邏輯,視覺信息和行動決策之間沒有轉譯損耗。
在移動端,它能理解更復雜的跨應用指令;
在PC端,它能處理的不是簡單的“打開網頁”,而是像“把上周的銷售數據從微信聊天記錄里截圖,提取數字做成表格,再貼進郵件發給老板”這種多步驟、跨應用的流程。
我還做了一個「手勢音樂盒」,可以把不同的手指動作,和不同音符相對應。
進階的版本是,可以把表格、數據、截圖,按照對應關系下,都變成手勢舞和音樂,還能切換不同的音色。
和簡單的自動化映射還不一樣,這是AI在通過視覺觀察和理解,去驅動圖形界面完成工作。
![]()
比較經典的場景,ORC識別,我直接用Qwen3.5做了一個弗蘭克翻譯器,可以識別任意圖片當中的信息并翻譯,結果也很精準。
Qwen3.5模型,總參數約400B的體量,加上混合注意力架構的調度,讓它在這種強度的推理任務中,依然保持了足夠的流暢度。
Gartner的數據顯示,具備自主決策能力的AI Agent,其任務完成率已經從去年的65%提升至今年的82%,而Qwen3.5顯然已經站在了這個趨勢的前沿。
02.那道IMO幾何題,它真的會做
如果說操作屏幕是動手能力,那做數學題就是智力的體現。
去年很多模型在文字邏輯題上已經能拿到高分,但一旦涉及到帶有復雜圖形的幾何題,尤其是那種需要添加輔助線、進行多步空間想象的競賽題,大多數模型就露怯了。
原因很簡單,視覺和邏輯在兩個系統里跑,圖像特征和數學符號對不上。
我給Qwen3.5出了一道難題——韋東奕當年獲得金牌的題目,第50屆國際數學奧林匹克(IMO)題第6題。
請大家看這道題的題目:設a1,a2,…,an是互不相同的正整數。
M是有n-1個元素的正整數集,且不含數s=a1+az+…+an.一只蚱蜢沿著實數軸從原點0開始向右跳躍n步,它的跳躍距離是a1,a2…,an的某個排列。證明:可以選擇一種排列,使得蚱蜢跳躍落下的點所表示的數都不在集合M中。
Qwen3.5給出的答案非常長,說實話,我沒有完全看懂,大概能理解它的思路。
![]()
然后和標準答案一對,才發現解法很標準。
這道題在IMO競賽里,頁屬于難度高的一檔,需要建立坐標系、設定變量、進行嚴謹邏輯推導的難題。
在沒有視頻只有文案的情況下,我盯著那道題的文字描述“s=a1+az+…+an”都看了半天,腦子里才勉強有點思路。
而Qwen3.5的解題過程,清晰地還原了它的推理鏈條。
還有一道圖形的題目,Qwen3.5解起來更是絲滑。
它先通過視覺系統識別了圖形中的點、線、角關系,然后迅速在腦子里建立了一個虛擬的坐標系,把幾何問題代數化,接著一步步推導,最終得出那個角度值。
![]()
這種能力的關鍵在于,它證明了模型在物理空間推理上的潛力。
王堅院士和黃仁勛對談時提到的那句“下一波浪潮是物理AI”,核心就是讓AI理解物理規律、空間邏輯。
Qwen3.5能解IMO幾何題,就意味著它能在更復雜的真實場景里發揮作用。
比如讓機器人理解“把這個箱子從那個架子后面繞過去,放在卡車的角落里”,它需要計算障礙物、承重面和運動軌跡。
這種從學科解題到任務規劃的延伸,是通往通用人工智能的一個臺階。
![]()
被稱為「數學莫扎特」的華人數學家陶哲軒,也一直對在IMO等數學競賽取得成績的AI模型,十分關注;他認為,人工智能技術,現已迅速接近從定性到定量成果的轉型階段。
模型不再只是匹配答案,而是在進行多步邏輯推導,這是過去那些外掛視覺模塊的模型不容易做到的。
![]()
從行業競爭的維度看,某種程度上,也揭示了中美大模型發展路徑的分化。
華泰證券的一份研報指出,在Scaling Law 2.0驅動下,海外重心由預訓練轉向后訓練與強化學習,依靠算力堆砌取得性能優勢;
而國內在算力受限的背景下,更側重架構與算法的精修,以注意力優化技術提升訓練推理的效率與性價比。
Qwen3.5在視覺推理上的突破,也是這種「精修路線」的成果——
用更合理的架構設計,在復雜推理任務上實現了對更大參數規模模型的超越。
路透社最近的一篇觀察也印證了這一點:中國AI模型的推理能力不遜色于美國同行,但部署成本要低得多,這正在影響全球AI產業的成本效率曲線。
03.看電影、構思視頻,不在話下
上下文窗口這個東西,以前我們關注它,是因為長篇小說翻譯、財報分析這些純文本任務。
但Qwen3.5這次直接把1M token的上下文能力和多模態視頻理解結合起來。
1M token能一口氣直接吃進去長達兩小時的視頻素材,不需要提前抽幀,不需要分段處理,就是完整地看完。
我拿了一部兩個多小時的《盜夢空間》去試,讓它分析“柯布心里那個關于梅爾的念想,在整個電影里是通過哪些視覺符號一步步呈現的?”。
這是個需要理解長時序關聯的問題。
Qwen3.5的回復讓我印象深刻。它不僅找到了陀螺第一次轉動的開場畫面,還捕捉到了不同層級夢境中“梅爾”出現時的光影變化、臺詞暗示。
甚至能對比現實世界和夢境中“戒指”這個道具出現的時機,最后生成了一篇既有細節截圖又有分析的影評。
基于對《盜夢空間》的情節理解,我讓Qwen3.5把電影轉化成一個夢境主題的推理密室,并做成一個小游戲。
![]()
這種能力的實現,得益于它原生多模態架構下的時序關系捕捉能力。
視頻不是圖像的簡單堆疊,而是有因果邏輯的時間序列。
Qwen3.5在處理視頻時,能分析不同時刻的事件演變,把碎片化的鏡頭語言,串聯成有邏輯的敘事整體。
這對于內容創作者、視頻分析師,甚至是安防監控領域來說,是一個實用的工具。
以前需要一幀一幀看的監控錄像,以后可能只需要一句話:
“把昨天下午三點到五點,那個穿紅衣服的人出現的所有片段剪出來,并標記出他每次出現的具體位置。”Qwen3.5已經具備了這種潛力的雛形。
![]()
也許這也是一個更大的趨勢:中國AI在多模態領域的突破正從“單點”走向“全面”。
這個春節檔被外媒稱為“中國AI超級周”。
智譜發布了新一代旗艦模型GLM-5,MiniMax也有M2.5的新動作,字節發布的Seedance 2.0同樣引發了業界關注……馬斯克都在社交媒體上感嘆進展很快。
咨詢公司Omdia的首席分析師蘇廉節評價道:“開源獲取、強大的推理能力與低部署成本的結合,已成為中國企業構建和推廣基礎模型的標志性模式”。
而Qwen3.5的視頻理解能力,正是這種模式下的又一例證。
04.視覺編程,潦草變藝術
最后這塊,是我覺得能觸動普通用戶和開發者爽點的功能——視覺編程能力。
文案里有個demo讓我印象很深:把手繪界面草圖直接轉為可用的前端代碼。
![]()
我在草稿紙上畫了一個潦草的App界面,畫了幾個框框寫“title”,打了個叉代表“商品主圖”,底下歪歪扭扭寫了“商品介紹”相關字。
拍照,發給Qwen3.5,給它指令:“做成一個網頁”。
幾秒鐘后,它真的給你一個HTML文件,打開一看,布局是對的,甚至給你配上了符合現代審美的色彩和圓角。
更進一步的,你還可以通過截圖告訴它“這里有個UI Bug,幫我修一下”,它能直接定位到代碼里的問題,生成修復方案。
![]()
這背后是像素級位置信息和代碼生成能力的融合。
模型在看那張草圖的時候,不僅識別出“這是個按鈕”,還能推理出這個按鈕在2D空間中的坐標、大小、與周圍元素的距離。
然后,這個帶著空間屬性的“視覺理解”,直接流向“代碼生成”模塊,自動計算布局參數,生成布局代碼。
它甚至可以在推理過程中,對圖像進行處理,比如自動裁剪局部區域放大細節,或者通過標注來強化關鍵特征,從而實現比傳統方法更精細的視覺推理。
但這種能力真正的價值,不只在代碼生成本身。把Qwen3.5放進阿里整個AI版圖里看,它的戰略意義才真正顯現。
國泰海通的一份研報點出了一個趨勢:阿里的頂層戰略正在發生變化,從“比模型”轉向“拼體系”,用“模型+生態+AI Infra”爭奪下一代平臺的主導權。
內部提出的“通云哥”概念,將通義實驗室、阿里云、平頭哥綁定為一體化“黃金三角”,強調算力供給、模型能力與系統工程的協同。
![]()
這意味著Qwen3.5的能力,未來將直接注入到整個阿里數字經濟體的毛細血管里。
你可以想象這樣的場景:在淘寶購物時,拍一張心儀的家具照片,Qwen3.5直接看懂你的風格偏好,自動在商品庫中匹配,還能用AR能力幫你預覽擺放效果;
在高德地圖里,拍一下眼前的街景,它能識別地標并規劃路線;在釘釘里,手繪一個流程圖,它直接轉成可執行的自動化工作流。
平頭哥在底層提供算力支撐,阿里云負責規模化部署,千問模型打通應用層——這種從AI基礎設施到上層應用的全鏈路打通,正是其他廠商短期內不容易復制的優勢。
05.
測完Qwen3.5,我坐在電腦前想了很久。
當 AI 能夠替代越來越多大家過去認為 “只有人才能做” 的事情,我們也不得不解構自己,被逼迫著回答 “自己作為人,到底還有什么獨特的價值”。
去年的DeepSeek R1讓大家看到了中國模型在單點推理能力上的突破,那是屬于一個階段的成果。
而今天的Qwen3.5,背靠阿里巴巴AI“大模型+云+芯片”的完整全棧陣型,向我們展示了一幅產業鏈協同作戰的圖景
終于,人工智能不只是單一的「語言腦」,還有了「視覺眼」和「行動手」。
![]()
從芯片在底層支撐海量多模態數據的訓練,到模型本身原生支持圖像、視頻、代碼,再到未來打通手機、電腦、智能家居乃至工業機器人的生態——
阿里正在做的,是讓AI存在于對話框之外,慢慢滲透進生活的不同角落。
以開源為基礎,衍生出種種不同的場景的模型和應用。
![]()
那種感覺就像是,去年我們還在為造出了一臺跑得很快的引擎而高興;
今年卻發現,有人已經把這臺引擎,裝進了一輛可以適應不同路況的車里,并且開始規劃更長遠的路線。
Qwen3.5證明了中國AI在模型架構層面的創新能力,證明了我們不僅能跟跑,還能在「原生多模態」這個路徑上找到自己的方向。
![]()
中原證券的一份報告甚至指出,2026年國產AI大模型將形成對海外頭部模型的替代,或將影響全球AI模型競爭格局。
回過頭看,從DeepSeek R1去年的亮相,到今天Qwen3.5的格局奠定,再到智譜、字節、騰訊在各自領域的進展,中國AI在2026年初呈現出的這股勢頭,比去年更加扎實。
我期待,未來當我們拿起手機,或者走進辦公室,那個無處不在的AI助手,能真正看懂我們的手勢,預判我們的需求。
讓每個人的生活,因為這份源自中國的技術,變得更加簡單而美好。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.