網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

千問3.5，把「貴」字從AI字典里刪了

2026-02-16 20:43:03　來源: 智遠同學

河南舉報

分享至

文：王智遠 | ID:Z201440

今天除夕，阿里發(fā)了Qwen 3.5。

為什么阿里非要把這款大模型放在春節(jié)期間發(fā)布？因為春節(jié)是中國人最重要的日子，他們對這款產(chǎn)品有絕對的信心。

這款讓阿里「除夕夜加班」的模型，到底強在哪？

01

先看一組數(shù)字。Qwen 3.5-Plus，總參數(shù)3970億，激活只用了170億。

什么意思呢？打個比方：

一個公司有3970名員工，涵蓋各種領域的專家；但每次接到任務，他們不搞全員大會，只根據(jù)任務類型，精準叫醒最懂行的170個人出來干活。

結(jié)果呢？這170個人干的活，比對手1萬人的團隊、數(shù)百人的專家還要漂亮。

這就是「以小勝大」。

上一代Qwen3-Max是萬億參數(shù)，這一代Qwen3.5-Plus只有不到4000億總參數(shù)，但性能反超了；推理吞吐量最高提升19倍，部署成本降低60%。

翻譯成大白話即：跑得更快，吃得還少。憑什么能做到呢？憑阿里這次在底層架構(gòu)上動了三刀。

第一個刀法叫「混合注意力機制」。以前大模型處理長文本，像一個人讀一本厚厚的書，每讀一個字都要回頭復習前面所有的字。

讀到第1萬字，得把前面9999個字都過一遍；這誰受得了？

千問3.5的做法：重要的內(nèi)容精讀，次要的內(nèi)容略讀，像人讀書一樣，該快的地方快，該慢的地方慢。效率和精度，同時保住了。

第二個刀法叫「極致稀疏MoE」。

前面說的那3970名員工，每次只叫醒最相關的17個，這叫「稀疏」，誰懂誰進來；過去那種「把所有專家都請到會議室」的稠密模型，太累了，看著陣仗大，其實大部分人在玩手機。

第三個刀法叫「多Token預測」。

以前模型生成文字，是一個字一個字往外蹦，蹦完第一個想第二個，蹦完第二個想第三個。

千問3.5換了個思路：先想好接下來幾步說什么，然后一口氣說出來。就像你聊天，是想好一整句話再說。結(jié)果呢？響應速度翻倍。

注釋：同樣的時間內(nèi)，千問3.5能吐出多少內(nèi)容。32K上下文時，它是Qwen3-Max的8.6倍；256K超長上下文時，直接飆到19倍。

值得一提的是，還有一個刀法叫「門控機制」。這是千問團隊拿了NeurIPS 2025最佳論文的技術。

簡單說，給注意力裝了個「智能水龍頭」，該放大的信息放大，該過濾的過濾，防止有效信息被淹沒，也防止無效信息瞎嚷嚷。

這個水龍頭裝在哪、怎么調(diào)，是人家一年前就開始琢磨的事，現(xiàn)在終于用上了。

所以，幾道下來，效果怎么樣？

考驗知識廣度的MMLU-Pro評測中，千問3.5拿了87.8分，超過GPT-5.2。專為難倒博士設計的GPQA難題集上，88.4分，超過Claude 4.5。

考驗模型能不能聽懂人話的IFBench指令遵循測試中，76.5分，刷新所有模型紀錄。

至于動手能力，也就是行業(yè)里說的Agent智能體，BFCL-V4和Browsecomp兩個評測里，千問3.5全面超越Gemini 3 Pro和GPT-5.2。

說白了，樣樣強。但比分數(shù)更有意思的是方向。

過去兩年，大模型行業(yè)信奉「大力出奇跡」，參數(shù)從千億堆到萬億，性能確實在漲；代價也在漲，部署要專用集群，推理要燒算力，中小企業(yè)用不起，端側(cè)設備跑不動。

千問3.5換了一條路：用技術創(chuàng)新替代參數(shù)堆砌，用架構(gòu)效率替代蠻力硬扛。這條路，至少目前看，走通了。

02

走通了，問題來了，當模型變得更聰明、更便宜，它能幫我們做什么？

用一個詞總結(jié)就是：原生多模態(tài)。

市面上很多模型也說自己「多模態(tài)」，能看圖、能識字。但仔細看，大多是拼裝的；先訓好一個語言模型，再外掛一個視覺模塊，中間靠「適配器」勉強對齊。

有的產(chǎn)品甚至在后臺做路由分發(fā)，你發(fā)一張圖，它悄悄轉(zhuǎn)給另一個模型處理，用戶以為是一個模型全能，其實多個模型輪班。

千問3.5走了一條不同的路。

預訓練第一天起，在文本、視覺混合數(shù)據(jù)上一起學。不是先學會說話再睜開眼睛，是一邊看世界一邊學說話。

視覺和語言在同一個神經(jīng)網(wǎng)絡里深度融合，看到一張圖，自然就懂它的語義；讀到一段文字，腦子里能自動構(gòu)建對應的畫面。沒有中間翻譯，沒有信息折損。

這叫「原生」。

智遠認為，「原生」價值在于它為后續(xù)的能力進化埋下了伏筆，因為只有從底層打通了視覺和語言，模型才可能真正理解物理世界的邏輯，這是通往AGI的必經(jīng)之路。

打通之后，千問3.5能做什么？

先說看得見的。

它能理解長達2小時的視頻；你扔進去一部電影，它能分析劇情走向、人物關系、因果關系，是真的看懂了時間線上的變化。

它能對圖像做像素級定位，你想改圖上某個地方，說句話它就懂；它還能把手繪的界面草圖直接轉(zhuǎn)成可運行的前端代碼，產(chǎn)品經(jīng)理畫個框，程序員不用寫了。

甚至，它能看懂截圖里的UI問題，然后自動修復。

數(shù)字也能說明問題；多模態(tài)推理的MathVison評測里，千問3.5拿了第一。通用視覺問答RealWorldQA里，第一。OCR文字識別CC_OCR里，第一。

空間智能RefCOCO里，第一。視頻理解MLVU里，還是第一。相比上一代的千問視覺專項模型，千問3.5的空間定位推理、帶圖推理能力都大幅增強，看得見，還看得準。

有了「看懂世界」的能力，千問3.5開始「動手辦事」了。

它可以自主操作手機和電腦，跨應用完成復雜任務。你說「幫我把昨晚聚會的照片整理成相冊，再挑幾張發(fā)朋友圈」，它能自己打開相冊、篩選照片、編輯文案、切換到微信、發(fā)布。

一系列操作，不用你動手。

千問團隊還專門搭了一套強化學習框架，讓智能體在真實場景里反復練習，端到端效率提升3到5倍。

春節(jié)期間，千問App的AI購物Agent上線，6天時間幫用戶完成了1.2億筆訂單，這是全球第一次，AI在真實世界里大規(guī)模幫人辦事，還辦成了。

從「看懂」到「動手」，千問3.5邁出了關鍵一步。這些技術創(chuàng)新，對于商業(yè)有什么影響呢？

03

先說結(jié)論：價格便宜了，API價格每百萬Token只要0.8元，只有Gemini 3 Pro的1/18。

很多人第一反應：這不是賠本賺吆喝嗎？錯了。極致性價比，是設計出來的。如果補貼，那不可持續(xù)；但如果成本結(jié)構(gòu)本身就不一樣，那就是降維打擊。

那成本咋降的呢？就三點：

一，架構(gòu)本身就省錢。總參數(shù)3970億只激活170億，算力需求本來就少，成本天然就低。

第二，芯片幫了大忙。阿里有平頭哥，有自己真武芯片。這顆芯片針對MoE架構(gòu)做了大量優(yōu)化。

通用芯片跑MoE，很多算力浪費在「調(diào)度專家」這件事上；真武芯片專門為這種模式設計，相當于給模型配了個「懂行的調(diào)度員」，同樣的電，干更多的活。

這部分是云廠商自研芯片才有的紅利，第三方模型拿不到。

第三，云基礎設施的協(xié)同。

千問3.5的訓練和推理都在阿里云上跑，通過FP8/FP32混合精度這類底層優(yōu)化，激活內(nèi)存減少約50%，訓練提速10%。

不懂這兩個詞沒關系，你可以把它理解成，就像裝修時有的地方用實木、有的地方用復合板，整體效果不變但材料成本低了。

更關鍵的是，模型和云是「一家人」，調(diào)度、部署、擴容都比跨廠商順暢得多。這種效率損耗的減少，最終都折算成成本的降低。

三點說完就清晰了，千問3.5的便宜，是「設計」出來的。

當頂級模型變成白菜價，商業(yè)世界會發(fā)生什么？

門檻肯定拉平。過去調(diào)用頂級模型，中小企業(yè)要掂量掂量預算；現(xiàn)在每百萬Token 0.8元，相當于寫一本《三體》那樣的長篇小說，成本也就幾塊錢。

AI能力不再是巨頭的專利，創(chuàng)業(yè)團隊、個人開發(fā)者都用得起。

然后，是場景被激活；成本足夠低，開發(fā)者才敢放心大膽地用，做錯了重來，實驗失敗了再來一次，不心疼。這會催生一大批之前不敢想的AI應用。

沙利文數(shù)據(jù)顯示，千問在中國企業(yè)級大模型調(diào)用市場中位居第一；Omdia的數(shù)據(jù)說，2025年上半年，中國AI云市場阿里云占35.8%，超過第二到第四名總和。

2025年全年，阿里云在中國云市場的份額從33%提升到36%，領先優(yōu)勢進一步擴大。

這些數(shù)據(jù)說明一件事，在千問3.5發(fā)布之前，「Powered by 阿里云」就已經(jīng)是很多企業(yè)的默認選項。而今天，當新模型把性能推到新高、把成本打到新低，這個「默認選項」的勢能只會被進一步放大。

就像云計算當年把服務器成本打下來，催生了無數(shù)互聯(lián)網(wǎng)創(chuàng)新。模型、芯片、云形成的正循環(huán)，正在讓阿里云成為AI時代的基礎設施。

但，還有更狠的，阿里居然在春節(jié)把它開源了。

04

你想想，一個模型性能追平甚至超過GPT-5.2、Gemini 3 Pro，API價格只要人家的1/18，按理說藏著賣錢多好；阿里偏不，直接開源，代碼、權(quán)重全放出來，誰愛下誰下，誰愛改誰改。

圖啥呢？智遠覺得，阿里打的算盤是「建生態(tài)」。

你看幾個數(shù)字：

到今天，千問開源模型超過400個，什么尺寸都有，從0.5B的小模型到400B的大模型，純文本的、視覺的、多模態(tài)的，覆蓋得嚴嚴實實。

全球開發(fā)者基于千問做的衍生模型，超過20萬個；下載量突破10億次，甚至單月下載量比DeepSeek、Meta、OpenAI、智譜、Kimi、MiniMax這六家加起來還多。

李飛飛團隊在用，愛彼迎在用，全球各地的創(chuàng)業(yè)公司、個人開發(fā)者都在用。

這意味著什么？

千問成了AI圈的「公共基礎設施」。你做項目，想找個開源模型，不用糾結(jié)選哪個，因為千問最好用、最全、還免費，你用著用著，就習慣了；習慣著習慣著，就離不開了。

這就是開源的魔力。

歷史上，這套打法被驗證過兩次。第一次是Linux。上世紀90年代，服務器操作系統(tǒng)還是Windows NT和各種Unix的天下，Linux橫空出世，免費、開源、全世界一起改bug。

一開始沒人當回事，覺得「免費的東西能好到哪去？」結(jié)果呢？今天互聯(lián)網(wǎng)服務器超過96%跑在Linux上；沒人問「為什么不用Windows Server」，因為Linux就是默認選項。

安卓也這么干的。手機廠商想做系統(tǒng)，要么自己從頭造（累死），要么用安卓（省事）；結(jié)果全球幾十億臺手機，都跑在安卓上。

阿里現(xiàn)在做的，就是AI時代的Linux和安卓。

把最強模型開源，讓全球開發(fā)者幫你迭代、幫你完善、幫你把它用到各種奇奇怪怪的場景里；衍生模型越多，生態(tài)就越厚；生態(tài)越厚，后來者就越難繞過。到最后，「用千問」就變成了「不用思考的事」。

而且這個生態(tài)，最后會流回阿里云。

你想，開發(fā)者用千問做應用，跑在哪里？最順手、最便宜、最沒兼容問題的地方，當然是阿里云；企業(yè)用千問做業(yè)務，調(diào)API找誰？當然是「模型芯片云一家人」的阿里云。

這就是閉環(huán)，開源吸引開發(fā)者，開發(fā)者繁榮生態(tài)，生態(tài)帶動云服務，云服務反哺模型迭代；一圈轉(zhuǎn)起來，越轉(zhuǎn)越快。

智遠認為，這才是阿里「除夕開源」的真正用意，搶未來十年的生態(tài)位；所以，你看，千問3.5發(fā)布，表面是技術事件，其實阿里在AI時代布的一盤大棋。

千問3.5憑什么「以小勝大」？因為有技術創(chuàng)新、有原生多模態(tài)、有極致性價比、有開源技術。

大模型的「噸位戰(zhàn)」結(jié)束了。

接下來比的，是誰能讓更多人用得起、用得上、用得順手；參數(shù)不重要，效率才重要；跑分不重要，生態(tài)才重要；閉源不重要，開源才重要。

2026年剛開始，阿里就把牌桌掀了。接下來，就看其他人怎么跟。

對了，開發(fā)者現(xiàn)在就能上手，魔搭社區(qū)和HuggingFace已經(jīng)可以下載新模型，想直接調(diào)API的，去阿里云百煉就行。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

龍蝦為啥越養(yǎng)越貴，越用越蠢？

鈦媒體APP 2026-03-28 19:53:33
11 跟貼 11
OpenClaw 3.28上線！4天爆更上百項重要更新

新智元 2026-03-29 15:32:28
44 跟貼 44

打破代碼大模型訓練瓶頸：MicroCoder將算法數(shù)據(jù)框架訓練經(jīng)驗升級

量子位 2026-03-29 23:51:02
0 跟貼 0

Claude手搓3D建筑編輯器火爆GitHub！數(shù)萬年費的專業(yè)軟件瑟瑟發(fā)抖

量子位 2026-03-29 23:52:43
0 跟貼 0
燃氣輪機比AI芯片還香？中國突圍太解氣了

距離距離 2026-03-28 02:43:29
0 跟貼 0

一篇論文砸崩存儲芯片巨頭股價，谷歌干了什么？

量子位 2026-03-28 02:40:37
0 跟貼 0

8萬小車裝上激光雷達，零跑A10這把"價格手術刀"指向了誰？

車厘子大叔 2026-03-29 13:16:27
0 跟貼 0
這不是一個關于AI的故事，這是一個關于你的故事

孤獨大腦 2026-03-12 15:28:05
0 跟貼 0

臺積電赴美建廠后擴建大陸芯片廠，專家怒斥吃相難看

新時代精神 2026-03-29 00:21:48
0 跟貼 0
外國媳婦這翻譯水平真絕了！造謠都不敢這么造啊，娶到她真是福氣

芮予豬豬 2026-03-27 04:31:54
7 跟貼 7
風向明顯變了！西方媒體集體改口：我國，已無需再向世界證明什么

鐵甲雄獅 2026-03-29 11:35:13
1 跟貼 1
Claude 90分鐘挖穿20年漏洞！5w星“安全”系統(tǒng)跌下神壇

量子位 2026-03-29 23:48:38
0 跟貼 0
AMD蘇姿豐 CES2026主題演講完整版（中文字幕）

智東西 2026-01-06 17:32:10
0 跟貼 0
8.68萬新車普及車位到車位，世界模型不吃高算力！零跑夯爆了

量子位 2026-03-28 14:13:32
0 跟貼 0
一個好的翻譯有多關鍵

橘子小貓劇 2026-03-27 08:20:05
1 跟貼 1
美官員稱中芯國際已向伊朗軍方提供芯片制造工具外交部回應

鳳凰衛(wèi)視 2026-03-27 16:38:27
0 跟貼 0
拒絕智能手機，炮轟ChatGPT，沒有他就沒有今天的互聯(lián)網(wǎng)

DeepTech深科技 2025-12-26 18:07:26
0 跟貼 0
芯片開源：不屬于任何國家，

獸樓處 2026-03-26 21:47:12
0 跟貼 0
谷歌發(fā)布新型AI內(nèi)存壓縮技術！全球存儲芯片股集體下挫

時代周報 2026-03-28 08:47:30
0 跟貼 0
我這翻譯的沒錯啊，咋還生氣了

段子來了哦 2026-03-29 05:52:26
0 跟貼 0
廢舊手機回收價格“狂飆”！以前幾十塊沒人要，現(xiàn)在幾百塊搶著收！#廢舊手機價格暴漲 #存儲芯片短缺

8099999街頭巷尾 2026-03-27 16:27:34
0 跟貼 0
NAS變身AI管家！飛牛EVO2部署OpenClaw完整教程（Linux虛擬機方案）

知了3C 2026-03-25 20:33:14
0 跟貼 0
華為暢享 90系列：麒麟8系芯片，華為史上最大電池！

宅數(shù)碼Kael 2026-03-25 22:08:45
3 跟貼 3
Karpathy緊急叫停！別再喂數(shù)據(jù)了，曝AGI方向全錯

新智元 2026-03-29 09:02:44
3 跟貼 3
缸中之腦現(xiàn)代版：20萬人腦神經(jīng)元一周學會打Doom

量子位 2026-03-06 17:34:11
0 跟貼 0
俄警告韓國勿向烏提供致命性武器

財聯(lián)社 2026-03-29 09:30:26
26134 跟貼 26134
小姐姐不會英語勇闖國外，全程用翻譯手表，溝通無障礙

樂活捕手 2026-03-29 18:14:57
1 跟貼 1
中國話不用翻譯簡潔又霸氣，俄語翻譯起來復雜又麻煩，對比效果超

愛笑集中營 2026-03-27 00:00:00
0 跟貼 0
世貿(mào)天階拆了？實為煥新升級，籃球中心謝幕，4K天幕將登場

新京報 2026-03-29 17:11:22
252 跟貼 252
文旅新玩法上熱搜！對著AI打車瘋狂許愿，千問居然接住了

極目新聞 2026-03-26 11:35:50
0 跟貼 0
美兩棲攻擊艦載3500名增援到達

每日經(jīng)濟新聞 2026-03-29 08:11:32
8113 跟貼 8113
印度又官宣自研五代機！17年就憋出個模型，能趕超中美俄嗎？

浩然簡史 2026-03-28 16:39:42
0 跟貼 0
[視頻]2026中關村論壇年會今天閉幕

國際在線 2026-03-29 20:55:39
0 跟貼 0
北京春日賞花，懶得做攻略？用千問一句話全搞定，即刻出發(fā)！

北京潮生活 2026-03-28 15:06:08
0 跟貼 0
芯片算力越大越牛？別被忽悠了！

HiEV 2026-03-28 22:18:20
0 跟貼 0
努力很重要，但被誰看見更重要

華眼看市 2026-03-29 23:04:02
0 跟貼 0
裁掉翻譯人員換成AI《天國拯救2》開發(fā)商降本增效遭控訴

游戲之美 2026-03-29 23:51:46
0 跟貼 0
《三體》作者劉慈欣再開“腦洞”：人類文明只是AI掌管地球的“開機程序 ”

中國經(jīng)營報 2026-03-29 16:39:28
337 跟貼 337
排超總決賽：“全華班”江蘇女排贏下首回合，上海女排外援為何不靈了？

上觀新聞 2026-03-29 04:46:09
764 跟貼 764
楊植麟、張鵬、羅福莉等同臺談“龍蝦”，AI應用加速涌現(xiàn)！未來12個月大模型往哪兒去？

財聯(lián)社 2026-03-29 22:39:14
0 跟貼 0

智遠同學

暢銷書《復利思維》作者；精神生活與商業(yè)探索，關注科技人文、消費電商、品牌營銷、商業(yè)認知思維等方面。

658文章數(shù) 143關注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戲

藝術

本地

公開課

軍事航空

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
13個毀掉你生活的不良習慣
李彥宏：百度離破產(chǎn)30天

手機 / 數(shù)碼

房產(chǎn) / 家居

千問3.5，把「貴」字從AI字典里刪了

01

02

03

04

馬斯克承認xAI"建錯了"，11位創(chuàng)始人均離職

伊朗議長：美航母遭受巨大損失 我們絕不接受屈辱

伊朗議長：美航母遭受巨大損失 我們絕不接受屈辱

絕殺衛(wèi)冕冠軍后，他單手指天把勝利獻給父親

汪峰定律再現(xiàn)！李榮浩喊話單依純侵權(quán)

Kimi、Minimax 們的算力荒

嵐圖泰山X8配置曝光 四激光雷達/華為新一代座艙

態(tài)度原創(chuàng)

《超級肉肉男孩3D》發(fā)售/《海賊王》艾爾巴夫篇開播| 下周玩什么

不守墨矩的揚州八怪

在濰坊待了三天，沒遇到一個“濰坊人”

美兩棲攻擊艦載3500名增援到達

伊朗議長：美航母遭受巨大損失我們絕不接受屈辱

伊朗議長：美航母遭受巨大損失我們絕不接受屈辱

嵐圖泰山X8配置曝光四激光雷達/華為新一代座艙