「按照原來安排繼續干」
離職 的消息最沸沸揚揚的時候,Qwen 團隊的核心負責人林俊旸在朋友圈發了兩句話:
![]()
「Qwen 的兄弟們,按照原來安排繼續干,沒問題的。」
「安排好的」?這是什么?
林俊旸離開前夕,Qwen 團隊剛剛發布了一件被全球開發者社區刷屏的東西。Qwen 3.5 Small 系列,參數量從 0.8B 到 9B,專為端側設備設計,可以在普通筆記本電腦上運行。
![]()
不是一個更大的模型——而是一組更小的模型。要知道,過去三年里,AI 行業最強大的共識是「越大越好」。OpenAI 的 Sam Altman 四處籌措萬億美金建設算力基礎設施,各家實驗室軍備競賽般地燒錢燒卡,底層假設只有一個:模型越大,就越聰明。
這套邏輯被稱為 Scaling Law,它不僅僅是一條技術規律,更像一種信仰——整個行業的融資敘事、人才分配、硬件投資都建立在這個前提之上。
但 Qwen 3.5 Small 的發布,和林俊旸的離開,同時發生。一個技術信號和一個人事信號,交織出一個更復雜的故事:小模型到底在發生什么?它為什么重要?
當 9B 打贏 120B
即便不是開發者,也可以跑分上一窺 Qwen 3.5 的戰績:
Qwen 3.5 Small 系列中,9B 參數的模型在多項基準測試中全面超越了 OpenAI 的 gpt-oss-120B——一個參數量是它 13 倍的模型。
![]()
這些不是邊緣指標上的微弱優勢,而是在核心推理任務上的系統性領先。一個可以裝進筆記本的模型,在數學、科學、視覺推理上全面擊敗了一個需要數據中心級硬件才能運行的對手。
當然了,摸著良心說,gpt-oss-120B 不是 OpenAI 的旗艦產品,而是其開放權重的中端線。而且它采用 MoE 架構,標稱 120B 參數,但每個 token 實際只激活約 5.1B 參數——所以參數量的對比,在工程層面并不像字面數字那么懸殊。
但這不影響趨勢本身的成立。因為 Qwen 3.5 Small 并不是孤例。
同一時期,Nature 報道了一個微型遞歸模型(TRM),在 ARC-AGI 邏輯測試中擊敗了多個頂級大語言模型。Google Research 在 2026 年初發表論文,證明小模型在意圖提取任務上的表現優于顯著更大的模型。PNAS 上的一項研究更直接——模型規模與說服力之間呈急劇遞減收益,大到一定程度之后,更大幾乎不帶來更好。
![]()
《華爾街日報》早在 2025 年 10 月就已經敢說,「大模型拿走了所有的關注,但小模型才真正干活的那個。」
這些信號共同指向一個判斷:以小博大不是偶發事件,而是大勢所趨。
那么問題來了——小模型憑什么?
才不是大模型的替身文學
直覺上,人們容易把小模型理解為「大模型的平替」,同樣的方法,只是規模小一些,性能差一點,勝在便宜。
但事實恰恰相反:今天的小模型之所以能以小博大,是因為它們在技術方法論上,走了一條和大模型完全不同的路。
第一,數據質量壓倒數據規模。 大模型的路線是「盡可能多地吞入互聯網數據」,而小模型路線的代表——比如微軟的 Phi-4 系列——走的是精篩路線:用高質量的合成數據加上嚴格篩選的公開數據集,讓模型在更少的數據上學到更精確的能力。這背后的邏輯轉變是根本性的:不是「喂得越多越聰明」,而是「吃得精才學得好」。
![]()
第二,原生多模態設計取代了適配器拼接。 傳統做法是先訓練一個純文本大模型,再通過適配器模塊接入圖像、視頻、音頻等能力。Qwen 3.5 采用了完全不同的架構:將視覺 token 和文本 token 在同一個潛空間中聯合訓練,從底層就是多模態的。這意味著它是一個天生就同時理解文字和圖像的模型。這種架構在小參數量下反而更有優勢,因為不需要額外的適配器開銷。
![]()
第三,量化技術帶來的不只是壓縮。 4-bit 量化常常被理解為「把模型壓小 4 倍以節省存儲」,但它真正的意義在于減少 4 倍的內存吞吐量。在端側設備上,瓶頸往往不是存儲空間,而是內存帶寬,也就是數據從內存搬運到處理器的速度。量化技術讓小模型在帶寬受限的手機和筆記本上,獲得了決定性的速度優勢。
這些方法論上的突破已經開始轉化為產品。3 月第一周,蘋果發布了 M5 全線芯片,每顆 GPU 核心內置 Neural Accelerator,AI 性能較 M1 提升最高 8 倍。與此同時,蘋果研究院公開了 Ferret-UI Lite——一個僅 3B 參數的端側 GUI 代理,可以本地操控手機和桌面應用。加上 Apple Intelligence 約 3B 參數的端側基礎模型,蘋果正在將「on-device AI」從概念推進到芯片、模型、交互三位一體的產品形態。
![]()
微軟的 Phi-4 multimodal 也開始嘗試商用上線 Azure,3.8B 參數,接受文本、音頻和圖像輸入。開源社區的反饋更加直接——Reddit 上的開發者實測后認為 Qwen 3.5 的 4B 版本是「甜點級」模型:跨任務穩定、無崩潰、遠快于 9B 版本。
技術路線已經被驗證,產品化拐點已經到來,天邊泛起魚肚白,曙光乍現。
而就在此時,林俊旸選擇離開。
最會做小模型的公司,最沒有動力讓它成功
Qwen 3.5 Small 在發布后獲得了開發者社區的廣泛認可,開源社區的評測結果甚至超出了官方發布時的宣傳。
但是,他所在的公司是阿里巴巴,阿里巴巴的商業引擎是阿里云。
大模型和云計算之間存在天然的正向循環:模型越大,推理所需的算力越多,客戶就越需要購買云計算服務。對阿里云來說,大模型是完美的商業敘事——它同時推高了客戶的算力需求和對云平臺的依賴。
![]()
而小模型的邏輯恰恰相反。小模型的核心價值在于可以在端側設備上運行——手機、筆記本、邊緣服務器。這意味著客戶可以繞開云,在本地完成推理。對用戶來說,這意味著更低的成本、更好的隱私和更低的延遲。但對阿里云來說,這意味著收入被侵蝕。
Qwen 3.5 Small 做得越好,對阿里云的商業敘事就越尷尬。
這不是阿里一家的問題。放眼中國的科技巨頭,幾乎所有 AI 領先的公司都面臨同樣的結構性矛盾。百度和騰訊的處境與阿里類似——商業模式建立在云服務和平臺抽成之上,小模型的端側化趨勢直接削弱了它們的價值主張。
字節跳動的豆包手機是一個有趣的例外,但字節做硬件才剛起步,遠沒有建立起「芯片+操作系統+模型」的垂直整合能力。
![]()
華為理論上最有條件,既有芯片,又有終端設備。但在制裁的影響下,它的算力上限本身就逼著它走小模型路線,這更多是被動的求生策略,而非主動的戰略選擇。至于小米、OPPO、vivo,它們有設備,卻不是 AI-first 的公司,缺乏自研模型的基因和持續投入的動力。
全球范圍內,真正打通端側 AI 全棧的公司,可能只有一家:蘋果。芯片、設備、操作系統、自研模型,全部自有。蘋果的動力來自復合型的商業模式,這驅動它把一切計算盡可能留在設備上,因為每一次端側 AI 體驗的提升,都會轉化為硬件的溢價和生態的黏性。
![]()
不過,這里需要誠實地處理一個可能的反駁:云廠商難道不能走「端云協同」的路線嗎?用小模型做端側入口,復雜的推理任務回調云端處理,兩邊都不耽誤。
理論上可以。但這恰恰說明了問題——在端云協同的框架下,小模型對云廠商來說是「引流工具」,而不是「獨立產品」。云廠商沒有動力把小模型做到好到不需要云。
還有一個繞不開的反例:微軟也是云廠商,但它在認真做 Phi-4 系列小模型,而且已經商用上線。這是否說明「左右互搏」的論點站不住腳?
非也。微軟之所以能兩條腿走路,是因為它同時擁有 Windows 和 Surface 的硬件生態、Azure 的云平臺以及 Copilot 的端側產品線。做 Phi-4 對微軟來說是防御性布局:如果端側 AI 的趨勢不可逆轉,為了大局,寧可壯士斷腕,自折一臂,也不能把端側市場拱手讓給開源社區和蘋果。
![]()
但阿里沒有這個選項——沒有消費級操作系統、沒有主流終端硬件、沒有面向個人用戶的 AI 產品矩陣。Qwen 做得再好,也沒有自家的「最后一公里」可以落地。
動力不同,產品的天花板就不同。
這就形成了一個令人不安的畫面: 小模型從實驗室走向產品的真正瓶頸,不是技術能力,而是供需錯位;最擅長做小模型的公司(云廠商),最沒有動力讓它真正成功;最需要小模型的公司(設備廠商),又缺乏獨立研發的能力。
「沒問題的」
回到林俊旸的那條朋友圈,「繼續按照安排好的干,沒問題的」。
也許技術路線確實沒有問題,一切都在朝著正確的方向走。但在一家以云為重的公司里,就算做出世界級的小模型,團隊的處境注定不會舒適。
這不是對阿里的批評——任何一家以云收入為生命線的公司,面對一項可能侵蝕自身收入的技術路線,都會陷入同樣的兩難。這是一個結構性矛盾,不是個人或管理層的選擇問題。
比人事更值得關注的,是 Scaling Law 本身正在發生的變化。
過去三年,「越大越好」不僅僅是一條技術規律,它是整個 AI 行業的信條。融資敘事圍繞它建立——投資人相信更大的模型意味著更強的能力,所以萬億美金涌向算力基礎設施。人才分配圍繞它運轉——最頂尖的研究者被吸引到訓練最大模型的團隊。硬件投資圍繞它定價——英偉達的市值在 2025 年一度突破 3 萬億美金,而這個估值建立在一個前提之上:對算力的需求會永遠增長。
現在,這個前提正在松動。MIT 的研究估計,效率提升將使中等硬件上的模型在 5 到 10 年內逐步追平最大最貴的模型。芝加哥大學的研究表示,數據質量正在取代數據規模成為核心競爭維度。
![]()
產品化的方向不再只有云端,而是同時向端側擴散。Scaling Law 正在從一條單調遞增的曲線,變成一張需要在多個維度上尋找最優解的地圖。
不再是「越大越好」,而是「在對的地方,用對的大小」。
林俊旸大概比大多數人更早地感受到了這個變化。他用 Qwen 3.5 Small 證明了一件事:在對的方法論下,9B 參數可以擊敗 120B。但他同時也撞上了另一堵墻——技術上的正確,不等于商業上的可行,更不等于組織上的舒適。
也許這才是「安排好的」真正的含義:技術路線已經鋪好了,剩下的問題不在實驗室里,而在實驗室外面。
我們正在招募伙伴
簡歷投遞郵箱hr@ifanr.com
?? 郵件標題「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關鏈接)
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.