網易首頁 > 網易號 > 正文申請入駐

林俊旸離開的 48 小時：一條朋友圈、一個小模型、和一個萬億美金的假設

2026-03-05 17:45:50　來源: AppSo

廣東舉報

分享至

「按照原來安排繼續干」

離職的消息最沸沸揚揚的時候，Qwen 團隊的核心負責人林俊旸在朋友圈發了兩句話：

「Qwen 的兄弟們，按照原來安排繼續干，沒問題的。」

「安排好的」？這是什么？

林俊旸離開前夕，Qwen 團隊剛剛發布了一件被全球開發者社區刷屏的東西。Qwen 3.5 Small 系列，參數量從 0.8B 到 9B，專為端側設備設計，可以在普通筆記本電腦上運行。

不是一個更大的模型——而是一組更小的模型。要知道，過去三年里，AI 行業最強大的共識是「越大越好」。OpenAI 的 Sam Altman 四處籌措萬億美金建設算力基礎設施，各家實驗室軍備競賽般地燒錢燒卡，底層假設只有一個：模型越大，就越聰明。

這套邏輯被稱為 Scaling Law，它不僅僅是一條技術規律，更像一種信仰——整個行業的融資敘事、人才分配、硬件投資都建立在這個前提之上。

但 Qwen 3.5 Small 的發布，和林俊旸的離開，同時發生。一個技術信號和一個人事信號，交織出一個更復雜的故事：小模型到底在發生什么？它為什么重要？

當 9B 打贏 120B

即便不是開發者，也可以跑分上一窺 Qwen 3.5 的戰績：

Qwen 3.5 Small 系列中，9B 參數的模型在多項基準測試中全面超越了 OpenAI 的 gpt-oss-120B——一個參數量是它 13 倍的模型。

這些不是邊緣指標上的微弱優勢，而是在核心推理任務上的系統性領先。一個可以裝進筆記本的模型，在數學、科學、視覺推理上全面擊敗了一個需要數據中心級硬件才能運行的對手。

當然了，摸著良心說，gpt-oss-120B 不是 OpenAI 的旗艦產品，而是其開放權重的中端線。而且它采用 MoE 架構，標稱 120B 參數，但每個 token 實際只激活約 5.1B 參數——所以參數量的對比，在工程層面并不像字面數字那么懸殊。

但這不影響趨勢本身的成立。因為 Qwen 3.5 Small 并不是孤例。

同一時期，Nature 報道了一個微型遞歸模型（TRM），在 ARC-AGI 邏輯測試中擊敗了多個頂級大語言模型。Google Research 在 2026 年初發表論文，證明小模型在意圖提取任務上的表現優于顯著更大的模型。PNAS 上的一項研究更直接——模型規模與說服力之間呈急劇遞減收益，大到一定程度之后，更大幾乎不帶來更好。

《華爾街日報》早在 2025 年 10 月就已經敢說，「大模型拿走了所有的關注，但小模型才真正干活的那個。」

這些信號共同指向一個判斷：以小博大不是偶發事件，而是大勢所趨。

那么問題來了——小模型憑什么？

才不是大模型的替身文學

直覺上，人們容易把小模型理解為「大模型的平替」，同樣的方法，只是規模小一些，性能差一點，勝在便宜。

但事實恰恰相反：今天的小模型之所以能以小博大，是因為它們在技術方法論上，走了一條和大模型完全不同的路。

第一，數據質量壓倒數據規模。大模型的路線是「盡可能多地吞入互聯網數據」，而小模型路線的代表——比如微軟的 Phi-4 系列——走的是精篩路線：用高質量的合成數據加上嚴格篩選的公開數據集，讓模型在更少的數據上學到更精確的能力。這背后的邏輯轉變是根本性的：不是「喂得越多越聰明」，而是「吃得精才學得好」。

第二，原生多模態設計取代了適配器拼接。傳統做法是先訓練一個純文本大模型，再通過適配器模塊接入圖像、視頻、音頻等能力。Qwen 3.5 采用了完全不同的架構：將視覺 token 和文本 token 在同一個潛空間中聯合訓練，從底層就是多模態的。這意味著它是一個天生就同時理解文字和圖像的模型。這種架構在小參數量下反而更有優勢，因為不需要額外的適配器開銷。

第三，量化技術帶來的不只是壓縮。 4-bit 量化常常被理解為「把模型壓小 4 倍以節省存儲」，但它真正的意義在于減少 4 倍的內存吞吐量。在端側設備上，瓶頸往往不是存儲空間，而是內存帶寬，也就是數據從內存搬運到處理器的速度。量化技術讓小模型在帶寬受限的手機和筆記本上，獲得了決定性的速度優勢。

這些方法論上的突破已經開始轉化為產品。3 月第一周，蘋果發布了 M5 全線芯片，每顆 GPU 核心內置 Neural Accelerator，AI 性能較 M1 提升最高 8 倍。與此同時，蘋果研究院公開了 Ferret-UI Lite——一個僅 3B 參數的端側 GUI 代理，可以本地操控手機和桌面應用。加上 Apple Intelligence 約 3B 參數的端側基礎模型，蘋果正在將「on-device AI」從概念推進到芯片、模型、交互三位一體的產品形態。

微軟的 Phi-4 multimodal 也開始嘗試商用上線 Azure，3.8B 參數，接受文本、音頻和圖像輸入。開源社區的反饋更加直接——Reddit 上的開發者實測后認為 Qwen 3.5 的 4B 版本是「甜點級」模型：跨任務穩定、無崩潰、遠快于 9B 版本。

技術路線已經被驗證，產品化拐點已經到來，天邊泛起魚肚白，曙光乍現。

而就在此時，林俊旸選擇離開。

最會做小模型的公司，最沒有動力讓它成功

Qwen 3.5 Small 在發布后獲得了開發者社區的廣泛認可，開源社區的評測結果甚至超出了官方發布時的宣傳。

但是，他所在的公司是阿里巴巴，阿里巴巴的商業引擎是阿里云。

大模型和云計算之間存在天然的正向循環：模型越大，推理所需的算力越多，客戶就越需要購買云計算服務。對阿里云來說，大模型是完美的商業敘事——它同時推高了客戶的算力需求和對云平臺的依賴。

而小模型的邏輯恰恰相反。小模型的核心價值在于可以在端側設備上運行——手機、筆記本、邊緣服務器。這意味著客戶可以繞開云，在本地完成推理。對用戶來說，這意味著更低的成本、更好的隱私和更低的延遲。但對阿里云來說，這意味著收入被侵蝕。

Qwen 3.5 Small 做得越好，對阿里云的商業敘事就越尷尬。

這不是阿里一家的問題。放眼中國的科技巨頭，幾乎所有 AI 領先的公司都面臨同樣的結構性矛盾。百度和騰訊的處境與阿里類似——商業模式建立在云服務和平臺抽成之上，小模型的端側化趨勢直接削弱了它們的價值主張。

字節跳動的豆包手機是一個有趣的例外，但字節做硬件才剛起步，遠沒有建立起「芯片+操作系統+模型」的垂直整合能力。

華為理論上最有條件，既有芯片，又有終端設備。但在制裁的影響下，它的算力上限本身就逼著它走小模型路線，這更多是被動的求生策略，而非主動的戰略選擇。至于小米、OPPO、vivo，它們有設備，卻不是 AI-first 的公司，缺乏自研模型的基因和持續投入的動力。

全球范圍內，真正打通端側 AI 全棧的公司，可能只有一家：蘋果。芯片、設備、操作系統、自研模型，全部自有。蘋果的動力來自復合型的商業模式，這驅動它把一切計算盡可能留在設備上，因為每一次端側 AI 體驗的提升，都會轉化為硬件的溢價和生態的黏性。

不過，這里需要誠實地處理一個可能的反駁：云廠商難道不能走「端云協同」的路線嗎？用小模型做端側入口，復雜的推理任務回調云端處理，兩邊都不耽誤。

理論上可以。但這恰恰說明了問題——在端云協同的框架下，小模型對云廠商來說是「引流工具」，而不是「獨立產品」。云廠商沒有動力把小模型做到好到不需要云。

還有一個繞不開的反例：微軟也是云廠商，但它在認真做 Phi-4 系列小模型，而且已經商用上線。這是否說明「左右互搏」的論點站不住腳？

非也。微軟之所以能兩條腿走路，是因為它同時擁有 Windows 和 Surface 的硬件生態、Azure 的云平臺以及 Copilot 的端側產品線。做 Phi-4 對微軟來說是防御性布局：如果端側 AI 的趨勢不可逆轉，為了大局，寧可壯士斷腕，自折一臂，也不能把端側市場拱手讓給開源社區和蘋果。

但阿里沒有這個選項——沒有消費級操作系統、沒有主流終端硬件、沒有面向個人用戶的 AI 產品矩陣。Qwen 做得再好，也沒有自家的「最后一公里」可以落地。

動力不同，產品的天花板就不同。

這就形成了一個令人不安的畫面：小模型從實驗室走向產品的真正瓶頸，不是技術能力，而是供需錯位；最擅長做小模型的公司（云廠商），最沒有動力讓它真正成功；最需要小模型的公司（設備廠商），又缺乏獨立研發的能力。

「沒問題的」

回到林俊旸的那條朋友圈，「繼續按照安排好的干，沒問題的」。

也許技術路線確實沒有問題，一切都在朝著正確的方向走。但在一家以云為重的公司里，就算做出世界級的小模型，團隊的處境注定不會舒適。

這不是對阿里的批評——任何一家以云收入為生命線的公司，面對一項可能侵蝕自身收入的技術路線，都會陷入同樣的兩難。這是一個結構性矛盾，不是個人或管理層的選擇問題。

比人事更值得關注的，是 Scaling Law 本身正在發生的變化。

過去三年，「越大越好」不僅僅是一條技術規律，它是整個 AI 行業的信條。融資敘事圍繞它建立——投資人相信更大的模型意味著更強的能力，所以萬億美金涌向算力基礎設施。人才分配圍繞它運轉——最頂尖的研究者被吸引到訓練最大模型的團隊。硬件投資圍繞它定價——英偉達的市值在 2025 年一度突破 3 萬億美金，而這個估值建立在一個前提之上：對算力的需求會永遠增長。

現在，這個前提正在松動。MIT 的研究估計，效率提升將使中等硬件上的模型在 5 到 10 年內逐步追平最大最貴的模型。芝加哥大學的研究表示，數據質量正在取代數據規模成為核心競爭維度。

產品化的方向不再只有云端，而是同時向端側擴散。Scaling Law 正在從一條單調遞增的曲線，變成一張需要在多個維度上尋找最優解的地圖。

不再是「越大越好」，而是「在對的地方，用對的大小」。

林俊旸大概比大多數人更早地感受到了這個變化。他用 Qwen 3.5 Small 證明了一件事：在對的方法論下，9B 參數可以擊敗 120B。但他同時也撞上了另一堵墻——技術上的正確，不等于商業上的可行，更不等于組織上的舒適。

也許這才是「安排好的」真正的含義：技術路線已經鋪好了，剩下的問題不在實驗室里，而在實驗室外面。

我們正在招募伙伴

簡歷投遞郵箱hr@ifanr.com

?? 郵件標題「姓名+崗位名稱」（請隨簡歷附上項目/作品或相關鏈接）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.