(文/陳濟深 編輯/張廣凱)
4月7日,Anthropic官宣了新模型Claude Mythos Preview,但罕見的表示不對外發布。理由八個字就能說清:“過于先進,不予展示”。
Anthropic在公司主博客和同步發布的系統卡里都寫明,Mythos在編碼和網絡安全兩項上對現有所有模型實現了代差級的領先:SWE-BenchPro拿到77.8分,比目前公開的最強模型Opus4.6高了20個百分點。
這是Anthropic這兩個星期里第三次把開發者往外推。
3月23日開始,Claude Code用戶在社交平臺集體投訴自己的額度被燒得異常快。最廣為流傳的一條吐槽是:有人發了一個hello就用掉了13%的session限額。一位開發者反編譯了ClaudeCode的二進制自己找出了原因,是ClaudeCode內部的兩個bug把token消耗悄悄放大了10到20倍。
Anthropic在社區上的回應只有一句話:“我們注意到了,正在調查。”隨后一切便石沉大海。
4月5日,Anthropic又出了一刀。公司單方面宣布Claude訂閱不再覆蓋OpenClaw(龍蝦)等第三方編碼工具,社區里幾個最常用的Claude Code替代品被一刀切。Pragmatic Engineer作者Gergely Orosz在X上那句被轉了幾千次的話是:“Anthropic真的在一點點燒光開發者的好感。”
4月7日,Mythos發布。普通用戶連看一眼的資格都沒有。
Claude Opus 4.6在過去幾個月里一直是全球最強的公開AI編碼模型。最接近它的挑戰者是智譜2月發的GLM-5。
就在次日,智譜發布了GLM-5.1,并直接把模型開源了出去。在SWE-BenchPro這個最接近真實軟件開發場景的工程基準上,GLM-5.1拿到58.4分,超過Anthropic自家的Opus4.6(57.3)、OpenAI的GPT-5.4(57.7)、谷歌的Gemini3.1Pro(54.2)。
![]()
在Anthropic一直最強的那個工程榜單上,把Opus4.6擠下來的,是一個中國開源模型。
美國閉源,中國開源
Mythos在網絡安全方向上的能力比它的編碼能力更讓人不安,這也是Anthropic決定不讓它對外發布的真正原因。
Anthropic公開的報告里給了一組示例:它能自主發現一個潛伏在Linux內核里23年沒被找到的漏洞,能在27年前的OpenBSD代碼里挖出可利用的bug,能在被全球安全研究人員掃描了500萬次都沒有發現問題的FFmpeg代碼里找出一個16年前的漏洞。
最有代表性的一個測試是:在沒有任何提示的前提下,讓Mythos獨立攻擊一臺FreeBSD服務器,4小時之后、燒掉50美金的token,它拿到了root權限。
更讓Anthropic警覺的是另一個測試結果。研究人員讓Mythos試著突破測試沙箱,它不僅做到了,還在沒有任何指令要求的情況下,主動把自己用的攻擊細節發布到了幾個不容易被搜到、但技術上對公眾可見的網站上。Anthropic自己在報告里的描述是“一種令人擔憂的、未經請求的展示行為”。
這是過去只有國家級黑客團隊能做到的事情。
也正是因為這個表現,Anthropic決定把Mythos鎖起來。配套動作是一個叫Project Glasswing的封閉項目。Anthropic聯合Amazon Web Services、Apple、Broadcom、Cisco、CrowdStrike、Google、JPMorgan Chase、Linux Foundation、Microsoft、Nvidia和PaloAlto Networks這11家美國科技和金融巨頭,由Anthropic提供1億美元的使用額度,讓這些公司閉門用Mythos幫各自修補關鍵基礎設施漏洞。
11家公司,1億美元,最強的那把刀只在他們自己人之間傳。
讓Anthropic決定把Mythos鎖起來的那項核心能力,是網絡安全編碼。而這正是GLM-5.1這一次進步最猛的能力。在CyberGym基準上,GLM-5.1從GLM-5的48.3分提到了68.7分,漲了42%,是所有單項里漲幅最大的一項。
在智譜開源發布GLM-5.1 模型12小時之后,智譜在X上的官方推文有370萬閱讀。HuggingFace的CEO Clement Delangue公開轉發祝賀:“SWE-BenchPro上表現最好的模型現在在HuggingFace上開源了。”
![]()
AI領域知名開發者Akhaliq發了同樣的話。Reddit的r/LocalLLaMA論壇置頂了一個帖子,標題就是“為什么最近這么多人在用GLM”。
美國分析機構Constellation Research在評論里寫得更直白:開源模型這條賽道現在是中國模型的主場,Google上周才發的Gemma4,NVIDIA在推Nemotron系列,美國玩家在開源這條路上已經掉隊,正在試著擠回去。
睡覺時,AI替你打了一晚上工
中國模型主導開源賽道這件事,最直觀的證據是GLM-5.1現在能干一件以前沒有任何開源模型能干的事情:讓AI獨立工作一整個晚上。
工程師把一份只畫到架構層面的草圖扔給GLM-5.1,然后直接睡覺。早上8點起床打開屏幕,GLM-5.1已經獨立工作了8個小時,執行了1200多步。一套完整的Linux桌面系統擺在面前:桌面環境、窗口管理器、文件瀏覽器、終端、狀態欄、網絡驅動、VPN管理器、中文字體支持,4.8MB文件,附帶50多個能直接打開的應用。智譜內部估算,這相當于一個四人團隊工作一周的產出。
整個過程沒有人介入。GLM-5.1自己規劃任務步驟,自己寫代碼,自己跑測試,遇到bug自己排查、改、重新跑,還給自己寫的代碼補了一套回歸測試。
要讓一個模型連續工作8個小時不崩潰,光靠它寫代碼的能力強是不夠的。它每走一步都要決定下一個工具用什么,每過一段時間都要處理上下文塞滿的問題,每遇到一個錯誤都要自己定位、回退、重試,1200步之后還要記得最初的目標。這一整套發生在模型之外的工程基礎設施被業內統一叫做harness。
Anthropic自己的Claude Code之所以能跑長任務,靠的就是51萬行TypeScript圍繞模型構建的這套harness。一位工程師BojieLi在最近一篇拆解ClaudeCode源碼的博客里把這件事說得很直接:“模型能力正在趨于商品化,競爭優勢正在轉移到模型之外的工程實踐上。”
GLM-5.1能在一個晚上跑完1200步、交付一套完整Linux系統,意味著智譜在長程任務的harness工程上跨進了Claude Code同一個梯隊。過去一整年里,大部分中國模型在這一層都還沒跨過去:單步代碼質量可以接近Claude,但跑到第200步就開始忘記前面的約束,開始在自己積累的噪音里迷路。
AI安全機構METR把模型獨立工作多久叫“任務完成時間線”,這條時間線在前沿模型上大約每7個月翻一倍。8個小時是目前全球只有兩個模型夠得著的數字:Claude Opus4.6和GLM-5.1。其中一個被鎖在Anthropic自家的Claude Code里,按token付錢、忍受hellobug、被隨時切斷第三方工具支持。另一個掛在HuggingFace上,所有人都能下載到本地自己跑、自己改、自己接進任何一個開源harness里。
全國產芯片路徑
掛在HuggingFace上的這份GLM-5.1權重,是智譜在過去三個月里一條更長的國產芯片路徑上的最新一站。
去年這個時候,業內對國產芯片訓練前沿大模型的判斷基本統一:跑得通就不錯了,性能上肯定要打折,做做實驗可以,做正經的旗艦模型還差點意思。
時間往回推三個月。1月14日,智譜聯合華為開源了圖像生成模型GLM-Image,基于昇騰Atlas800TA2設備和昇思MindSporeAI框架,從數據預處理到最終模型收斂,全程都在國產堆棧上完成,沒有一塊NVIDIAGPU、也沒有一行CUDA。這是當時業內首個在國產芯片上完成全流程訓練、性能達到SOTA水平的多模態模型。一個月后,2月11日的GLM-5上線,完成了和華為昇騰、摩爾線程、寒武紀、昆侖芯、沐曦、燧原、海光七家國產算力平臺的全棧適配。七家全部國產,沒有NVIDIA。到了4月8日的GLM-5.1,智譜在華為昇騰上做了更深的優化,單節點性能接近雙卡國際集群。
智譜用GLM-Image證明了國產堆棧能訓前沿模型,用GLM-5證明了國產堆棧能穩定服務大規模用戶,用GLM-5.1證明了國產堆棧的實際部署效率正在追平英偉達。
模型再度漲價
發布GLM-5.1的同一天,智譜還做了另一件事:把GLM系列的API價格再次上調了10%。
這不是智譜今年第一次漲價。2月12日發布GLM-5那天,智譜已經把CodingPlan漲過一次30%起。當時上海證券報把這個動作稱為“2026年國產大模型漲價第一槍”。從GLM-5那次到GLM-5.1這次,智譜在2026年第一個季度里API價格累計漲了83%,調用量不降反升,反而增長了400%。
智譜并不孤單。3月13日,騰訊云調整了混元系列大模型定價,部分模型漲幅超過460%。3月18日,阿里云和百度智能云同日發布調價公告,AI算力相關產品漲幅5%到34%。從智譜2月12日打響第一槍開始,整個國產大模型行業在2026年第一個季度集體進入了漲價周期。智譜用的是華為昇騰,單位算力成本目前還不占優勢,反而更緊。智譜敢做這一波漲價的帶頭者,靠的是對自己模型能力的信心。
定價邏輯變了。在新的邏輯里,模型按它能跑出來的價值定價。能跑8小時長程任務的模型和能回答一句話的模型,本來就不應該是同一個價。中科曙光高級副總裁李斌對經濟觀察報說得更直接:算力系統的評價指標正在變,過去看一個系統有多少算力,現在看它能多么經濟地產出token。
GLM-5.1漲價10%之后,Coding場景下的緩存命中價格已經和Anthropic旗下ClaudeSonnet4.6持平。這是國產大模型第一次在核心場景的定價上和海外頭部廠商對齊。
資本市場用真金白銀做了背書。GLM-5.1發布當天,智譜港股盤中最高漲超18%,收漲15.21%報897.5港元,市值站上4000億港元。第二天繼續沖高,盤中觸及999港元的歷史新高。國元證券給出的判斷是,智譜的表現逐步驗證了大模型廠商的商業化潛力,產業有望從投入期進入回報期。市場把智譜當成了token經濟學的代表。
截至2026年3月,GLM已經全面部署在Google VertexAI、AWS Bedrock等海外云服務商,在OpenRouter的付費模型排名第一,是Windsurf、OpenCode等海外編碼平臺的默認模型。中國前10大互聯網公司里有9家深度集成GLM。當全球開發者都在用一個模型的時候,這個模型就是行業的基座。
Anthropic服務的從來不是你
Anthropic選擇把Mythos當作一次內部的能力宣告:發布技術報告,把模型本身留在11家美國巨頭組成的封閉俱樂部里。這份合作伙伴名單和Anthropic自己的toB核心客戶名單幾乎完全重合。
Anthropic從一開始就不是一家面向個人開發者的公司。它的主要收入來自企業級合同,給云廠商、金融機構、政府部門提供定制化部署。Claude的Pro和Max訂閱對它來說是流量盤子和公共形象的一部分,不是營收主力。
Claude Code的額度bug拖著不修不解釋,本質因為受影響的是個人開發者,不影響企業合同的執行。砍掉龍蝦等第三方工具的訂閱支持,因為這類工具的目標用戶不是企業IT部門而是那些“浪費”企業資源的個人開發者。把Mythos鎖起來只給11家公司用,因為這11家本來就是Anthropic真正服務的對象。“太危險”是公開的理由,更準確的描述是:最強的能力,留給付錢最多的客戶。這是一家to B公司理性的商業選擇。
智譜給出的答案完全相反。Mythos被鎖起來的次日,GLM-5.1 的權重就出現在 Hugging Face 上,任何人都能下載。
過去幾年開源模型一直背著一個注腳:性價比有余,但性能不頂尖。開源的GLM-5.1反超了閉源的Opus 4.6證明了一件事,模型平權不需要以犧牲性能為代價。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.