網易首頁 > 網易號 > 正文申請入駐

Anthropic“過于先進，不予展示”的能力，被中國開源模型放出來了

2026-04-10 16:44:12　來源: 觀察者網

上海舉報

分享至

（文/陳濟深編輯/張廣凱）

4月7日，Anthropic官宣了新模型Claude Mythos Preview，但罕見的表示不對外發布。理由八個字就能說清：“過于先進，不予展示”。

Anthropic在公司主博客和同步發布的系統卡里都寫明，Mythos在編碼和網絡安全兩項上對現有所有模型實現了代差級的領先：SWE-BenchPro拿到77.8分，比目前公開的最強模型Opus4.6高了20個百分點。

這是Anthropic這兩個星期里第三次把開發者往外推。

3月23日開始，Claude Code用戶在社交平臺集體投訴自己的額度被燒得異常快。最廣為流傳的一條吐槽是：有人發了一個hello就用掉了13%的session限額。一位開發者反編譯了ClaudeCode的二進制自己找出了原因，是ClaudeCode內部的兩個bug把token消耗悄悄放大了10到20倍。

Anthropic在社區上的回應只有一句話：“我們注意到了，正在調查。”隨后一切便石沉大海。

4月5日，Anthropic又出了一刀。公司單方面宣布Claude訂閱不再覆蓋OpenClaw（龍蝦）等第三方編碼工具，社區里幾個最常用的Claude Code替代品被一刀切。Pragmatic Engineer作者Gergely Orosz在X上那句被轉了幾千次的話是：“Anthropic真的在一點點燒光開發者的好感。”

4月7日，Mythos發布。普通用戶連看一眼的資格都沒有。

Claude Opus 4.6在過去幾個月里一直是全球最強的公開AI編碼模型。最接近它的挑戰者是智譜2月發的GLM-5。

就在次日，智譜發布了GLM-5.1，并直接把模型開源了出去。在SWE-BenchPro這個最接近真實軟件開發場景的工程基準上，GLM-5.1拿到58.4分，超過Anthropic自家的Opus4.6（57.3）、OpenAI的GPT-5.4（57.7）、谷歌的Gemini3.1Pro（54.2）。

在Anthropic一直最強的那個工程榜單上，把Opus4.6擠下來的，是一個中國開源模型。

美國閉源，中國開源

Mythos在網絡安全方向上的能力比它的編碼能力更讓人不安，這也是Anthropic決定不讓它對外發布的真正原因。

Anthropic公開的報告里給了一組示例：它能自主發現一個潛伏在Linux內核里23年沒被找到的漏洞，能在27年前的OpenBSD代碼里挖出可利用的bug，能在被全球安全研究人員掃描了500萬次都沒有發現問題的FFmpeg代碼里找出一個16年前的漏洞。

最有代表性的一個測試是：在沒有任何提示的前提下，讓Mythos獨立攻擊一臺FreeBSD服務器，4小時之后、燒掉50美金的token，它拿到了root權限。

更讓Anthropic警覺的是另一個測試結果。研究人員讓Mythos試著突破測試沙箱，它不僅做到了，還在沒有任何指令要求的情況下，主動把自己用的攻擊細節發布到了幾個不容易被搜到、但技術上對公眾可見的網站上。Anthropic自己在報告里的描述是“一種令人擔憂的、未經請求的展示行為”。

這是過去只有國家級黑客團隊能做到的事情。

也正是因為這個表現，Anthropic決定把Mythos鎖起來。配套動作是一個叫Project Glasswing的封閉項目。Anthropic聯合Amazon Web Services、Apple、Broadcom、Cisco、CrowdStrike、Google、JPMorgan Chase、Linux Foundation、Microsoft、Nvidia和PaloAlto Networks這11家美國科技和金融巨頭，由Anthropic提供1億美元的使用額度，讓這些公司閉門用Mythos幫各自修補關鍵基礎設施漏洞。

11家公司，1億美元，最強的那把刀只在他們自己人之間傳。

讓Anthropic決定把Mythos鎖起來的那項核心能力，是網絡安全編碼。而這正是GLM-5.1這一次進步最猛的能力。在CyberGym基準上，GLM-5.1從GLM-5的48.3分提到了68.7分，漲了42%，是所有單項里漲幅最大的一項。

在智譜開源發布GLM-5.1 模型12小時之后，智譜在X上的官方推文有370萬閱讀。HuggingFace的CEO Clement Delangue公開轉發祝賀：“SWE-BenchPro上表現最好的模型現在在HuggingFace上開源了。”

AI領域知名開發者Akhaliq發了同樣的話。Reddit的r/LocalLLaMA論壇置頂了一個帖子，標題就是“為什么最近這么多人在用GLM”。

美國分析機構Constellation Research在評論里寫得更直白：開源模型這條賽道現在是中國模型的主場，Google上周才發的Gemma4，NVIDIA在推Nemotron系列，美國玩家在開源這條路上已經掉隊，正在試著擠回去。

睡覺時，AI替你打了一晚上工

中國模型主導開源賽道這件事，最直觀的證據是GLM-5.1現在能干一件以前沒有任何開源模型能干的事情：讓AI獨立工作一整個晚上。

工程師把一份只畫到架構層面的草圖扔給GLM-5.1，然后直接睡覺。早上8點起床打開屏幕，GLM-5.1已經獨立工作了8個小時，執行了1200多步。一套完整的Linux桌面系統擺在面前：桌面環境、窗口管理器、文件瀏覽器、終端、狀態欄、網絡驅動、VPN管理器、中文字體支持，4.8MB文件，附帶50多個能直接打開的應用。智譜內部估算，這相當于一個四人團隊工作一周的產出。

整個過程沒有人介入。GLM-5.1自己規劃任務步驟，自己寫代碼，自己跑測試，遇到bug自己排查、改、重新跑，還給自己寫的代碼補了一套回歸測試。

要讓一個模型連續工作8個小時不崩潰，光靠它寫代碼的能力強是不夠的。它每走一步都要決定下一個工具用什么，每過一段時間都要處理上下文塞滿的問題，每遇到一個錯誤都要自己定位、回退、重試，1200步之后還要記得最初的目標。這一整套發生在模型之外的工程基礎設施被業內統一叫做harness。

Anthropic自己的Claude Code之所以能跑長任務，靠的就是51萬行TypeScript圍繞模型構建的這套harness。一位工程師BojieLi在最近一篇拆解ClaudeCode源碼的博客里把這件事說得很直接：“模型能力正在趨于商品化，競爭優勢正在轉移到模型之外的工程實踐上。”

GLM-5.1能在一個晚上跑完1200步、交付一套完整Linux系統，意味著智譜在長程任務的harness工程上跨進了Claude Code同一個梯隊。過去一整年里，大部分中國模型在這一層都還沒跨過去：單步代碼質量可以接近Claude，但跑到第200步就開始忘記前面的約束，開始在自己積累的噪音里迷路。

AI安全機構METR把模型獨立工作多久叫“任務完成時間線”，這條時間線在前沿模型上大約每7個月翻一倍。8個小時是目前全球只有兩個模型夠得著的數字：Claude Opus4.6和GLM-5.1。其中一個被鎖在Anthropic自家的Claude Code里，按token付錢、忍受hellobug、被隨時切斷第三方工具支持。另一個掛在HuggingFace上，所有人都能下載到本地自己跑、自己改、自己接進任何一個開源harness里。

全國產芯片路徑

掛在HuggingFace上的這份GLM-5.1權重，是智譜在過去三個月里一條更長的國產芯片路徑上的最新一站。

去年這個時候，業內對國產芯片訓練前沿大模型的判斷基本統一：跑得通就不錯了，性能上肯定要打折，做做實驗可以，做正經的旗艦模型還差點意思。

時間往回推三個月。1月14日，智譜聯合華為開源了圖像生成模型GLM-Image，基于昇騰Atlas800TA2設備和昇思MindSporeAI框架，從數據預處理到最終模型收斂，全程都在國產堆棧上完成，沒有一塊NVIDIAGPU、也沒有一行CUDA。這是當時業內首個在國產芯片上完成全流程訓練、性能達到SOTA水平的多模態模型。一個月后，2月11日的GLM-5上線，完成了和華為昇騰、摩爾線程、寒武紀、昆侖芯、沐曦、燧原、海光七家國產算力平臺的全棧適配。七家全部國產，沒有NVIDIA。到了4月8日的GLM-5.1，智譜在華為昇騰上做了更深的優化，單節點性能接近雙卡國際集群。

智譜用GLM-Image證明了國產堆棧能訓前沿模型，用GLM-5證明了國產堆棧能穩定服務大規模用戶，用GLM-5.1證明了國產堆棧的實際部署效率正在追平英偉達。

模型再度漲價

發布GLM-5.1的同一天，智譜還做了另一件事：把GLM系列的API價格再次上調了10%。

這不是智譜今年第一次漲價。2月12日發布GLM-5那天，智譜已經把CodingPlan漲過一次30%起。當時上海證券報把這個動作稱為“2026年國產大模型漲價第一槍”。從GLM-5那次到GLM-5.1這次，智譜在2026年第一個季度里API價格累計漲了83%，調用量不降反升，反而增長了400%。

智譜并不孤單。3月13日，騰訊云調整了混元系列大模型定價，部分模型漲幅超過460%。3月18日，阿里云和百度智能云同日發布調價公告，AI算力相關產品漲幅5%到34%。從智譜2月12日打響第一槍開始，整個國產大模型行業在2026年第一個季度集體進入了漲價周期。智譜用的是華為昇騰，單位算力成本目前還不占優勢，反而更緊。智譜敢做這一波漲價的帶頭者，靠的是對自己模型能力的信心。

定價邏輯變了。在新的邏輯里，模型按它能跑出來的價值定價。能跑8小時長程任務的模型和能回答一句話的模型，本來就不應該是同一個價。中科曙光高級副總裁李斌對經濟觀察報說得更直接：算力系統的評價指標正在變，過去看一個系統有多少算力，現在看它能多么經濟地產出token。

GLM-5.1漲價10%之后，Coding場景下的緩存命中價格已經和Anthropic旗下ClaudeSonnet4.6持平。這是國產大模型第一次在核心場景的定價上和海外頭部廠商對齊。

資本市場用真金白銀做了背書。GLM-5.1發布當天，智譜港股盤中最高漲超18%，收漲15.21%報897.5港元，市值站上4000億港元。第二天繼續沖高，盤中觸及999港元的歷史新高。國元證券給出的判斷是，智譜的表現逐步驗證了大模型廠商的商業化潛力，產業有望從投入期進入回報期。市場把智譜當成了token經濟學的代表。

截至2026年3月，GLM已經全面部署在Google VertexAI、AWS Bedrock等海外云服務商，在OpenRouter的付費模型排名第一，是Windsurf、OpenCode等海外編碼平臺的默認模型。中國前10大互聯網公司里有9家深度集成GLM。當全球開發者都在用一個模型的時候，這個模型就是行業的基座。

Anthropic服務的從來不是你

Anthropic選擇把Mythos當作一次內部的能力宣告：發布技術報告，把模型本身留在11家美國巨頭組成的封閉俱樂部里。這份合作伙伴名單和Anthropic自己的toB核心客戶名單幾乎完全重合。

Anthropic從一開始就不是一家面向個人開發者的公司。它的主要收入來自企業級合同，給云廠商、金融機構、政府部門提供定制化部署。Claude的Pro和Max訂閱對它來說是流量盤子和公共形象的一部分，不是營收主力。

Claude Code的額度bug拖著不修不解釋，本質因為受影響的是個人開發者，不影響企業合同的執行。砍掉龍蝦等第三方工具的訂閱支持，因為這類工具的目標用戶不是企業IT部門而是那些“浪費”企業資源的個人開發者。把Mythos鎖起來只給11家公司用，因為這11家本來就是Anthropic真正服務的對象。“太危險”是公開的理由，更準確的描述是：最強的能力，留給付錢最多的客戶。這是一家to B公司理性的商業選擇。

智譜給出的答案完全相反。Mythos被鎖起來的次日，GLM-5.1 的權重就出現在 Hugging Face 上，任何人都能下載。

過去幾年開源模型一直背著一個注腳：性價比有余，但性能不頂尖。開源的GLM-5.1反超了閉源的Opus 4.6證明了一件事，模型平權不需要以犧牲性能為代價。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.