Claude Mythos：我太強了，強到不敢讓你們用

2026-04-08 16:03:22　來源: 智東西

北京舉報

分享至

▲頭圖由AI輔助生成

智東西
編譯陳佳
編輯程茜

智東西4月8日消息，Anthropic今日發(fā)布新一代模型Claude Mythos Preview及配套安全項目Project Glasswing。該模型最強的能力是，它能找到人類專家和自動化工具都沒發(fā)現(xiàn)的軟件漏洞。OpenBSD是公認最難攻破的操作系統(tǒng)之一，它在里面找到了一個藏了27年的漏洞；FFmpeg的某行代碼已被自動化測試工具觸發(fā)500萬次，卻始終未能識別出問題，而該模型則成功發(fā)現(xiàn)了其中的漏洞。

但因相關防護機制尚未成熟，該模型當前不對公眾開放，僅在由12家機構組成的小范圍合作體系中提供訪問。Anthropic同時承諾提供最高1億美元（約合人民幣6.87億元）的模型使用額度，用于防御性網(wǎng)絡安全研究。

▲Anthropic官方發(fā)布Project Glasswing項目的社交媒體X平臺推文

在專業(yè)漏洞復現(xiàn)測試CyberGym上，它的得分是83.1%，而Anthropic此前最強的公開模型Opus 4.6是66.6%。編程能力方面，在衡量軟件工程任務的SWE-bench Verified測試中，它得了93.9%，Opus 4.6是80.8%。Anthropic稱，新模型的能力已經(jīng)達到“可以與最頂尖人類安全專家競爭”的水平。

Anthropic還發(fā)布了Firefox JS shell環(huán)境下的漏洞利用專項測試結果。數(shù)據(jù)顯示，Mythos Preview在該場景下成功生成完整可利用exploit（漏洞利用代碼）的比例高達72.4%，另有11.6%的測試實現(xiàn)了寄存器控制；而前代模型Opus 4.6在相同任務中的成功率不足1%。這意味著Mythos Preview的漏洞利用能力較Opus 4.6提升了近80倍。

▲Claude三款模型在Firefox JS shell環(huán)境下的漏洞利用能力對比測試（圖源：Anthropic）

與此同時，Anthropic還公布了配套安排，包括向開源社區(qū)提供400萬美元（約合人民幣2747.2萬元）資助、在90天內(nèi)披露階段性研究成果，并推動圍繞漏洞披露、供應鏈安全等議題的行業(yè)協(xié)作。整體來看，這一項目不僅圍繞模型能力展開，也延伸至治理機制與行業(yè)規(guī)范層面。

這次正式發(fā)布，有一個并不體面的前情。今年3月底，Anthropic內(nèi)容管理系統(tǒng)出現(xiàn)配置錯誤，導致近3000份未發(fā)布的內(nèi)部資產(chǎn)意外暴露在可公開搜索的數(shù)據(jù)存儲中。泄露內(nèi)容顯示，Anthropic內(nèi)部已將該模型命名為Claude Mythos，并定性為“迄今為止最強大的AI模型”，同時在文件中直接警告其“帶來了前所未有的網(wǎng)絡安全風險”。

而就在Glasswing計劃正式發(fā)布前約一周，Anthropic又因Claude Code軟件包2.1.88版本的打包錯誤，意外泄露了近2000個源代碼文件、逾50萬行代碼，隨后在嘗試清理時又誤將約8100個GitHub代碼倉庫發(fā)出下架通知，后經(jīng)緊急撤回才平息。

系統(tǒng)卡：https://www-cdn.anthropic.com/8b8380204f74670be75e81c820ca8dda846ab289.pdf

一、挖出藏了27年的老漏洞，發(fā)現(xiàn)500萬次測試都被遺漏的漏洞

Anthropic在官網(wǎng)披露，其新訓練的前沿模型Claude Mythos Preview已在所有主流操作系統(tǒng)和所有主流瀏覽器中發(fā)現(xiàn)數(shù)千個零日漏洞，其中多個被定級為高危。

該公司稱，該模型的漏洞挖掘能力已可超越“除最頂尖安全專家之外的所有人類”，且上述工作全程由模型自主完成，無需人工引導。

官網(wǎng)提供了三個已修復漏洞的具體案例。

其一，該模型在以安全性著稱、常用于運行防火墻等關鍵基礎設施的OpenBSD中發(fā)現(xiàn)了一個存在27年的漏洞，攻擊者只需建立連接即可遠程崩潰運行該系統(tǒng)的任意機器。

其二，在被大量軟件用于視頻編解碼的FFmpeg中，發(fā)現(xiàn)了一個已存在16年的漏洞，此前自動化測試工具曾命中該行代碼500萬次，始終未能識別。

其三，在運行全球大多數(shù)服務器的Linux內(nèi)核中，模型自主發(fā)現(xiàn)并串聯(lián)多個漏洞，實現(xiàn)了從普通用戶權限到完全控制目標機器的提權。

三項漏洞均已報告給相關軟件維護方并完成修補，其余已發(fā)現(xiàn)的漏洞細節(jié)以加密哈希形式提交，待修復到位后陸續(xù)公開。

在CyberGym漏洞復現(xiàn)基準測試中，Mythos Preview得分83.1%，Anthropic此前最強公開模型Opus 4.6為66.6%。該公司說，隨著AI能力以當前速度推進，此類攻擊性能力將不可避免地向更廣泛行為者擴散，其中不排除無意愿負責任部署的行為者，屆時對經(jīng)濟、公共安全和國家安全的潛在沖擊將是嚴峻的。

▲Claude Mythos Preview與Claude Opus 4.6在CyberGym網(wǎng)絡安全漏洞復現(xiàn)基準測試中的得分對比（圖源：Anthropic）

▲Claude Mythos Preview與Claude Opus 4.6在多項代碼能力基準測試中的得分對比（圖源：Anthropic）

▲Claude Mythos Preview與Claude Opus 4.6在多項通用推理能力基準測試中的得分對比（圖源：Anthropic）

▲Claude Mythos Preview與Claude Opus 4.6在自主搜索與計算機操作類基準測試中的得分對比（圖源：Anthropic）

二、聯(lián)合多家機構啟動Glasswing，提供最高1億美元額度支持安全研究

Project Glasswing由Anthropic牽頭發(fā)起，亞馬遜云科技（AWS）、蘋果、博通（Broadcom）、思科（Cisco）、網(wǎng)絡安全公司CrowdStrike、谷歌、摩根大通（JPMorganChase）、開源基金會Linux Foundation、微軟、英偉達、網(wǎng)絡安全公司Palo Alto Networks共12家機構作為創(chuàng)始合作伙伴加入。

▲Project Glasswing發(fā)起合作方企業(yè)Logo（圖源：Anthropic ）

Anthropic承諾在研究預覽期間提供最高1億美元（約合人民幣6.87億元）的Mythos Preview模型使用額度，覆蓋上述合作方的防御性安全工作。在12家創(chuàng)始伙伴之外，目前已有超過40家構建或維護關鍵軟件基礎設施的組織獲得擴展訪問權限，用于掃描和加固各自的第一方系統(tǒng)及所依賴的開源系統(tǒng)。

在資金支持之外，Anthropic另行向開源生態(tài)提供400萬美元（約合人民幣2747.2萬元）直接捐款：其中250萬美元（約合人民幣1717萬元）捐贈給Linux Foundation旗下的Alpha-Omega和OpenSSF，150萬美元（約合人民幣1030.2萬元）捐贈給Apache Software Foundation，用于幫助開源軟件維護者應對AI時代下網(wǎng)絡安全威脅格局的變化。

有意申請訪問權限的開源維護者可通過Claude for Open Source項目單獨提交申請。

研究預覽期結束后，Mythos Preview將向參與機構提供商業(yè)化訪問，定價為每百萬tokens輸入25美元（約合人民幣171.7元）、輸出125美元（約合人民幣858.5元），接入渠道包括Claude API、Amazon Bedrock、Google Cloud Vertex AI和Microsoft Foundry。

就使用場景而言，官網(wǎng)將合作方的工作重點列為本地漏洞檢測、二進制文件黑盒測試、端點安全加固和系統(tǒng)滲透測試，所涉及的基礎系統(tǒng)覆蓋全球相當規(guī)模的共享網(wǎng)絡攻擊面。

各合作方已就Mythos Preview的測試效果陸續(xù)發(fā)聲：Cisco、AWS、Microsoft、CrowdStrike、Palo Alto Networks等均公開確認該模型在其內(nèi)部安全工作中已發(fā)現(xiàn)此前版本遺漏的復雜漏洞，Google則將通過Vertex AI平臺向項目參與者提供模型訪問。

三、模型暫不對外發(fā)布，防護機制尚未就緒是主要原因

Anthropic不計劃將Claude Mythos Preview面向公眾開放。官方給出的理由是：要實現(xiàn)Mythos級別模型的安全大規(guī)模部署，前提是開發(fā)出能夠檢測并屏蔽模型最危險輸出的網(wǎng)絡安全防護措施，而這套機制目前尚未就緒。

在過渡安排上，Anthropic計劃先在即將推出的Claude Opus模型上部署和測試上述防護機制。

其邏輯是：Opus模型不具備Mythos Preview同等級別的風險，可以作為改進和完善防護措施的相對低風險載體，待機制成熟后再向Mythos級別的模型推廣。

對于合規(guī)工作受新防護措施影響的安全專業(yè)人員，Anthropic稱將開放一個名為“Cyber Verification Program”的專項申請渠道，但具體細節(jié)尚未公布。

Anthropic官方博客稱，隨著AI能力持續(xù)推進，此類進攻性能力“不久之后”將不可避免地向更廣泛行為者擴散，其中不排除不承諾負責任部署的行為者，潛在后果涉及經(jīng)濟、公共安全和國家安全。

與此同時，Anthropic稱已就Mythos Preview的進攻性和防御性網(wǎng)絡能力與美國政府官員展開持續(xù)討論，并稱美國及其盟友必須在AI技術上保持“決定性領先”，政府在評估和緩解AI相關國家安全風險方面具有不可或缺的作用。

四、承諾90天內(nèi)公開研究成果，推動建立跨行業(yè)網(wǎng)絡安全規(guī)范體系

Anthropic承諾將在90天內(nèi)發(fā)布公開報告，內(nèi)容涵蓋研究階段的主要發(fā)現(xiàn)、已修復漏洞情況及可對外披露的系統(tǒng)改進成果。項目合作伙伴也將在各自能力允許的范圍內(nèi)互相分享信息與最佳實踐。

官網(wǎng)將項目整體持續(xù)時間表述為“數(shù)月”，并指出前沿AI能力本身“可能在未來幾個月內(nèi)大幅推進”，網(wǎng)絡安全防御方（cyber defenders）因此需要立即行動，而非等待。

行業(yè)規(guī)范層面，Anthropic列出了擬與領先安全組織合作推動的具體議題，包括漏洞披露流程、軟件更新流程、開源與供應鏈安全、軟件開發(fā)生命周期與安全設計實踐、受監(jiān)管行業(yè)的安全標準、漏洞分類處理的規(guī)模化與自動化，以及補丁自動化。官網(wǎng)未披露上述議題的具體推進時間表或已確認的合作方名單。

機構建設層面，Anthropic提出了一個中期設想：建立一個獨立的第三方機構，匯聚私營和公共部門組織，作為大規(guī)模網(wǎng)絡安全項目持續(xù)推進的長期載體。該公司同時公開邀請其他AI行業(yè)成員加入，共同參與行業(yè)標準的制定。

Anthropic將Project Glasswing定性為“一個起點”，并稱沒有任何單一機構能夠獨立解決這些網(wǎng)絡安全問題，前沿AI開發(fā)者、軟件企業(yè)、安全研究人員、開源維護者和各國政府均在其列。

結語：不追能力上限，先管安全底線

從Glasswing項目披露的信息來看，Anthropic并未將重點放在繼續(xù)放大模型能力本身，而是將更多精力轉(zhuǎn)向能力如何被約束和使用。Claude Mythos Preview所展現(xiàn)出的漏洞挖掘與利用能力，已經(jīng)超出傳統(tǒng)工具的使用范疇。

Glasswing給出的路徑是，在能力尚未完全匹配防護機制之前，通過小范圍合作和集中資源投入進行驗證。這一方式并不改變模型能力本身，但改變了能力的擴散節(jié)奏。配套的資金支持、信息披露和規(guī)范討論，也在嘗試將單一公司的技術問題，轉(zhuǎn)化為跨機構協(xié)作的安全議題。

從更長周期看，這一項目的意義不在于短期內(nèi)發(fā)現(xiàn)多少漏洞，而在于是否能夠形成一套可復制的運行和治理框架。隨著模型能力繼續(xù)提升，類似Glasswing的機制是否成為行業(yè)常態(tài)，將直接影響高能力AI系統(tǒng)的實際落地路徑。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.