2025全球人工智能安全重大事件盤點

2026-01-30 12:57:26　來源: 數(shù)字經(jīng)濟聯(lián)合會

浙江舉報

分享至

2025年，是人工智能安全攻防從理論加速走向現(xiàn)實的重要一年。從國家級的戰(zhàn)略布局到黑客手中的自動化武器，從學(xué)術(shù)研究中的風險預(yù)警到科技巨頭的實戰(zhàn)化防御系統(tǒng)，一場靜默而激烈的“智能對抗”已全面展開。攻擊者開始利用大語言模型的推理能力，設(shè)計出更精巧、更隱蔽的攻擊突破策略；而防御者則試圖賦予AI更強大的自主洞察力，讓機器不僅能發(fā)現(xiàn)漏洞，更能理解、修復(fù)甚至預(yù)測威脅。

這不再僅僅是“黑客與白帽”的傳統(tǒng)較量，而是進入了“AI對陣AI”的新維度。無論是美國國防高級研究計劃局（DARPA）連續(xù)啟動的專項研究，還是像Bad Likert Judge、代碼包幻覺這類新型攻擊技術(shù)的浮現(xiàn)，亦或是OpenAI、谷歌、微軟等巨頭推出的自主安全人工智能體，都清晰指向同一個趨勢：網(wǎng)絡(luò)安全的核心，正在從“人腦對抗”轉(zhuǎn)向“智能體對抗”。

攻擊在變得自動化、平民化、智能化。一個勒索軟件可以借由人工智能動態(tài)生成代碼，繞過傳統(tǒng)檢測；一個紅隊工具可能被惡意利用，將漏洞利用時間從幾天壓縮到幾分鐘；甚至，大型語言模型已能在無人干預(yù)下，自主復(fù)現(xiàn)復(fù)雜的網(wǎng)絡(luò)入侵。這意味著，威脅的降維打擊可能來自更隱蔽的角落，防御的窗口期被急劇壓縮。

與此同時，人工智能驅(qū)動的防御也在創(chuàng)造新的可能。人工智能不僅能以遠超人類的速度分析數(shù)百萬行代碼、在海量數(shù)據(jù)中捕捉異常，更開始展現(xiàn)“創(chuàng)造性修復(fù)”的能力——理解漏洞根源、生成有效補丁、驗證方案安全。從保護關(guān)鍵基礎(chǔ)設(shè)施的競賽，到守護外交網(wǎng)絡(luò)的前沿部署，人工智能正被賦予守護者的重任。

我們整理了過去一年全球人工智能安全領(lǐng)域的17個關(guān)鍵事件。它們像一塊塊拼圖，共同勾勒出這場時代性攻防戰(zhàn)的輪廓：既有令人警覺的風險與漏洞，也有值得期待的技術(shù)突破與戰(zhàn)略布局。

以下，讓我們一起回顧全球人工智能安全領(lǐng)域這風起云涌的2025年。

研究發(fā)現(xiàn)新的人工智能高效越獄方法

Bad Likert Judge

1月，美國Palo Alto Networks公司發(fā)現(xiàn)新的大型語言模型（LLM）多輪攻擊策略Bad Likert Judge。該策略要求LLM充當評判員，使用李克特量表對給定反應(yīng)的危害性進行評分。之后該策略會要求LLM生成與量表各等級相對應(yīng)的示例，其中等級最高的示例或可包含有害內(nèi)容。亞馬遜網(wǎng)絡(luò)服務(wù)（AWS）、谷歌、Meta、微軟、OpenAI和英偉達6家公司的LLM的測試結(jié)果表明，Bad Likert Judge策略的攻擊成功率（ASR）比普通的“提示語注入”攻擊高出60%以上。此外，在使用內(nèi)容過濾器后，該策略對所有LLM的ASR平均降低了89.2%，這表明實施全面的內(nèi)容過濾能有效抵御“提示語注入”攻擊。

美國DARPA啟動人工智能網(wǎng)絡(luò)脆弱性

評估項目

2月，美國國防高級研究計劃局（DARPA）通過發(fā)布DARPA-SN-25-39通告，宣布即將啟動“確保人工智能戰(zhàn)場有效穩(wěn)健性”（SABER）項目。DARPA稱，目前尚無已知的生態(tài)系統(tǒng)可以對已部署的軍事人工智能系統(tǒng)進行網(wǎng)絡(luò)攻擊脆弱性評估。因此，理論上的對抗性人工智能攻擊尚未在實際操作環(huán)境中得到實際驗證。為應(yīng)對這一問題，SABER項目將尋求反人工智能技術(shù)、工具和技術(shù)能力，以評估軍事人工智能程序面臨敵人網(wǎng)絡(luò)攻擊的脆弱性。目前，DARPA尚未發(fā)布正式的SABER招標書。未來，該項目計劃通過承包商支持，開展對現(xiàn)有最先進的物理攻擊、對抗人工智能、網(wǎng)絡(luò)安全及電子戰(zhàn)等技術(shù)進行調(diào)研、評估、篩選、開發(fā)與集成，以構(gòu)建針對人工智能系統(tǒng)的網(wǎng)絡(luò)漏洞評估能力。

美國Leidos公司簽定DARPA

“安全工具智能生成”項目合同

3月，美國國防高級研究計劃局（DARPA）授予Leidos公司一份價值880萬美元的“安全工具智能生成”（INGOTS）項目合同，該項目在利用人工智能與程序分析技術(shù)來加速漏洞判定與修復(fù)，從而保護移動操作系統(tǒng)和應(yīng)用程序。Leidos將采用機器學(xué)習分析攻擊鏈的嚴重性與持續(xù)性，利用大語言模型從網(wǎng)絡(luò)安全威脅數(shù)據(jù)庫中提煉威脅情報，并借助其在可信任務(wù)人工智能（Trusted Mission AI）領(lǐng)域的專業(yè)知識分析修補后的系統(tǒng)，以評估其穩(wěn)健性。

研究發(fā)現(xiàn)新的大型語言模型安全漏洞

“代碼包幻覺”

4月，美國德克薩斯大學(xué)圣安東尼奧分校、俄克拉荷馬大學(xué)和弗吉尼亞理工大學(xué)的研究人員聯(lián)合發(fā)現(xiàn)，大型語言模型（LLM）存在一種名為“代碼包幻覺”的新型安全漏洞。該漏洞指LLM在生成代碼時，有時會引用實際不存在的軟件包（即“幻覺包”），攻擊者可能通過創(chuàng)建同名惡意軟件包，對LLM生成的代碼實施投毒攻擊。研究團隊測試了包括ChatGPT、CodeLlama和DeepSeek在內(nèi)的16款主流LLM。結(jié)果顯示：商用LLM生成的幻覺包平均占比不低于5.2%，而開源LLM的平均占比不低于21.7%。通過采用檢索增強生成和監(jiān)督微調(diào)等方法，研究人員成功將“幻覺包”比例降低了85%。目前，代碼生成中的此類幻覺現(xiàn)象及其對代碼安全的影響，仍處于早期研究階段。

美國特朗普政府發(fā)布新版網(wǎng)絡(luò)安全

行政命令

6月，美國白宮發(fā)布題為《繼續(xù)開展特定工作以加強國家網(wǎng)絡(luò)安全并修訂第13694號和第14144號行政命令》的最新版網(wǎng)絡(luò)安全行政命令。該命令的要點包括：指示聯(lián)邦政府推進安全軟件開發(fā)；指示聯(lián)邦政府加強邊界網(wǎng)關(guān)安全；指示聯(lián)邦政府轉(zhuǎn)向可抵御量子計算機攻擊的密碼算法；將人工智能網(wǎng)絡(luò)安全領(lǐng)域的工作重點從審查調(diào)整為識別和管理漏洞；啟動旨在實現(xiàn)“規(guī)則即代碼”的試點項目，以便把各部門的網(wǎng)絡(luò)安全政策和指導(dǎo)轉(zhuǎn)化為機器可讀的版本；要求物聯(lián)網(wǎng)產(chǎn)品供應(yīng)商采用“美國網(wǎng)絡(luò)信任標志”標簽；取消了強制為外國人頒發(fā)數(shù)字身份證等“不當網(wǎng)絡(luò)安全措施”。

美國國會提出《禁止對手人工智能法》草案

6月，美國國會參眾兩院分別提出《禁止對手人工智能法》草案，旨在應(yīng)對并限制由所謂“外國對手”控制的人工智能系統(tǒng)對美國國家安全構(gòu)成的潛在影響。該草案主要提出以下3項要求：由聯(lián)邦采購安全委員會制定一份關(guān)于由外國對手生產(chǎn)或開發(fā)的人工智能系統(tǒng)的清單，并由管理與預(yù)算局每180天更新一次；原則上禁止聯(lián)邦機構(gòu)使用被列入該清單的人工智能系統(tǒng)；允許聯(lián)邦機構(gòu)出于研究、培訓(xùn)、反恐等特定目的使用清單內(nèi)系統(tǒng)，但須書面通知管理與預(yù)算局及相關(guān)國會委員會。法案還明確了“外國對手”的定義，并指出其通常包括俄羅斯、伊朗、朝鮮等國。

美國谷歌公司稱利用人工智能工具

Big Sleep發(fā)現(xiàn)黑客即將利用的漏洞

7月，美國谷歌公司宣布其人工智能體Big Sleep成功發(fā)現(xiàn)并隔離了一個黑客組織計劃利用的零日漏洞。這是首次由人工智能直接阻止零日漏洞利用企圖。Big Sleep源于谷歌Project Zero項目與其子公司DeepMind的大型語言模型輔助漏洞研究，能夠主動搜尋軟件中未知的安全漏洞。此次發(fā)現(xiàn)的漏洞位于開源數(shù)據(jù)庫引擎SQLite中（編號CVE-2025-6965）。谷歌威脅情報小組監(jiān)測到黑客組織可能利用某零日漏洞發(fā)動攻擊，但無法確定具體目標，隨后將有限威脅指標提供給Project Zero團隊。該團隊利用Big Sleep成功定位并隔離了相關(guān)漏洞。谷歌未透露本次分析所依據(jù)的具體威脅指標及涉及的黑客組織信息。

研究證明人工智能可自主規(guī)劃和執(zhí)行

網(wǎng)絡(luò)攻擊

8月，卡內(nèi)基梅隆大學(xué)和Anthropic公司的一項聯(lián)合研究顯示，研究人員利用大型語言模型（LLM）成功復(fù)現(xiàn)了2017年的Equifax數(shù)據(jù)泄露事件，證明LLM能夠在無需人工干預(yù)的情況下自主規(guī)劃并執(zhí)行針對企業(yè)級網(wǎng)絡(luò)環(huán)境的復(fù)雜網(wǎng)絡(luò)攻擊。研究團隊開發(fā)了一套分層架構(gòu)：其中LLM充當“戰(zhàn)略家”，負責規(guī)劃攻擊并下達高級指令；另一組由LLM與非LLM智能體組成的AI工具則負責執(zhí)行掃描網(wǎng)絡(luò)、部署漏洞利用程序等低級任務(wù)。研究團隊指出，該成果表明LLM可能被惡意濫用，但也意味著資源有限的小型組織同樣能借助AI測試自身網(wǎng)絡(luò)漏洞。目前，研究團隊也正探索如何在類似架構(gòu)中實現(xiàn)自主AI防御，即利用基于LLM的智能體實時檢測與應(yīng)對攻擊。

美國微軟公司推出基于人工智能的惡意

軟件分析系統(tǒng)Project Ire

8月，美國微軟公司推出了基于大型語言模型（LLM）的自主惡意軟件分類系統(tǒng)Project Ire。該系統(tǒng)能夠在沒有文件來源信息或使用場景線索的情況下，借助反編譯器及其他工具對各類軟件進行逆向工程分析，以判斷其是否具有惡意性。Project Ire可執(zhí)行從低級到高級的一系列分析，包括二進制分析、控制流重構(gòu)和代碼行為解釋等。他通過應(yīng)用程序編程接口（API）調(diào)用多種逆向工程工具，包括基于Project Freta的微軟內(nèi)存分析沙箱、自定義工具、開源工具、文檔搜索工具以及各類反編譯器。該系統(tǒng)主要功能包括：自動使用逆向工程工具識別文件類型、文件結(jié)構(gòu)及關(guān)鍵關(guān)注區(qū)域；利用angr和Ghidra等框架重建軟件控制流圖；通過API調(diào)用專用工具識別并總結(jié)關(guān)鍵功能；調(diào)用驗證工具檢驗分析結(jié)果，最終對目標軟件進行分類并生成詳細報告，說明分析依據(jù)，以幫助安全團隊修正潛在錯誤。在公開的Windows驅(qū)動程序數(shù)據(jù)集測試中，Project Ire能夠正確識別90%的文件，誤報率僅為4%。

美國DARPA和ARPA-H聯(lián)合舉辦的“人工智能

網(wǎng)絡(luò)挑戰(zhàn)賽”落幕

8月，由美國國防高級研究計劃局（DARPA）與衛(wèi)生高級研究計劃局（ARPA-H）聯(lián)合舉辦的“人工智能網(wǎng)絡(luò)挑戰(zhàn)賽”（AIxCC）順利結(jié)束。來自佐治亞理工學(xué)院、三星研究院、韓國科學(xué)技術(shù)院及浦項科技大學(xué)的專家組成的“亞特蘭大”隊獲得冠軍。該競賽為期兩年，旨在評估參賽團隊所構(gòu)建的、用于自動識別和修補關(guān)鍵基礎(chǔ)設(shè)施系統(tǒng)中開源代碼漏洞的人工智能模型。評分維度包括漏洞發(fā)現(xiàn)與驗證、補丁生成、漏洞與補丁匹配、提交準確率及補丁質(zhì)量等，重點考察快速生成補丁與分析漏洞報告的能力。比賽期間，各參賽系統(tǒng)累計分析了5400萬行代碼，共發(fā)現(xiàn)54個故意植入的漏洞，并成功修復(fù)其中43個；同時識別出18個此前未知的真實漏洞（6個位于C代碼庫，12個位于Java代碼庫），并為其中11個漏洞生成了補丁，平均每個補丁僅需45分鐘。進入決賽的7支隊伍中，已有4個模型投入實際應(yīng)用，其余3個預(yù)計將在數(shù)周內(nèi)部署使用。

研究發(fā)現(xiàn)黑客組織利用人工智能紅隊工具

HexStrike-AI加快漏洞利用速度

9月，網(wǎng)絡(luò)安全公司CheckPoint Research發(fā)現(xiàn)，黑客正越來越多地利用基于人工智能的合法紅隊工具HexStrike-AI來加速漏洞利用。HexStrike-AI于2025年8月發(fā)布，可通過模型上下文協(xié)議（MCP）以“人在回路”方式與外部大型語言模型（LLM）交互，形成“詢問、分析、執(zhí)行、反饋”的持續(xù)循環(huán)。該工具的客戶端具備重試邏輯與恢復(fù)處理機制，能夠降低單一步驟失敗對整個復(fù)雜操作的影響，可自動重試或調(diào)整配置直至操作成功。CheckPoint研究顯示，已有黑客討論如何在零日漏洞公開后數(shù)小時內(nèi)借助HexStrike-AI實施利用。甚至有攻擊者聲稱已利用該工具，通過CVE-2025-7775漏洞實現(xiàn)未授權(quán)遠程代碼執(zhí)行，并在受感染設(shè)備上植入Webshell。研究人員認為，攻擊者可能使用HexStrike-AI掃描易受攻擊實例、設(shè)計漏洞利用鏈、投送惡意程序并確保持久化駐留。該公司警告，HexStrike-AI的自動化能力可將“漏洞披露到利用”的時間從數(shù)天縮短至幾分鐘，極大壓縮了防御方的應(yīng)急響應(yīng)與修復(fù)窗口。

紐約大學(xué)團隊研發(fā)出首款由人工智能驅(qū)動

的勒索軟件PromptLock

9月，美國紐約大學(xué)研究人員確認，此前被網(wǎng)絡(luò)安全公司ESET認定為“首款由人工智能驅(qū)動的勒索軟件”的PromptLock（又稱Ransomware 3.0）實為其學(xué)術(shù)研究項目。PromptLock會利用大型語言模型（LLM）動態(tài)生成多態(tài)代碼，并通過自然語言提示實現(xiàn)自主偵察、數(shù)據(jù)竊取和個性化勒索，整個攻擊過程無需人工干預(yù)。測試結(jié)果表明，該原型僅使用開源軟件和商用硬件構(gòu)建，卻能繞過所有主流殺毒軟件檢測。紐約大學(xué)稱，此項研究由美國能源部（DoE）及國家科學(xué)基金會（NSF）資助，旨在揭示人工智能賦能網(wǎng)絡(luò)攻擊的潛在威脅。雖然PromptLock為學(xué)術(shù)研究成果，但該技術(shù)確實凸顯出在人工智能時代,基于特征檢測的傳統(tǒng)防御手段正面臨失效風險。

美國谷歌公司推出漏洞查找與修復(fù)

人工智能體CodeMender

10月，美國谷歌公司旗下的DeepMind部門推出人工智能體CodeMender，以用于自動檢測、修補和重寫易受攻擊的代碼。CodeMender以谷歌公司的Gemini Deep Think模型為底座，并結(jié)合靜態(tài)和動態(tài)分析、模糊測試以及符號求解器來推斷程序的行為。當CodeMender識別出缺陷時，會生成候選補丁，并運行自動化檢查（包括對比原始代碼和修改后的代碼），以確保這些補丁既能從根本上解決問題，又不會破壞現(xiàn)有功能或引入回歸問題，然后將經(jīng)過驗證的候選補丁提交人工審核。在6個月內(nèi)，CodeMender已經(jīng)為開源項目貢獻了72份經(jīng)過驗證的補丁，所涉及的最大代碼庫擁有超四百萬行代碼。

美國OpenAI公司推出網(wǎng)絡(luò)安全人工智能體

Aardvark

10月，美國OpenAI公司推出基于大型語言模型（LLM）GPT-5的人工智能體Aardvark，以供自動查找和修復(fù)漏洞。Aardvark目前為僅供受邀人員測試的Beta版，其能持續(xù)掃描源代碼庫，查找已知漏洞和錯誤，評估其潛在嚴重程度并確定優(yōu)先級，然后進行修復(fù)。Aardvark并不依賴于模糊測試或軟件成分分析等傳統(tǒng)程序分析技術(shù)，而是利用LLM進行推理和使用工具，從而像人類那樣閱讀代碼、分析代碼、編寫和運行測試程序、使用工具等等，進而在此基礎(chǔ)上理解代碼行為并識別漏洞。Aardvark還可以根據(jù)存儲庫的內(nèi)容和項目安全目標及設(shè)計，開發(fā)威脅模型，對漏洞進行沙箱測試以確定其可利用性，標注問題代碼并提交建議安裝的補丁，以供人工審查。除查找安全漏洞外，Aardvark還展現(xiàn)出識別代碼庫中邏輯和隱私漏洞的潛力，并從測試代碼庫中識別出了92%的已知漏洞和人為引入的漏洞。OpenAI公司表示，Aardvark已識別出10個漏洞，這些漏洞已被列入通用漏洞披露（CVE）清單。

美國Anthropic公司首次發(fā)現(xiàn)利用

人工智能策劃的網(wǎng)絡(luò)間諜行動

11月，美國Anthropic公司發(fā)布報告指出，其首次發(fā)現(xiàn)并挫敗了一起利用其人工智能工具Claude竊取數(shù)據(jù)的大規(guī)模網(wǎng)絡(luò)間諜活動。此輪活動至少涉及醫(yī)療保健機構(gòu)、緊急服務(wù)部門、政府機構(gòu)和宗教機構(gòu)等30余家組織，攻擊者將安裝在Kali Linux操作系統(tǒng)上的人工智能編碼工具Claude Code作為攻擊平臺，并把操作指令嵌入到CLAUDE.md文件中，以便為每次交互提供持久的上下文。攻擊者利用Claude和Claude Code自動處理了80%到90%的操作流程，包括網(wǎng)絡(luò)掃描、生成漏洞利用代碼、爬取內(nèi)部系統(tǒng)以及打包竊取的數(shù)據(jù)等，人類操作員僅從宏觀層面進行監(jiān)督。攻擊者將提示語偽裝成滲透測試任務(wù)，并將惡意指令拆分成看似無害的子任務(wù)，從而繞過了Claude的安全防護措施。攻擊者還利用Claude Code生成了專門的Chisel隧道實用程序，以繞過檢測，并將惡意可執(zhí)行文件偽裝成合法的Microsoft工具。Anthropic公司強調(diào)，盡管此次事件反映出人工智能工具可大幅提高攻擊效率，但受限于人工智能幻覺等因素，目前還難以實現(xiàn)完全自主的網(wǎng)絡(luò)攻擊。

美國微軟公司發(fā)現(xiàn)針對大型語言模型的

側(cè)信道攻擊方法Whisper Leak

11月，美國微軟公司發(fā)現(xiàn)一種針對大型語言模型（LLM）的新型側(cè)信道攻擊方法Whisper Leak，攻擊者可通過該方法從采用“傳輸層安全”（TLS）協(xié)議加密的LLM中提取關(guān)于敏感主題的特定信息。微軟公司表示，該方法使用了機器學(xué)習來分析加密數(shù)據(jù)包大小和到達時間的模式，從而對用戶提示語的特定主題進行分類。該方法的特點在于將流文件的流量視為提示語主題的指紋，這意味著即使詞元已分組且通道為HTTPS，也能通過加密數(shù)據(jù)包大小和到達間隔時間的序列，來判斷對話是否屬于選定的主題。Whisper Leak雖無法直接獲取人工智能中的內(nèi)容，但卻能判斷出用戶是否在討論特定敏感話題，進而幫助攻擊者確定目標或決定是否實施監(jiān)控。

美國國務(wù)院向Darktrace公司采購基于

人工智能的網(wǎng)絡(luò)防御系統(tǒng)

12月，美國國務(wù)院與Darktrace Federal公司和Navitas Business Consulting公司簽訂一份價值480萬美元的固定價格合同，以便在下屬機構(gòu)外交安全局（BDS）的全球信息技術(shù)（IT）環(huán)境中部署由人工智能驅(qū)動的網(wǎng)絡(luò)檢測系統(tǒng)響應(yīng)（NDR）系統(tǒng)“網(wǎng)絡(luò)人工智能任務(wù)防御”（CAMD），從而保護分散在170多國的美國外交人員、設(shè)施和信息。CAMD系統(tǒng)由Darktrace公司的自我學(xué)習型人工智能驅(qū)動，能夠分析用戶、設(shè)備和系統(tǒng)的網(wǎng)絡(luò)行為，實現(xiàn)自動化威脅檢測和響應(yīng)功能，從而識別出零日漏洞、內(nèi)部人員活動和供應(yīng)鏈漏洞等一系列網(wǎng)絡(luò)風險。CAMD系統(tǒng)同時支持信息技術(shù)環(huán)境和運營技術(shù)環(huán)境，從而提高BDS數(shù)字運營的可見性。Navitas公司則將利用其云和網(wǎng)絡(luò)安全工程框架為CAMD系統(tǒng)提供支持。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手機 / 數(shù)碼

房產(chǎn) / 家居

2025全球人工智能安全重大事件盤點