2025年,是人工智能安全攻防從理論加速走向現(xiàn)實的重要一年。從國家級的戰(zhàn)略布局到黑客手中的自動化武器,從學(xué)術(shù)研究中的風險預(yù)警到科技巨頭的實戰(zhàn)化防御系統(tǒng),一場靜默而激烈的“智能對抗”已全面展開。攻擊者開始利用大語言模型的推理能力,設(shè)計出更精巧、更隱蔽的攻擊突破策略;而防御者則試圖賦予AI更強大的自主洞察力,讓機器不僅能發(fā)現(xiàn)漏洞,更能理解、修復(fù)甚至預(yù)測威脅。
這不再僅僅是“黑客與白帽”的傳統(tǒng)較量,而是進入了“AI對陣AI”的新維度。無論是美國國防高級研究計劃局(DARPA)連續(xù)啟動的專項研究,還是像Bad Likert Judge、代碼包幻覺這類新型攻擊技術(shù)的浮現(xiàn),亦或是OpenAI、谷歌、微軟等巨頭推出的自主安全人工智能體,都清晰指向同一個趨勢:網(wǎng)絡(luò)安全的核心,正在從“人腦對抗”轉(zhuǎn)向“智能體對抗”。
攻擊在變得自動化、平民化、智能化。一個勒索軟件可以借由人工智能動態(tài)生成代碼,繞過傳統(tǒng)檢測;一個紅隊工具可能被惡意利用,將漏洞利用時間從幾天壓縮到幾分鐘;甚至,大型語言模型已能在無人干預(yù)下,自主復(fù)現(xiàn)復(fù)雜的網(wǎng)絡(luò)入侵。這意味著,威脅的降維打擊可能來自更隱蔽的角落,防御的窗口期被急劇壓縮。
與此同時,人工智能驅(qū)動的防御也在創(chuàng)造新的可能。人工智能不僅能以遠超人類的速度分析數(shù)百萬行代碼、在海量數(shù)據(jù)中捕捉異常,更開始展現(xiàn)“創(chuàng)造性修復(fù)”的能力——理解漏洞根源、生成有效補丁、驗證方案安全。從保護關(guān)鍵基礎(chǔ)設(shè)施的競賽,到守護外交網(wǎng)絡(luò)的前沿部署,人工智能正被賦予守護者的重任。
我們整理了過去一年全球人工智能安全領(lǐng)域的17個關(guān)鍵事件。它們像一塊塊拼圖,共同勾勒出這場時代性攻防戰(zhàn)的輪廓:既有令人警覺的風險與漏洞,也有值得期待的技術(shù)突破與戰(zhàn)略布局。
以下,讓我們一起回顧全球人工智能安全領(lǐng)域這風起云涌的2025年。
01
研究發(fā)現(xiàn)新的人工智能高效越獄方法
Bad Likert Judge
![]()
1月,美國Palo Alto Networks公司發(fā)現(xiàn)新的大型語言模型(LLM)多輪攻擊策略Bad Likert Judge。該策略要求LLM充當評判員,使用李克特量表對給定反應(yīng)的危害性進行評分。之后該策略會要求LLM生成與量表各等級相對應(yīng)的示例,其中等級最高的示例或可包含有害內(nèi)容。亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)、谷歌、Meta、微軟、OpenAI和英偉達6家公司的LLM的測試結(jié)果表明,Bad Likert Judge策略的攻擊成功率(ASR)比普通的“提示語注入”攻擊高出60%以上。此外,在使用內(nèi)容過濾器后,該策略對所有LLM的ASR平均降低了89.2%,這表明實施全面的內(nèi)容過濾能有效抵御“提示語注入”攻擊。
02
美國DARPA啟動人工智能網(wǎng)絡(luò)脆弱性
評估項目
![]()
2月,美國國防高級研究計劃局(DARPA)通過發(fā)布DARPA-SN-25-39通告,宣布即將啟動“確保人工智能戰(zhàn)場有效穩(wěn)健性”(SABER)項目。DARPA稱,目前尚無已知的生態(tài)系統(tǒng)可以對已部署的軍事人工智能系統(tǒng)進行網(wǎng)絡(luò)攻擊脆弱性評估。因此,理論上的對抗性人工智能攻擊尚未在實際操作環(huán)境中得到實際驗證。為應(yīng)對這一問題,SABER項目將尋求反人工智能技術(shù)、工具和技術(shù)能力,以評估軍事人工智能程序面臨敵人網(wǎng)絡(luò)攻擊的脆弱性。目前,DARPA尚未發(fā)布正式的SABER招標書。未來,該項目計劃通過承包商支持,開展對現(xiàn)有最先進的物理攻擊、對抗人工智能、網(wǎng)絡(luò)安全及電子戰(zhàn)等技術(shù)進行調(diào)研、評估、篩選、開發(fā)與集成,以構(gòu)建針對人工智能系統(tǒng)的網(wǎng)絡(luò)漏洞評估能力。
03
美國Leidos公司簽定DARPA
“安全工具智能生成”項目合同
![]()
3月,美國國防高級研究計劃局(DARPA)授予Leidos公司一份價值880萬美元的“安全工具智能生成”(INGOTS)項目合同,該項目在利用人工智能與程序分析技術(shù)來加速漏洞判定與修復(fù),從而保護移動操作系統(tǒng)和應(yīng)用程序。Leidos將采用機器學(xué)習分析攻擊鏈的嚴重性與持續(xù)性,利用大語言模型從網(wǎng)絡(luò)安全威脅數(shù)據(jù)庫中提煉威脅情報,并借助其在可信任務(wù)人工智能(Trusted Mission AI)領(lǐng)域的專業(yè)知識分析修補后的系統(tǒng),以評估其穩(wěn)健性。
04
研究發(fā)現(xiàn)新的大型語言模型安全漏洞
“代碼包幻覺”
![]()
4月,美國德克薩斯大學(xué)圣安東尼奧分校、俄克拉荷馬大學(xué)和弗吉尼亞理工大學(xué)的研究人員聯(lián)合發(fā)現(xiàn),大型語言模型(LLM)存在一種名為“代碼包幻覺”的新型安全漏洞。該漏洞指LLM在生成代碼時,有時會引用實際不存在的軟件包(即“幻覺包”),攻擊者可能通過創(chuàng)建同名惡意軟件包,對LLM生成的代碼實施投毒攻擊。研究團隊測試了包括ChatGPT、CodeLlama和DeepSeek在內(nèi)的16款主流LLM。結(jié)果顯示:商用LLM生成的幻覺包平均占比不低于5.2%,而開源LLM的平均占比不低于21.7%。通過采用檢索增強生成和監(jiān)督微調(diào)等方法,研究人員成功將“幻覺包”比例降低了85%。目前,代碼生成中的此類幻覺現(xiàn)象及其對代碼安全的影響,仍處于早期研究階段。
05
美國特朗普政府發(fā)布新版網(wǎng)絡(luò)安全
行政命令
![]()
6月,美國白宮發(fā)布題為《繼續(xù)開展特定工作以加強國家網(wǎng)絡(luò)安全并修訂第13694號和第14144號行政命令》的最新版網(wǎng)絡(luò)安全行政命令。該命令的要點包括:指示聯(lián)邦政府推進安全軟件開發(fā);指示聯(lián)邦政府加強邊界網(wǎng)關(guān)安全;指示聯(lián)邦政府轉(zhuǎn)向可抵御量子計算機攻擊的密碼算法;將人工智能網(wǎng)絡(luò)安全領(lǐng)域的工作重點從審查調(diào)整為識別和管理漏洞;啟動旨在實現(xiàn)“規(guī)則即代碼”的試點項目,以便把各部門的網(wǎng)絡(luò)安全政策和指導(dǎo)轉(zhuǎn)化為機器可讀的版本;要求物聯(lián)網(wǎng)產(chǎn)品供應(yīng)商采用“美國網(wǎng)絡(luò)信任標志”標簽;取消了強制為外國人頒發(fā)數(shù)字身份證等“不當網(wǎng)絡(luò)安全措施”。
06
美國國會提出《禁止對手人工智能法》草案
![]()
6月,美國國會參眾兩院分別提出《禁止對手人工智能法》草案,旨在應(yīng)對并限制由所謂“外國對手”控制的人工智能系統(tǒng)對美國國家安全構(gòu)成的潛在影響。該草案主要提出以下3項要求:由聯(lián)邦采購安全委員會制定一份關(guān)于由外國對手生產(chǎn)或開發(fā)的人工智能系統(tǒng)的清單,并由管理與預(yù)算局每180天更新一次;原則上禁止聯(lián)邦機構(gòu)使用被列入該清單的人工智能系統(tǒng);允許聯(lián)邦機構(gòu)出于研究、培訓(xùn)、反恐等特定目的使用清單內(nèi)系統(tǒng),但須書面通知管理與預(yù)算局及相關(guān)國會委員會。法案還明確了“外國對手”的定義,并指出其通常包括俄羅斯、伊朗、朝鮮等國。
07
美國谷歌公司稱利用人工智能工具
Big Sleep發(fā)現(xiàn)黑客即將利用的漏洞
![]()
7月,美國谷歌公司宣布其人工智能體Big Sleep成功發(fā)現(xiàn)并隔離了一個黑客組織計劃利用的零日漏洞。這是首次由人工智能直接阻止零日漏洞利用企圖。Big Sleep源于谷歌Project Zero項目與其子公司DeepMind的大型語言模型輔助漏洞研究,能夠主動搜尋軟件中未知的安全漏洞。此次發(fā)現(xiàn)的漏洞位于開源數(shù)據(jù)庫引擎SQLite中(編號CVE-2025-6965)。谷歌威脅情報小組監(jiān)測到黑客組織可能利用某零日漏洞發(fā)動攻擊,但無法確定具體目標,隨后將有限威脅指標提供給Project Zero團隊。該團隊利用Big Sleep成功定位并隔離了相關(guān)漏洞。谷歌未透露本次分析所依據(jù)的具體威脅指標及涉及的黑客組織信息。
08
研究證明人工智能可自主規(guī)劃和執(zhí)行
網(wǎng)絡(luò)攻擊
![]()
8月,卡內(nèi)基梅隆大學(xué)和Anthropic公司的一項聯(lián)合研究顯示,研究人員利用大型語言模型(LLM)成功復(fù)現(xiàn)了2017年的Equifax數(shù)據(jù)泄露事件,證明LLM能夠在無需人工干預(yù)的情況下自主規(guī)劃并執(zhí)行針對企業(yè)級網(wǎng)絡(luò)環(huán)境的復(fù)雜網(wǎng)絡(luò)攻擊。研究團隊開發(fā)了一套分層架構(gòu):其中LLM充當“戰(zhàn)略家”,負責規(guī)劃攻擊并下達高級指令;另一組由LLM與非LLM智能體組成的AI工具則負責執(zhí)行掃描網(wǎng)絡(luò)、部署漏洞利用程序等低級任務(wù)。研究團隊指出,該成果表明LLM可能被惡意濫用,但也意味著資源有限的小型組織同樣能借助AI測試自身網(wǎng)絡(luò)漏洞。目前,研究團隊也正探索如何在類似架構(gòu)中實現(xiàn)自主AI防御,即利用基于LLM的智能體實時檢測與應(yīng)對攻擊。
09
美國微軟公司推出基于人工智能的惡意
軟件分析系統(tǒng)Project Ire
![]()
8月,美國微軟公司推出了基于大型語言模型(LLM)的自主惡意軟件分類系統(tǒng)Project Ire。該系統(tǒng)能夠在沒有文件來源信息或使用場景線索的情況下,借助反編譯器及其他工具對各類軟件進行逆向工程分析,以判斷其是否具有惡意性。Project Ire可執(zhí)行從低級到高級的一系列分析,包括二進制分析、控制流重構(gòu)和代碼行為解釋等。他通過應(yīng)用程序編程接口(API)調(diào)用多種逆向工程工具,包括基于Project Freta的微軟內(nèi)存分析沙箱、自定義工具、開源工具、文檔搜索工具以及各類反編譯器。該系統(tǒng)主要功能包括:自動使用逆向工程工具識別文件類型、文件結(jié)構(gòu)及關(guān)鍵關(guān)注區(qū)域;利用angr和Ghidra等框架重建軟件控制流圖;通過API調(diào)用專用工具識別并總結(jié)關(guān)鍵功能;調(diào)用驗證工具檢驗分析結(jié)果,最終對目標軟件進行分類并生成詳細報告,說明分析依據(jù),以幫助安全團隊修正潛在錯誤。在公開的Windows驅(qū)動程序數(shù)據(jù)集測試中,Project Ire能夠正確識別90%的文件,誤報率僅為4%。
10
美國DARPA和ARPA-H聯(lián)合舉辦的“人工智能
網(wǎng)絡(luò)挑戰(zhàn)賽”落幕
![]()
8月,由美國國防高級研究計劃局(DARPA)與衛(wèi)生高級研究計劃局(ARPA-H)聯(lián)合舉辦的“人工智能網(wǎng)絡(luò)挑戰(zhàn)賽”(AIxCC)順利結(jié)束。來自佐治亞理工學(xué)院、三星研究院、韓國科學(xué)技術(shù)院及浦項科技大學(xué)的專家組成的“亞特蘭大”隊獲得冠軍。該競賽為期兩年,旨在評估參賽團隊所構(gòu)建的、用于自動識別和修補關(guān)鍵基礎(chǔ)設(shè)施系統(tǒng)中開源代碼漏洞的人工智能模型。評分維度包括漏洞發(fā)現(xiàn)與驗證、補丁生成、漏洞與補丁匹配、提交準確率及補丁質(zhì)量等,重點考察快速生成補丁與分析漏洞報告的能力。比賽期間,各參賽系統(tǒng)累計分析了5400萬行代碼,共發(fā)現(xiàn)54個故意植入的漏洞,并成功修復(fù)其中43個;同時識別出18個此前未知的真實漏洞(6個位于C代碼庫,12個位于Java代碼庫),并為其中11個漏洞生成了補丁,平均每個補丁僅需45分鐘。進入決賽的7支隊伍中,已有4個模型投入實際應(yīng)用,其余3個預(yù)計將在數(shù)周內(nèi)部署使用。
11
研究發(fā)現(xiàn)黑客組織利用人工智能紅隊工具
HexStrike-AI加快漏洞利用速度
![]()
9月,網(wǎng)絡(luò)安全公司CheckPoint Research發(fā)現(xiàn),黑客正越來越多地利用基于人工智能的合法紅隊工具HexStrike-AI來加速漏洞利用。HexStrike-AI于2025年8月發(fā)布,可通過模型上下文協(xié)議(MCP)以“人在回路”方式與外部大型語言模型(LLM)交互,形成“詢問、分析、執(zhí)行、反饋”的持續(xù)循環(huán)。該工具的客戶端具備重試邏輯與恢復(fù)處理機制,能夠降低單一步驟失敗對整個復(fù)雜操作的影響,可自動重試或調(diào)整配置直至操作成功。CheckPoint研究顯示,已有黑客討論如何在零日漏洞公開后數(shù)小時內(nèi)借助HexStrike-AI實施利用。甚至有攻擊者聲稱已利用該工具,通過CVE-2025-7775漏洞實現(xiàn)未授權(quán)遠程代碼執(zhí)行,并在受感染設(shè)備上植入Webshell。研究人員認為,攻擊者可能使用HexStrike-AI掃描易受攻擊實例、設(shè)計漏洞利用鏈、投送惡意程序并確保持久化駐留。該公司警告,HexStrike-AI的自動化能力可將“漏洞披露到利用”的時間從數(shù)天縮短至幾分鐘,極大壓縮了防御方的應(yīng)急響應(yīng)與修復(fù)窗口。
12
紐約大學(xué)團隊研發(fā)出首款由人工智能驅(qū)動
的勒索軟件PromptLock
![]()
9月,美國紐約大學(xué)研究人員確認,此前被網(wǎng)絡(luò)安全公司ESET認定為“首款由人工智能驅(qū)動的勒索軟件”的PromptLock(又稱Ransomware 3.0)實為其學(xué)術(shù)研究項目。PromptLock會利用大型語言模型(LLM)動態(tài)生成多態(tài)代碼,并通過自然語言提示實現(xiàn)自主偵察、數(shù)據(jù)竊取和個性化勒索,整個攻擊過程無需人工干預(yù)。測試結(jié)果表明,該原型僅使用開源軟件和商用硬件構(gòu)建,卻能繞過所有主流殺毒軟件檢測。紐約大學(xué)稱,此項研究由美國能源部(DoE)及國家科學(xué)基金會(NSF)資助,旨在揭示人工智能賦能網(wǎng)絡(luò)攻擊的潛在威脅。雖然PromptLock為學(xué)術(shù)研究成果,但該技術(shù)確實凸顯出在人工智能時代,基于特征檢測的傳統(tǒng)防御手段正面臨失效風險。
13
美國谷歌公司推出漏洞查找與修復(fù)
人工智能體CodeMender
![]()
10月,美國谷歌公司旗下的DeepMind部門推出人工智能體CodeMender,以用于自動檢測、修補和重寫易受攻擊的代碼。CodeMender以谷歌公司的Gemini Deep Think模型為底座,并結(jié)合靜態(tài)和動態(tài)分析、模糊測試以及符號求解器來推斷程序的行為。當CodeMender識別出缺陷時,會生成候選補丁,并運行自動化檢查(包括對比原始代碼和修改后的代碼),以確保這些補丁既能從根本上解決問題,又不會破壞現(xiàn)有功能或引入回歸問題,然后將經(jīng)過驗證的候選補丁提交人工審核。在6個月內(nèi),CodeMender已經(jīng)為開源項目貢獻了72份經(jīng)過驗證的補丁,所涉及的最大代碼庫擁有超四百萬行代碼。
14
美國OpenAI公司推出網(wǎng)絡(luò)安全人工智能體
Aardvark
![]()
10月,美國OpenAI公司推出基于大型語言模型(LLM)GPT-5的人工智能體Aardvark,以供自動查找和修復(fù)漏洞。Aardvark目前為僅供受邀人員測試的Beta版,其能持續(xù)掃描源代碼庫,查找已知漏洞和錯誤,評估其潛在嚴重程度并確定優(yōu)先級,然后進行修復(fù)。Aardvark并不依賴于模糊測試或軟件成分分析等傳統(tǒng)程序分析技術(shù),而是利用LLM進行推理和使用工具,從而像人類那樣閱讀代碼、分析代碼、編寫和運行測試程序、使用工具等等,進而在此基礎(chǔ)上理解代碼行為并識別漏洞。Aardvark還可以根據(jù)存儲庫的內(nèi)容和項目安全目標及設(shè)計,開發(fā)威脅模型,對漏洞進行沙箱測試以確定其可利用性,標注問題代碼并提交建議安裝的補丁,以供人工審查。除查找安全漏洞外,Aardvark還展現(xiàn)出識別代碼庫中邏輯和隱私漏洞的潛力,并從測試代碼庫中識別出了92%的已知漏洞和人為引入的漏洞。OpenAI公司表示,Aardvark已識別出10個漏洞,這些漏洞已被列入通用漏洞披露(CVE)清單。
15
美國Anthropic公司首次發(fā)現(xiàn)利用
人工智能策劃的網(wǎng)絡(luò)間諜行動
![]()
11月,美國Anthropic公司發(fā)布報告指出,其首次發(fā)現(xiàn)并挫敗了一起利用其人工智能工具Claude竊取數(shù)據(jù)的大規(guī)模網(wǎng)絡(luò)間諜活動。此輪活動至少涉及醫(yī)療保健機構(gòu)、緊急服務(wù)部門、政府機構(gòu)和宗教機構(gòu)等30余家組織,攻擊者將安裝在Kali Linux操作系統(tǒng)上的人工智能編碼工具Claude Code作為攻擊平臺,并把操作指令嵌入到CLAUDE.md文件中,以便為每次交互提供持久的上下文。攻擊者利用Claude和Claude Code自動處理了80%到90%的操作流程,包括網(wǎng)絡(luò)掃描、生成漏洞利用代碼、爬取內(nèi)部系統(tǒng)以及打包竊取的數(shù)據(jù)等,人類操作員僅從宏觀層面進行監(jiān)督。攻擊者將提示語偽裝成滲透測試任務(wù),并將惡意指令拆分成看似無害的子任務(wù),從而繞過了Claude的安全防護措施。攻擊者還利用Claude Code生成了專門的Chisel隧道實用程序,以繞過檢測,并將惡意可執(zhí)行文件偽裝成合法的Microsoft工具。Anthropic公司強調(diào),盡管此次事件反映出人工智能工具可大幅提高攻擊效率,但受限于人工智能幻覺等因素,目前還難以實現(xiàn)完全自主的網(wǎng)絡(luò)攻擊。
16
美國微軟公司發(fā)現(xiàn)針對大型語言模型的
側(cè)信道攻擊方法Whisper Leak
![]()
11月,美國微軟公司發(fā)現(xiàn)一種針對大型語言模型(LLM)的新型側(cè)信道攻擊方法Whisper Leak,攻擊者可通過該方法從采用“傳輸層安全”(TLS)協(xié)議加密的LLM中提取關(guān)于敏感主題的特定信息。微軟公司表示,該方法使用了機器學(xué)習來分析加密數(shù)據(jù)包大小和到達時間的模式,從而對用戶提示語的特定主題進行分類。該方法的特點在于將流文件的流量視為提示語主題的指紋,這意味著即使詞元已分組且通道為HTTPS,也能通過加密數(shù)據(jù)包大小和到達間隔時間的序列,來判斷對話是否屬于選定的主題。Whisper Leak雖無法直接獲取人工智能中的內(nèi)容,但卻能判斷出用戶是否在討論特定敏感話題,進而幫助攻擊者確定目標或決定是否實施監(jiān)控。
17
美國國務(wù)院向Darktrace公司采購基于
人工智能的網(wǎng)絡(luò)防御系統(tǒng)
![]()
12月,美國國務(wù)院與Darktrace Federal公司和Navitas Business Consulting公司簽訂一份價值480萬美元的固定價格合同,以便在下屬機構(gòu)外交安全局(BDS)的全球信息技術(shù)(IT)環(huán)境中部署由人工智能驅(qū)動的網(wǎng)絡(luò)檢測系統(tǒng)響應(yīng)(NDR)系統(tǒng)“網(wǎng)絡(luò)人工智能任務(wù)防御”(CAMD),從而保護分散在170多國的美國外交人員、設(shè)施和信息。CAMD系統(tǒng)由Darktrace公司的自我學(xué)習型人工智能驅(qū)動,能夠分析用戶、設(shè)備和系統(tǒng)的網(wǎng)絡(luò)行為,實現(xiàn)自動化威脅檢測和響應(yīng)功能,從而識別出零日漏洞、內(nèi)部人員活動和供應(yīng)鏈漏洞等一系列網(wǎng)絡(luò)風險。CAMD系統(tǒng)同時支持信息技術(shù)環(huán)境和運營技術(shù)環(huán)境,從而提高BDS數(shù)字運營的可見性。Navitas公司則將利用其云和網(wǎng)絡(luò)安全工程框架為CAMD系統(tǒng)提供支持。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.