網易首頁 > 網易號 > 正文申請入駐

史蒂文斯理工學院等聯手打造:工業級加密匯編代碼驗證基準測試集

2026-03-31 16:35:30　來源: 科技行者

天津舉報

分享至

這項來自史蒂文斯理工學院和亞馬遜云服務的突破性研究發表于2026年的AIPV工作坊會議，論文編號為arXiv:2603.14628v1。有興趣深入了解的讀者可以通過該論文編號查詢完整論文。

想象你正在考試，面前有兩套截然不同的試卷。一套是奧數競賽題，雖然難度很高，但題目都很"干凈"，有標準答案。另一套則是檢驗你能否修理一臺真正的汽車發動機。雖然后者可能看起來沒那么"高雅"，但它直接關系到現實世界中的實際問題。當前大語言模型在定理證明領域就面臨著這樣的困境。

近年來，人工智能在數學定理證明方面取得了令人矚目的成果。這些智能系統能夠解決復雜的奧林匹克數學競賽題目，甚至在某些著名的數學挑戰中表現出色。然而，這種在"象牙塔"中的成功并不意味著它們能夠處理真實世界中的工程問題。就像一個擅長解數學題的學生未必能修好汽車一樣，在競賽數學上表現優異的AI系統也未必能驗證真實軟件代碼的正確性。

這個問題的核心在于，現有的大多數測試基準都專注于抽象的數學證明，而忽略了一個關鍵領域：如何證明真實世界中運行的底層代碼確實按照預期工作。特別是在密碼學這樣對安全性要求極高的領域，任何一個微小的錯誤都可能導致嚴重的安全漏洞。

為了填補這個空白，研究團隊創建了一個名為"s2n-bignum-bench"的全新測試基準。這個基準就像是為AI系統量身定制的"實戰考試"，考驗它們能否為真實的工業級密碼學匯編代碼編寫正確的數學證明。

這項研究的獨特之處在于，它基于一個已經在亞馬遜云服務中實際部署使用的密碼學庫——s2n-bignum。這個庫包含了大量手工優化的大整數運算匯編程序，這些程序直接關系到云計算服務的安全性。更重要的是，這些程序的正確性已經通過HOL Light這一嚴格的數學證明系統得到了驗證，就像每個程序都有了一張"質量保證書"。

研究團隊面臨的挑戰是如何將這個復雜的工業級代碼庫轉化為可供AI系統學習和測試的標準化基準。他們需要確保每個測試問題都是獨立的，可重現的，同時還要防止作弊行為。這就像是將一個復雜的工廠生產線拆解成一個個可以獨立檢驗的工作站，每個工作站都有明確的輸入、輸出和質量標準。

一、從數學競賽到工業驗證的跨越

傳統的AI數學能力測試就像學校里的標準化考試，題目雖然有挑戰性，但都遵循著相對固定的模式。比如著名的MiniF2F基準包含了488道奧林匹克級別的數學題目，而PutnamBench則收錄了來自普特南數學競賽的1724個問題。這些測試確實能夠衡量AI系統的抽象推理能力，但它們與現實世界的軟件驗證需求之間存在著巨大鴻溝。

現實中的軟件驗證更像是診斷一臺復雜機器的故障。你需要理解機器的每個零件如何工作，零件之間如何相互作用，以及整個系統在各種條件下的行為表現。對于密碼學匯編代碼來說，這意味著AI系統必須理解計算機的底層架構，包括寄存器如何存儲數據，內存如何訪問，以及每條指令如何精確地改變系統狀態。

以一個簡單的例子來說明這種差異：在傳統數學測試中，證明"x乘以(y加z)等于x乘以y加x乘以z"是一個純粹的代數操作。但在真實的匯編代碼驗證中，你需要證明一系列具體的機器指令確實實現了這個數學關系，同時還要考慮整數溢出、內存對齊、指令順序等各種底層細節。

正是基于這種認識，研究團隊決定創建一個專門針對工業級低級代碼驗證的基準測試。他們選擇了HOL Light作為證明系統，這是一個以嚴格性著稱的定理證明器，被廣泛應用于關鍵系統的形式化驗證。更重要的是，他們選擇了一個真正在生產環境中使用的代碼庫作為測試來源，確保測試的實用性和現實意義。

二、s2n-bignum：真實世界的密碼學代碼庫

s2n-bignum就像是密碼學世界的"瑞士軍刀"，它是亞馬遜云服務專門開發的一個高性能大整數運算庫。在現代密碼學中，大整數運算就像是建筑的地基，幾乎所有的加密算法都依賴于對超大數字的精確計算。這些數字往往有幾百甚至上千位，遠遠超出了普通計算器能處理的范圍。

為什么需要如此復雜的計算呢？這就要從密碼學的基本原理說起?，F代加密技術的安全性建立在某些數學問題的困難性上，比如分解大質數或者計算離散對數。這些問題對于計算機來說極其困難，但密碼學算法本身卻需要高效地進行相關運算。這就像是需要在一個迷宮中快速找到出路，但同時要確保其他人很難跟蹤你的路徑。

s2n-bignum庫的特殊之處在于，它的每個函數都有兩個版本：一個是用匯編語言編寫的高性能實現，另一個是用數學語言描述的規范說明。匯編版本就像是一份詳細的操作手冊，告訴計算機應該執行哪些具體步驟，而數學規范則像是一份設計藍圖，描述了這個函數應該實現什么功能。

形式化驗證的過程就是要證明這兩個版本是完全等價的。這個過程極其復雜，因為需要考慮計算機架構的每一個細節。比如，當兩個大數相乘時，結果可能會超出單個寄存器能存儲的范圍，這時就需要使用多個寄存器來存儲結果，并正確處理各部分之間的進位。匯編代碼必須精確地實現這個過程，不能有任何偏差。

更復雜的是，現代密碼學算法還需要考慮側信道攻擊的防護。簡單來說，就是要確保程序的執行時間和內存訪問模式不會泄露任何關于私鑰的信息。這就像是在黑暗中完成一項精密操作，不能發出任何聲音或光線來暴露你的行為。s2n-bignum的許多函數都實現了常數時間算法，確保無論輸入數據是什么，程序的執行時間都完全相同。

三、基準測試的精心構建

將s2n-bignum轉化為標準化測試基準就像是將一座復雜的工廠改造成一個教學實驗室。原始的代碼庫包含了成千上萬行代碼和相應的證明，這些內容相互關聯，形成了一個復雜的知識網絡。研究團隊需要將這個網絡分解為獨立的測試單元，每個單元都能夠單獨進行評估。

這個過程的第一步是識別和提取所有的定理證明。在HOL Light中，每個證明都以"let THM = prove(goal, proof)"的形式存在，其中goal是要證明的數學命題，proof是證明過程。研究團隊開發了自動化工具來掃描整個代碼庫，找出所有這樣的證明，并為每個證明生成一個唯一的標識符。

標識符的設計很有講究，采用了"架構.文件名.定理名.序號"的格式。比如"arm.bignum_montsqr_p256.lemma1.0"就表示這是ARM架構下，bignum_montsqr_p256文件中的第一個引理的第0個實例。這樣的命名方式確保了每個問題都有一個穩定的身份標識，即使在基準測試的不同版本之間也能保持一致。

接下來的挑戰是如何為每個證明問題提供合適的上下文環境。每個證明都依賴于大量的先前定義、引理和定理。就像做菜需要準備所有的原料和調料一樣，要讓AI系統能夠進行證明，就必須為它提供所有必要的數學定義和已知結果。

研究團隊采用了一種巧妙的方法來解決這個問題。他們為每個問題創建了一個獨立的"setup.ml"文件，這個文件包含了進行該證明所需的所有前置知識，但將原始的證明過程替換為了一個占位符"CHEAT_TAC"。這樣，AI系統就能夠獲得進行證明所需的所有工具，但必須自己找出正確的證明步驟。

為了確保測試的公平性和防止作弊行為，研究團隊還設計了多重安全機制。系統會檢查提交的證明是否使用了被禁止的策略，比如CHEAT_TAC或new_axiom函數。這些函數就像是考試中的"作弊小抄"，能夠繞過正常的證明過程直接得到結果。系統還會監控證明過程中是否引入了新的公理，確保所有的推理都基于已建立的數學基礎。

四、測試問題的分類體系

經過仔細分析，研究團隊將2284個測試問題劃分為四個主要類別，每個類別都代表了密碼學匯編驗證中的不同挑戰。

第一類是位向量引理，包含311個問題。這類問題就像是數字電路設計中的基礎邏輯門驗證。在計算機中，所有的數據都以二進制位的形式存儲，而密碼學運算需要對這些位進行各種復雜的操作。比如，如何證明兩個位向量的邏輯與運算滿足某種數學性質，或者如何驗證位移操作不會丟失重要信息。這些看似簡單的操作在大規模并行處理時會變得異常復雜。

第二類是程序狀態引理，共552個問題。這類問題關注的是程序執行過程中系統狀態的變化。每當程序執行一條指令，計算機的寄存器和內存狀態都會發生改變。這類證明需要跟蹤這些狀態變化，確保它們符合預期的數學模型。就像是記錄一場復雜手術的每一個步驟，確保每個動作都不會對患者造成意外傷害。

第三類是功能正確性證明，這是整個基準測試的核心，包含859個問題。這些問題分為437個ARM架構問題和422個x86架構問題。功能正確性證明要求證明整個匯編函數確實實現了其數學規范所描述的功能。這就像是要證明一臺復雜機器確實能夠按照設計圖紙完成預定任務。

這類證明特別具有挑戰性，因為它需要將高級的數學概念與底層的機器操作聯系起來。比如，要證明一個模冪運算函數的正確性，就需要驗證數百條匯編指令的組合確實能夠計算出正確的數學結果，同時還要考慮各種邊界條件和異常情況。

第四類是通用引理，包含562個問題。這些是支持其他證明的輔助性結果，就像是工具箱中的各種工具。雖然它們本身可能不直接解決主要問題，但在構建復雜證明時卻是不可或缺的。這類引理涵蓋了數論、代數、邏輯等多個數學領域的基礎結果。

五、評估機制與防作弊系統

設計一個公平且嚴格的評估系統就像是設計一場重要的考試，需要考慮各種可能的作弊方式并加以防范。研究團隊為此開發了一套多層次的評估機制。

評估過程分為三個階段。首先是語法檢查階段，就像是檢查考生是否用正確的語言答題。系統會驗證提交的證明是否符合HOL Light的語法規則，能否正確編譯。任何包含語法錯誤或類型錯誤的提交都會在這一階段被拒絕，避免浪費后續的計算資源。

通過語法檢查的提交會進入證明執行階段。在這個階段，系統會實際運行提交的證明代碼，嘗試驗證其正確性。這個過程就像是讓學生的答案接受嚴格的邏輯檢驗。為了防止某些證明消耗過多時間，系統為每個問題設置了時間限制。這些時間限制是基于原始證明的實際運行時間精心調整的，既要給合理的解答留出足夠時間，又要避免無效的嘗試消耗大量資源。

最后是結果判定階段，系統會為每次提交給出明確的判定結果：成功、失敗、作弊、超時或錯誤。這種明確的分類幫助研究人員準確評估不同方法的性能表現。

為了防止各種形式的作弊行為，系統實施了嚴格的監控措施。除了檢查明顯的作弊函數外，系統還會監控證明過程中的公理使用情況。在數學證明中，公理就像是不證自明的基本假設。如果允許隨意添加新公理，那么任何命題都可以被"證明"，這就失去了證明的意義。

系統還防范一種被稱為"SQL注入"式的攻擊，即通過提交復雜的代碼片段來繞過正常的評估流程。為此，系統會解析每個提交的內容，確保它確實是一個有效的證明表達式，而不是其他類型的代碼。

六、初步測試結果與挑戰分析

為了驗證基準測試的有效性，研究團隊使用GPT-5.3-Codex進行了初步測試。結果顯示，即使是當前最先進的大語言模型，在這個基準測試上的表現也相當有限。在中等努力模式下，模型的成功率為4.4%，而在高努力模式下也僅達到5.3%。

這個結果并不令人意外，但卻很有啟發性。它清楚地表明了抽象數學推理能力與具體代碼驗證能力之間的差距。模型在不同類別的問題上表現差異很大：在通用引理上的成功率最高，達到10.5%到11.7%，這可能是因為這類問題更接近傳統的數學證明。而在功能正確性證明上，模型的表現幾乎為零，ARM和x86架構的問題都沒有得到任何正確解答。

這種差異反映了工業級代碼驗證的獨特挑戰。功能正確性證明需要深入理解計算機架構的細節，包括指令集、內存模型、數據表示等方面的知識。這些知識在傳統的數學訓練中很少涉及，因此即使是在抽象推理方面表現出色的模型，在面對這類問題時也會感到"力不從心"。

研究團隊還注意到，許多失敗的嘗試都因為語法錯誤而被排除在外。在中等努力模式下，只有743個提交通過了語法檢查，約占總數的32.5%。這表明，模型在理解HOL Light證明語言的語法方面還存在基礎性困難。

七、技術創新與質量保證

這個基準測試在技術實現上有幾個重要創新。首先是問題的模塊化設計，每個測試問題都被包裝成一個獨立的單元，包含所需的所有依賴關系。這就像是將復雜的化學實驗分解為一系列標準化的試管實驗，每個實驗都有明確的輸入輸出和操作步驟。

其次是靈活的超時機制。不同的證明問題有著完全不同的計算復雜度，從幾毫秒的簡單引理到數小時的復雜定理都有。研究團隊通過反復運行原始證明來測量其實際執行時間，然后為每個問題設置個性化的超時限制。這種方法既保證了復雜證明有足夠的執行時間，又避免了失敗嘗試的無謂等待。

第三是完整性檢查機制。系統不僅驗證證明的正確性，還檢查證明的合理性。比如，如果一個證明在幾毫秒內就完成了原本需要幾分鐘的復雜推理，那么很可能存在某種形式的作弊行為。

為了應對數據污染問題，研究團隊還實現了一種基于類型注釋混淆的防護機制。在機器學習中，數據污染指的是訓練數據中包含了測試問題的答案，導致模型性能被高估。通過改變問題的表述方式而不改變其數學含義，這種機制能夠降低模型直接記憶答案的可能性。

八、實際應用前景與未來發展

s2n-bignum-bench的意義遠遠超出了學術研究的范疇。隨著軟件系統變得越來越復雜，自動化驗證工具的需求也在快速增長。特別是在安全關鍵的應用領域，如航空航天、金融系統、醫療設備等，軟件錯誤可能帶來災難性后果。

當前的軟件驗證主要依賴人工專家，這不僅成本高昂，而且容易出錯。如果AI系統能夠在這個基準測試上取得突破，就意味著它們有可能承擔起實際的軟件驗證工作。這將極大降低高質量軟件的開發成本，提高軟件系統的可靠性。

特別是在密碼學領域，正確性驗證具有特殊的重要性。任何微小的實現錯誤都可能被攻擊者利用，導致整個加密系統的破解。當前，只有少數幾個密碼學庫接受了完整的形式化驗證，主要原因就是驗證成本過高。如果AI能夠自動化這個過程，就能夠讓更多的密碼學實現獲得數學級別的安全保證。

研究團隊也指出了未來可能的擴展方向。當前的基準測試主要關注功能正確性，但現代密碼學還需要考慮其他重要性質，比如常數時間執行、側信道安全性等。這些性質的驗證更加復雜，需要更精細的分析方法。

另一個有趣的方向是跨架構驗證。s2n-bignum同時包含ARM和x86兩種架構的實現，理論上這兩種實現應該在數學上完全等價。如果AI系統能夠自動驗證這種等價性，就能夠幫助開發者確?？缙脚_代碼的一致性。

說到底，這項研究展現了AI技術發展過程中的一個重要轉折點。我們正在從追求在人工構造的測試上獲得高分，轉向解決真實世界中的實際問題。s2n-bignum-bench就像是一面鏡子，它讓我們看到了當前AI系統在面對真實工程挑戰時的真實水平，同時也為未來的改進指明了方向。

這個基準測試的出現標志著AI輔助軟件驗證領域進入了一個新階段。雖然當前的結果還不夠理想，但它為整個研究社區提供了一個明確的目標和標準化的評估工具。隨著更多研究團隊在這個基準上進行嘗試和改進，我們有理由相信，AI在軟件驗證方面的能力將會快速提升。

對于普通用戶來說，這項研究的長遠影響可能是讓我們使用的軟件變得更加安全可靠。當AI系統能夠自動驗證密碼學代碼的正確性時，我們的個人數據、金融信息、通信隱私都將得到更好的保護。這不僅是技術進步，更是對數字時代生活質量的重要保障。

有興趣深入了解這項研究的讀者可以通過論文編號arXiv:2603.14628v1查詢完整的技術細節和實驗數據。研究團隊也承諾會持續更新和維護這個基準測試，為AI輔助軟件驗證的發展提供長期支持。

Q&A

Q1：s2n-bignum-bench是什么？

A：s2n-bignum-bench是由史蒂文斯理工學院和亞馬遜云服務聯合開發的測試基準，專門用來評估AI系統能否為真實的工業級密碼學匯編代碼編寫正確的數學證明，包含2284個來自實際生產環境的測試問題。

Q2：為什么需要專門的工業代碼驗證基準而不是傳統數學測試？

A：傳統數學測試就像奧數競賽，雖然有挑戰性但相對"干凈"。而工業代碼驗證需要理解計算機底層架構、內存管理、指令執行等復雜細節，就像修理真正的汽車發動機，兩者需要完全不同的技能集合。

Q3：目前AI在s2n-bignum-bench上的表現如何？

A：即使是最先進的GPT-5.3-Codex模型，在這個基準測試上的成功率也只有4.4%到5.3%，特別是在功能正確性證明方面幾乎完全失敗，這表明AI在真實工業代碼驗證方面還有很大提升空間。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.