網易首頁 > 網易號 > 正文申請入駐

告別簡單編程題，人大用ICPC難題重新定義LLM推理評估

2025-12-25 18:40:32　來源: wisemodel開源社區

北京舉報

分享至

始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在，歡迎加入共同成長。

隨著大語言模型（LLMs）在復雜編碼和推理任務中的飛速進步，傳統編程基準已難以跟上其發展步伐。現有測試要么難度不足，要么評估方式脫離實際場景，無法精準衡量模型的 “慢思考” 和迭代優化能力。近日，中國人民大學高瓴人工智能學院團隊推出 ICPC-Eval 基準測試，以頂級編程競賽題目為核心，創新評估機制與本地測試工具，為 LLM 推理能力提供了更嚴苛、更真實的檢驗標準！已上線始智AI-wisemodel開源社區，歡迎體驗。

代碼和數據集地址

https://wisemodel.cn/codes/shiyixu45/ICPC-Eval

https://wisemodel.cn/datasets/shiyixu45/ICPC-Eval

01.

行業痛點：

傳統編程基準的三大短板

當前 LLM 編程能力評估體系存在明顯局限，難以滿足高階推理測試需求：

1. 難度不足，區分度低：現有基準多來自普通編程平臺，難度遠未達到頂級算法競賽水平。隨著LLM能力提升，這些測試已無法有效區分不同模型的推理上限；

2. 評估脫離實際：主流的 Pass@K 指標僅關注多次采樣中是否有正確結果，忽略了人類解題時 “嘗試-反饋-優化” 的迭代過程，也未體現模型的反思修正能力；

3. 測試條件受限：頂級競賽的私有測試用例不公開，多數基準依賴在線判題平臺，本地評估困難，給研究者帶來諸多不便。

這些問題導致對 LLM 真實推理能力的評估存在偏差，難以支撐模型的精準迭代。

02.

技術革新：

ICPC-Eval的三大核心突破

ICPC-Eval 以 “真實競賽場景 + 科學評估體系 + 便捷測試工具” 為核心，實現三大關鍵創新：

1. 頂級競賽題庫：118 道難題構建嚴苛測試

團隊從 11 場近年國際大學生程序設計競賽（ICPC）中精心篩選 118 道題目，涵蓋世界總決賽、洲際總決賽及區域賽等不同級別賽事。題目覆蓋八大算法領域：

基礎算法（貪心、分治等）34 道
動態規劃 38 道
數學（組合數學、數論等）48 道
數據結構 30 道
圖論 26 道
計算幾何 17 道
搜索算法 35 道
字符串算法 6 道

這些題目需將復雜數學邏輯轉化為高效代碼，部分還涉及特殊判題場景，難度與真實競賽完全一致，能充分暴露模型的推理短板。

2. 本地測試工具：LLM 生成魯棒測試用例

為解決私有測試用例難以獲取的問題，團隊創新提出基于 LLM 的測試用例生成方案：

為每道題生成兩種 C++ 輸入生成器：隨機生成器（均勻覆蓋數據范圍）和邊界用例生成器（針對極端場景和特殊結構）；
利用已知正確的 AC 代碼生成對應輸出，再通過錯誤代碼（WA、TLE、RE 等）驗證測試用例的有效性，確保零誤判；
提供完整本地評估工具包，支持特殊判題（SPJ）場景，無需依賴在線平臺，實現高效精準的離線評估。

3. 創新評估指標：Refine@K 衡量迭代推理能力

摒棄傳統 Pass@K 指標，提出更貼合真實解題流程的 Refine@K 評估方法：

允許模型在 K 次嘗試內迭代優化代碼，每次錯誤后會收到具體執行反饋（編譯錯誤、答案錯誤、超時等）；
首次嘗試基于題目描述生成代碼，后續嘗試結合前序代碼和反饋進行修正，模擬人類 “反思改進” 的解題過程；
該指標能有效區分推理型模型與非推理型模型的核心差異，更真實反映模型的內在推理能力。

03.

測試結果：

頂尖LLM落后人類，推理模型優勢凸顯

團隊對15款主流 LLM 進行全面測試，揭示了諸多關鍵發現：

各模型在ICPC-Eval不同算法領域及完整測試集上的Refine@5性能表現

與人類差距明顯：即使表現最佳的 o3-mini High 模型，平均每場競賽僅能解決 28.8% 的題目，遠低于人類獎牌獲得者水平（如圖 1 所示），證明頂級編程競賽仍是 LLM 的巨大挑戰；
推理模型優勢顯著：DeepSeek R1、Gemini 2.5 Pro Exp 等推理型模型在 Refine@K 指標下表現突出，且隨著嘗試次數增加，性能持續提升。而非推理型模型即使增加嘗試次數，優化空間也十分有限；
模型各有擅長領域：Gemini 2.5 Pro Exp 在基礎算法、數據結構和數學領域表現均衡，o3-mini High 在計算幾何和字符串算法上優勢明顯，而計算幾何和搜索算法是所有模型的共同難點；
Refine@K 更具區分度：相比 Pass@K，Refine@K 能更精準捕捉模型的迭代優化能力，同一基礎模型的推理版本與非推理版本在該指標下差距顯著。

04.

適用場景：

賦能LLM推理能力的精準迭代

ICPC-Eval 的設計特性使其在多個場景中具備重要應用價值：

模型研發評估：為 LLM 推理能力提供嚴苛的基準測試，幫助研究者精準定位模型短板，指導迭代優化；
推理機制研究：通過迭代優化過程的數據分析，深入探索 LLM “慢思考” 和反思修正的內在機制；
競賽輔助訓練：為編程競賽參與者提供 AI 輔助訓練工具，生成多樣化測試用例，提升訓練效率；
技術選型參考：為需要高階推理能力的應用場景（如復雜系統開發、算法設計）提供模型選型依據。

無論是學術研究還是工業應用，ICPC-Eval 都能提供更真實、更全面的 LLM 推理能力評估支持。

ICPC-Eval 的推出，填補了頂級編程競賽級 LLM 評估基準的空白。其真實的競賽題目、創新的評估指標和便捷的本地測試工具，為 LLM 推理能力評估樹立了新標桿。測試結果表明，盡管 LLM 在普通編程任務中表現出色，但在頂級算法競賽場景中仍有巨大提升空間。

----- END -----

wisemodel相關：

系列模型：

關于wisemodel更多

歡迎持續關注和支持

開源社區建設需要長期堅持和投入，更需要廣大用戶的積極參與、貢獻和維護，歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果，包括模型、數據集和代碼等發布到 wisemodel.cn 社區，共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信，申請加入wisemodel社群，持續關注wisemodel.cn開源社區動態。

歡迎加盟wisemodel開源社區

始智AI wisemodel社區自2023年9月上線以來，逐漸成為影響力日益擴大的中立開放的AI開源社區，為了加快公司發展，我們長期需要技術、運營等人才加盟，技術側重在AI infra、后端開發，熟悉K8S、模型訓練和推理等技術，以及熟悉開發者生態運營的成員，歡迎感興趣的朋友加盟，可以通過添加wisemodel微信，或者將簡歷投遞到郵箱：liudaoquan@wisemodel.cn

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果，鼓勵高校實驗室、大企業研究團隊、個人等，在wisemodel平臺上分享各類優質內容，可以是AI領域最新論文解讀、最新開源成果介紹，也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn，也可以掃碼添加wisemodel微信。

關于wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立，旨在打造和建設中立開放的AI開源創新社區，將打造成“HuggingFace”之外最活躍的AI開源社區，匯聚主要AI開源模型、數據集和代碼等，歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者，以及政府部門、學會協會、聯盟、基金會等，還有投資機構、科技媒體等，共同參與建設AI開源創新生態。

向上滑動查看

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.