337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

告別簡單編程題,人大用ICPC難題重新定義LLM推理評估

0
分享至


始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在,歡迎加入共同成長。

隨著大語言模型(LLMs)在復雜編碼和推理任務中的飛速進步,傳統編程基準已難以跟上其發展步伐。現有測試要么難度不足,要么評估方式脫離實際場景,無法精準衡量模型的 “慢思考” 和迭代優化能力。近日,中國人民大學高瓴人工智能學院團隊推出 ICPC-Eval 基準測試,以頂級編程競賽題目為核心,創新評估機制與本地測試工具,為 LLM 推理能力提供了更嚴苛、更真實的檢驗標準!已上線始智AI-wisemodel開源社區,歡迎體驗。


代碼和數據集地址

https://wisemodel.cn/codes/shiyixu45/ICPC-Eval

https://wisemodel.cn/datasets/shiyixu45/ICPC-Eval

01.

行業痛點:

傳統編程基準的三大短板

當前 LLM 編程能力評估體系存在明顯局限,難以滿足高階推理測試需求:

1. 難度不足,區分度低:現有基準多來自普通編程平臺,難度遠未達到頂級算法競賽水平。隨著LLM能力提升,這些測試已無法有效區分不同模型的推理上限;

2. 評估脫離實際:主流的 Pass@K 指標僅關注多次采樣中是否有正確結果,忽略了人類解題時 “嘗試-反饋-優化” 的迭代過程,也未體現模型的反思修正能力;

3. 測試條件受限:頂級競賽的私有測試用例不公開,多數基準依賴在線判題平臺,本地評估困難,給研究者帶來諸多不便。

這些問題導致對 LLM 真實推理能力的評估存在偏差,難以支撐模型的精準迭代。

02.

技術革新:

ICPC-Eval的三大核心突破

ICPC-Eval 以 “真實競賽場景 + 科學評估體系 + 便捷測試工具” 為核心,實現三大關鍵創新:

1. 頂級競賽題庫:118 道難題構建嚴苛測試

團隊從 11 場近年國際大學生程序設計競賽(ICPC)中精心篩選 118 道題目,涵蓋世界總決賽、洲際總決賽及區域賽等不同級別賽事。題目覆蓋八大算法領域:

  • 基礎算法(貪心、分治等)34 道

  • 動態規劃 38 道

  • 數學(組合數學、數論等)48 道

  • 數據結構 30 道

  • 圖論 26 道

  • 計算幾何 17 道

  • 搜索算法 35 道

  • 字符串算法 6 道


這些題目需將復雜數學邏輯轉化為高效代碼,部分還涉及特殊判題場景,難度與真實競賽完全一致,能充分暴露模型的推理短板。

2. 本地測試工具:LLM 生成魯棒測試用例

為解決私有測試用例難以獲取的問題,團隊創新提出基于 LLM 的測試用例生成方案:

  • 為每道題生成兩種 C++ 輸入生成器:隨機生成器(均勻覆蓋數據范圍)和邊界用例生成器(針對極端場景和特殊結構);

  • 利用已知正確的 AC 代碼生成對應輸出,再通過錯誤代碼(WA、TLE、RE 等)驗證測試用例的有效性,確保零誤判;

  • 提供完整本地評估工具包,支持特殊判題(SPJ)場景,無需依賴在線平臺,實現高效精準的離線評估。


3. 創新評估指標:Refine@K 衡量迭代推理能力

摒棄傳統 Pass@K 指標,提出更貼合真實解題流程的 Refine@K 評估方法:

  • 允許模型在 K 次嘗試內迭代優化代碼,每次錯誤后會收到具體執行反饋(編譯錯誤、答案錯誤、超時等);

  • 首次嘗試基于題目描述生成代碼,后續嘗試結合前序代碼和反饋進行修正,模擬人類 “反思改進” 的解題過程;

  • 該指標能有效區分推理型模型與非推理型模型的核心差異,更真實反映模型的內在推理能力。


03.

測試結果:

頂尖LLM落后人類,推理模型優勢凸顯

團隊對15款主流 LLM 進行全面測試,揭示了諸多關鍵發現:


各模型在ICPC-Eval不同算法領域及完整測試集上的Refine@5性能表現

  • 與人類差距明顯:即使表現最佳的 o3-mini High 模型,平均每場競賽僅能解決 28.8% 的題目,遠低于人類獎牌獲得者水平(如圖 1 所示),證明頂級編程競賽仍是 LLM 的巨大挑戰;
  • 推理模型優勢顯著:DeepSeek R1、Gemini 2.5 Pro Exp 等推理型模型在 Refine@K 指標下表現突出,且隨著嘗試次數增加,性能持續提升。而非推理型模型即使增加嘗試次數,優化空間也十分有限;
  • 模型各有擅長領域:Gemini 2.5 Pro Exp 在基礎算法、數據結構和數學領域表現均衡,o3-mini High 在計算幾何和字符串算法上優勢明顯,而計算幾何和搜索算法是所有模型的共同難點;
  • Refine@K 更具區分度:相比 Pass@K,Refine@K 能更精準捕捉模型的迭代優化能力,同一基礎模型的推理版本與非推理版本在該指標下差距顯著。

04.

適用場景:

賦能LLM推理能力的精準迭代

ICPC-Eval 的設計特性使其在多個場景中具備重要應用價值:

  • 模型研發評估:為 LLM 推理能力提供嚴苛的基準測試,幫助研究者精準定位模型短板,指導迭代優化;
  • 推理機制研究:通過迭代優化過程的數據分析,深入探索 LLM “慢思考” 和反思修正的內在機制;
  • 競賽輔助訓練:為編程競賽參與者提供 AI 輔助訓練工具,生成多樣化測試用例,提升訓練效率;
  • 技術選型參考:為需要高階推理能力的應用場景(如復雜系統開發、算法設計)提供模型選型依據。

無論是學術研究還是工業應用,ICPC-Eval 都能提供更真實、更全面的 LLM 推理能力評估支持。

ICPC-Eval 的推出,填補了頂級編程競賽級 LLM 評估基準的空白。其真實的競賽題目、創新的評估指標和便捷的本地測試工具,為 LLM 推理能力評估樹立了新標桿。測試結果表明,盡管 LLM 在普通編程任務中表現出色,但在頂級算法競賽場景中仍有巨大提升空間。

----- END -----


wisemodel相關:

系列模型:

關于wisemodel更多

1

歡迎持續關注和支持

開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發布到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續關注wisemodel.cn開源社區動態。

2

歡迎加盟wisemodel開源社區

始智AI wisemodel社區自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區,為了加快公司發展,我們長期需要技術、運營等人才加盟,技術側重在AI infra、后端開發,熟悉K8S、模型訓練和推理等技術, 以及熟悉開發者生態運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關于wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。

向上滑動查看

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
太可恨!飛機一落地上海,女孩立馬報案!更多年輕受害人浮出水面……

太可恨!飛機一落地上海,女孩立馬報案!更多年輕受害人浮出水面……

環球網資訊
2026-03-26 21:48:04
調查發現:堅持走路鍛煉的老人,過不了半個月,會迎來4大改善

調查發現:堅持走路鍛煉的老人,過不了半個月,會迎來4大改善

39健康網
2026-03-02 12:30:48
連蔡依林都在玩,“雪山救狐貍”到底是什么梗?對話視頻原創作者:最初只是為了賣醬板鴨,特意設置反轉劇情,沒想到會這么火

連蔡依林都在玩,“雪山救狐貍”到底是什么梗?對話視頻原創作者:最初只是為了賣醬板鴨,特意設置反轉劇情,沒想到會這么火

極目新聞
2026-03-25 19:37:57
驚呆了!網傳某婦產醫院一少婦哭求醫生,改她兒子的血型鑒定書…

驚呆了!網傳某婦產醫院一少婦哭求醫生,改她兒子的血型鑒定書…

火山詩話
2026-03-26 11:40:00
出大事了,特朗普通報全球,美頭號敵人已亮相,擔心的事即將發生

出大事了,特朗普通報全球,美頭號敵人已亮相,擔心的事即將發生

策略述
2026-03-26 13:45:17
日均接診1.5萬人次、手術500臺,廣東這家華南醫療航母火遍全省

日均接診1.5萬人次、手術500臺,廣東這家華南醫療航母火遍全省

健身狂人
2026-03-27 00:11:10
即將淪為“窮人房”的5種房子,不好住不好賣,聰明人已逐漸轉手

即將淪為“窮人房”的5種房子,不好住不好賣,聰明人已逐漸轉手

貓叔東山再起
2026-03-26 09:10:08
勇士雙殺籃網鎖定附加賽,桑托斯生涯之夜,庫明加換波神真賺了?

勇士雙殺籃網鎖定附加賽,桑托斯生涯之夜,庫明加換波神真賺了?

司峰阿道
2026-03-26 14:45:09
中國軍事專家送日本3句話,太絕了,真不是嚇唬他們

中國軍事專家送日本3句話,太絕了,真不是嚇唬他們

安安說
2026-03-26 11:21:19
14.99萬!“史上最便宜”特斯拉來了

14.99萬!“史上最便宜”特斯拉來了

首席品牌觀察
2026-03-24 16:18:39
中國公布喜訊

中國公布喜訊

楊興文
2026-03-26 21:08:26
“面相騙不了人”這句話,在他身上,以一種讓人揪心的方式被驗證

“面相騙不了人”這句話,在他身上,以一種讓人揪心的方式被驗證

動物奇奇怪怪
2026-03-26 01:52:14
中土敲定合作,一根管道連通兩國,這是對俄羅斯的警告?

中土敲定合作,一根管道連通兩國,這是對俄羅斯的警告?

近史博覽
2026-03-27 02:18:27
俄羅斯宣傳三天攻占愛沙尼亞!炮制公投,又是特別軍事行動?

俄羅斯宣傳三天攻占愛沙尼亞!炮制公投,又是特別軍事行動?

項鵬飛
2026-03-24 20:28:43
毛新宇參觀祖宅時突然發現家譜記載:原來毛主席是毛太華第20代孫

毛新宇參觀祖宅時突然發現家譜記載:原來毛主席是毛太華第20代孫

老杉說歷史
2026-03-14 20:54:20
奴顏媚骨具象化,高市早苗三十年前照片被扒出,原來她從未變過!

奴顏媚骨具象化,高市早苗三十年前照片被扒出,原來她從未變過!

社會醬
2026-03-23 17:34:19
強闖中國駐日使館不法之徒照片曝光,3月15日剛晉升三等陸尉

強闖中國駐日使館不法之徒照片曝光,3月15日剛晉升三等陸尉

澎湃新聞
2026-03-26 14:34:04
300元搶紅薯葉,國內僅2元一斤!美國高校:抑制96%肺部異變

300元搶紅薯葉,國內僅2元一斤!美國高校:抑制96%肺部異變

果殼
2026-03-26 09:29:42
女同主播出軌大哥 被"正宮"直播對質!真實長相曝光

女同主播出軌大哥 被"正宮"直播對質!真實長相曝光

游民星空
2026-03-25 20:08:13
浙江男子馬達加斯加開“手機網吧”爆火:全天候營業,收費1.5元/小時,每天約200人次來玩

浙江男子馬達加斯加開“手機網吧”爆火:全天候營業,收費1.5元/小時,每天約200人次來玩

極目新聞
2026-03-26 19:21:35
2026-03-27 03:27:00
wisemodel開源社區 incentive-icons
wisemodel開源社區
始智AI wisemodel.cn開源社區,打造中國版“huggingface”
466文章數 14關注度
往期回顧 全部

科技要聞

美團發布外賣大戰后成績單:虧損超200億

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發聲!稱姐姐受身邊人挑撥

財經要聞

油價"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預售 CLTC最大續航815km

態度原創

教育
健康
本地
家居
公開課

教育要聞

精準研判,提質增效丨我校召開2026屆畢業生就業工作研判會

轉頭就暈的耳石癥,能開車上班嗎?

本地新聞

救命,這只醬板鴨已經在我手機復仇了一萬遍

家居要聞

傍海而居 靜觀蝴蝶海

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版