337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

SWE-AGI基準(zhǔn)評(píng)測(cè):中大型軟件在全新語言上的批量生成成功率已達(dá)80%

0
分享至


近日,OpenAI 早期核心成員之一,Vibe Coding 概念提出者 Andrej Karpathy 在社交媒體 X 上(原 Twitter)提出了關(guān)于 LLM 正在改變軟件開發(fā)的“約束結(jié)構(gòu)”(constraints landscape)的看法,他指出,大模型在“代碼翻譯”上遠(yuǎn)強(qiáng)于從零生成——已有代碼本身就是高度結(jié)構(gòu)化的 Prompt,同時(shí)還能作為測(cè)試參照。


如果真是這樣,軟件的穩(wěn)定形態(tài)可能就會(huì)被打破——重寫變得便宜,遷移成為常態(tài)。那么問題是,當(dāng)代碼會(huì)被 AI 反復(fù)理解、翻譯、重組時(shí),什么樣的語言,才更適合這樣的過程?(What kind of language is optimal?)

這個(gè)問題并不是停留在討論層面。最近出現(xiàn)的一個(gè)新基準(zhǔn)測(cè)試 SWE-AGI,正在嘗試給出某種實(shí)驗(yàn)性的回答——它要求 AI 從零開始,僅依據(jù) RFC 和標(biāo)準(zhǔn)文檔,真正構(gòu)建一個(gè)完整系統(tǒng)

更有意思的是,研究者刻意沒有用 Python 或 Java,而是選擇了一門全新的編程語言 MoonBit 作為構(gòu)建環(huán)境。

原因很簡(jiǎn)單——他們希望排除“模型見過太多訓(xùn)練數(shù)據(jù)”的干擾,看看 AI 在一個(gè)相對(duì)干凈的語言環(huán)境里,能不能真正理解規(guī)則、推理結(jié)構(gòu)、完成工程。


前言

在 AI 編程從“輔助寫函數(shù)”邁向“自主構(gòu)建系統(tǒng)”的關(guān)鍵節(jié)點(diǎn),一個(gè)新的基準(zhǔn)測(cè)試SWE-AGI為我們揭示了當(dāng)前 AI 編程代理(Agent)的真實(shí)水位。

這項(xiàng)來自粵港澳大灣區(qū)數(shù)字經(jīng)濟(jì)研究院和香港科技大學(xué)今年 2 月的實(shí)證研究,摒棄了傳統(tǒng)的代碼補(bǔ)全測(cè)試,轉(zhuǎn)而要求 AI 從零開始,僅根據(jù)權(quán)威規(guī)范(RFCs/標(biāo)準(zhǔn)文檔)和固定的 API 腳手架,端到端地構(gòu)建生產(chǎn)級(jí)軟件系統(tǒng)。

  • 論文鏈接:https://arxiv.org/abs/2602.09447

值得注意的是,研究中使用了國產(chǎn)新編程語言 MoonBit。

在評(píng)測(cè) AI 編程能力時(shí),最大的干擾項(xiàng)莫過于“數(shù)據(jù)污染”(Data Contamination)。如果評(píng)測(cè)的代碼恰好出現(xiàn)在模型的訓(xùn)練數(shù)據(jù)中,那么 AI 的“編寫”實(shí)際上只是一場(chǎng)“背誦”表演。為了打破這一魔咒,SWE-AGI 基準(zhǔn)測(cè)試做出了一個(gè)大膽且關(guān)鍵的決定:放棄 Python、Java 等傳統(tǒng)大語言,轉(zhuǎn)而采用新興的編程語言 MoonBit 作為唯一的構(gòu)建環(huán)境。

基于“反作弊”的工程考量:

  1. 切斷“開卷考試”的后路:MoonBit 作為一個(gè)相對(duì)年輕的語言,其開源生態(tài)尚在建設(shè)中,這意味著它在大模型的預(yù)訓(xùn)練語料庫中幾乎不存在。這直接封殺了 AI 通過“記憶復(fù)現(xiàn)”來蒙混過關(guān)的可能性。

  2. 強(qiáng)制“邏輯推理”:由于沒有現(xiàn)成的代碼片段可供抄襲,AI 必須真正理解 RFC 規(guī)范和 API 腳手架,從零開始進(jìn)行邏輯推演。

  3. 工具鏈的完美閉環(huán):MoonBit 原生支持“聲明先行”(Declare-first)的工作流,配合其統(tǒng)一的工具鏈(moon),為 AI 提供了極低延遲的編譯-測(cè)試反饋循環(huán)。

結(jié)論是在這場(chǎng)針對(duì)“自主軟件工程”的大考中,GPT-5.3-codexClaude Opus 4.6展現(xiàn)了斷層領(lǐng)先的統(tǒng)治力,而其他模型則被遠(yuǎn)遠(yuǎn)甩在身后。


MoonBit 大型軟件合成挑戰(zhàn)賽

點(diǎn)擊下圖了解更多賽事詳情


論文解析

1、模型戰(zhàn)局:第一梯隊(duì)已拉開代差

SWE-AGI 基準(zhǔn)測(cè)試包含 22 個(gè)任務(wù),涵蓋模板語言、數(shù)據(jù)序列化、編程語言前端、二進(jìn)制格式解析等多個(gè)領(lǐng)域,代碼規(guī)模在 103 到 104 行之間。

在這一高難度的“系統(tǒng)構(gòu)建”場(chǎng)景下,模型表現(xiàn)呈現(xiàn)出了明顯的兩極分化。GPT-5.3-codex 憑借 86.4% 的通過率(19/22)穩(wěn)居榜首,Claude Opus 4.6 以 68.2%(15/22)緊隨其后。相比之下,其他參評(píng)模型(包括開源模型及部分閉源模型)在簡(jiǎn)單任務(wù)上的表現(xiàn)尚可,但一旦進(jìn)入中高難度領(lǐng)域,成功率便跌至個(gè)位數(shù)甚至為零。

模型名稱

總?cè)蝿?wù)通過率 (22選)

核心評(píng)價(jià)

gpt-5.3-codex

19 / 22 (86.4%)

不僅勝率最高,且在困難任務(wù)中展現(xiàn)了極強(qiáng)的魯棒性與效率。

claude-opus-4.6

15 / 22 (68.2%)

相比前代大幅提升,在復(fù)雜狀態(tài)機(jī)任務(wù)中表現(xiàn)出色。

gpt-5.2-codex

17 / 22 (77.3%)

實(shí)力強(qiáng)但效率較低,處理復(fù)雜任務(wù)時(shí)耗時(shí)顯著長(zhǎng)于 5.3 版本。

claude-opus-4.5

10 / 22 (45.5%)

在中高難度任務(wù)中力不從心,被最新版本拉開巨大差距。

其他模型 (Kimi/Gemini等)

極低 (<30%)

僅在極簡(jiǎn)單的 Easy 任務(wù)中有零星表現(xiàn),無法勝任系統(tǒng)級(jí)構(gòu)建。

主流模型 SWE-AGI 實(shí)測(cè)成績(jī)對(duì)比

數(shù)據(jù)洞察:只有 GPT-5.3 和 Claude Opus 4.6 證明了具備端到端構(gòu)建基礎(chǔ)軟件(如 CSV 解析器、URI 處理器、甚至簡(jiǎn)單的 SAT 求解器)的能力。對(duì)于其他模型而言,從“寫代碼”跨越到“做系統(tǒng)”,依然是一個(gè)難以逾越的鴻溝。

2、GPT-5.3 的“降維打擊”:少讀多試的工程智慧

雖然 GPT-5.3-codex 和 GPT-5.2-codex 都能完成大部分任務(wù),但它們的工作流(Workflow)有著本質(zhì)的區(qū)別。這種區(qū)別揭示了頂尖 AI 工程師的進(jìn)化方向。

  • 效率的飛躍:GPT-5.3 在處理困難任務(wù)時(shí),平均耗時(shí)僅為 1.7 小時(shí),而 GPT-5.2 需要 7.8 小時(shí)。GPT-5.3 的代碼實(shí)現(xiàn)量(Core LOC)也更精簡(jiǎn),說明它不再通過堆砌代碼來解決問題。

  • 策略的轉(zhuǎn)變:行為日志分析顯示,GPT-5.2 有 64.6% 的時(shí)間在“讀”代碼(理解上下文、維護(hù)架構(gòu)),陷入了一種“維護(hù)模式”。而 GPT-5.3 將更多精力投入到了“調(diào)試(Debug)”和“測(cè)試”中。

  • 結(jié)論:GPT-5.3 展現(xiàn)出了更接近人類高級(jí)工程師的特質(zhì)——它不再糾結(jié)于每一行代碼的完美,而是通過高頻的試錯(cuò)和反饋循環(huán)來快速收斂。

3、警惕“幻覺”:Claude Opus 的深思熟慮

Claude Opus 4.6 的表現(xiàn)則代表了另一種路徑。它比 GPT-5.3 花費(fèi)了更多的時(shí)間在“規(guī)劃(Plan)”和“閱讀規(guī)范(Spec)”上。

  • 優(yōu)勢(shì):這種“三思而后行”的策略,使得 Claude Opus 4.6 在處理強(qiáng)規(guī)范、復(fù)雜狀態(tài)機(jī)的任務(wù)(如 HTML5 解析)時(shí),能保持較好的架構(gòu)一致性,避免了 GPT-5.2 那樣的無效修補(bǔ)。

  • 劣勢(shì):這種深思熟慮也帶來了高昂的時(shí)間成本。Claude Opus 4.6 的平均運(yùn)行時(shí)間普遍高于 GPT-5.3,顯示出其在“思考”與“行動(dòng)”之間的權(quán)衡。

4、核心瓶頸:AI 90% 的時(shí)間都在“讀”代碼

這篇論文最顛覆性的發(fā)現(xiàn),并非 AI 能寫多少代碼,而是揭示了“讀”比“寫”難。

通過對(duì) Agent 行為日志的分析,研究者發(fā)現(xiàn):隨著代碼庫規(guī)模的擴(kuò)大,代碼閱讀(Code Reading)成為了 AI 開發(fā)的主要瓶頸。

  • 數(shù)據(jù)說話:在處理困難任務(wù)時(shí),GPT-5.2-codex 有64.6%的行為是讀代碼;即便是 GPT-5.3,也有 41.4% 的時(shí)間在閱讀。

  • 本質(zhì)原因:AI 的瓶頸不再是生成代碼的“手速”,而是維護(hù)長(zhǎng)視野(Long-horizon)架構(gòu)一致性的“記憶力”和“理解力”。AI 花費(fèi)大量精力去理解自己剛剛寫過的代碼,以確保新增功能不會(huì)破壞現(xiàn)有邏輯。


結(jié)語:自主軟件工程的現(xiàn)狀與未來

SWE-AGI 的測(cè)試結(jié)果告訴我們:在許多實(shí)際部署中,瓶頸并非代碼生成,而是代碼審查、調(diào)試、集成和需求澄清。

雖然 GPT-5.3-codex 已經(jīng)證明了它能像人類一樣,從零構(gòu)建一個(gè)標(biāo)準(zhǔn)的二進(jìn)制解碼器或模板引擎,但當(dāng)面對(duì)極其復(fù)雜的系統(tǒng)(如完整的 C99 解析器或 Python 子集)時(shí),所有模型的通過率都出現(xiàn)了斷崖式下跌。

未來的 AI 編程代理,勝負(fù)手將不再是誰的“代碼庫背得更熟”,而是那些能夠通過強(qiáng)靜態(tài)保障、確定性構(gòu)建和豐富的自動(dòng)化檢查,將反饋負(fù)擔(dān)從人工轉(zhuǎn)移至機(jī)器的編程語言和平臺(tái)更具優(yōu)勢(shì)。

根據(jù) MoonBit 官網(wǎng)數(shù)據(jù) https://mooncakes.io/ 顯示,MoonBit 在小數(shù)據(jù)集的語料環(huán)境中已積累了近 5,000+ 生態(tài)庫和千萬行級(jí)別的代碼規(guī)模。在這樣的數(shù)據(jù)規(guī)模下,模型并非依賴海量歷史包袱,而是在一個(gè)結(jié)構(gòu)更可控、語義更一致的環(huán)境中學(xué)習(xí)與推理。

如果正如 Karpathy 所說,LLM 正在改變軟件的“約束結(jié)構(gòu)”,那么語言本身的結(jié)構(gòu)是否更有利于機(jī)器理解,可能就不再是邊緣問題。

在這個(gè)意義上,MoonBit 的存在,并不是偶然插入的變量,而是一個(gè)正在被驗(yàn)證的方向。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
太棒了!蘋果提前宣布 iOS 27 重要新功能

太棒了!蘋果提前宣布 iOS 27 重要新功能

XCiOS俱樂部
2026-03-27 15:52:21
巨石強(qiáng)森壯漢穿假體演半神,這半遮半掩的曲線,誰能頂?shù)米。?>
    </a>
        <h3>
      <a href=娛樂領(lǐng)航家
2026-03-26 20:00:03
呂特:特朗普讓北約更安全強(qiáng)大,強(qiáng)迫盟友把GDP5%用于國防做得對(duì)

呂特:特朗普讓北約更安全強(qiáng)大,強(qiáng)迫盟友把GDP5%用于國防做得對(duì)

愛看劇的阿峰
2026-03-27 18:13:03
1955 年饒漱石遭開除黨籍,歷多年關(guān)押服刑,晚年于農(nóng)場(chǎng)度余生

1955 年饒漱石遭開除黨籍,歷多年關(guān)押服刑,晚年于農(nóng)場(chǎng)度余生

嘮叨說歷史
2026-03-24 11:17:11
發(fā)生什么事了?加納喬刪除個(gè)人社交媒體頭像和簡(jiǎn)介

發(fā)生什么事了?加納喬刪除個(gè)人社交媒體頭像和簡(jiǎn)介

懂球帝
2026-03-27 10:24:37
漸漸失去懸念!西部能進(jìn)季后賽的大概率是以下8支,勇士基本出局

漸漸失去懸念!西部能進(jìn)季后賽的大概率是以下8支,勇士基本出局

毒舌NBA
2026-03-27 09:06:26
恒大2500億債務(wù)僅確認(rèn)523億

恒大2500億債務(wù)僅確認(rèn)523億

地產(chǎn)微資訊
2026-03-27 18:49:42
HR-V要成10萬級(jí)燃油SUV價(jià)值標(biāo)桿,瘋了?

HR-V要成10萬級(jí)燃油SUV價(jià)值標(biāo)桿,瘋了?

汽車K線
2026-03-27 19:11:42
杜魯門問:中國參戰(zhàn)怎么辦?麥克阿瑟當(dāng)場(chǎng)甩出三個(gè)反問,結(jié)果如何

杜魯門問:中國參戰(zhàn)怎么辦?麥克阿瑟當(dāng)場(chǎng)甩出三個(gè)反問,結(jié)果如何

小莜讀史
2026-03-21 13:57:27
美國不想打伊朗了?王毅一語點(diǎn)透關(guān)鍵,中東出現(xiàn)一線和平的曙光

美國不想打伊朗了?王毅一語點(diǎn)透關(guān)鍵,中東出現(xiàn)一線和平的曙光

蘭妮搞笑分享
2026-03-27 18:17:12
郴州通報(bào)煙花零售店燃爆事件:店主實(shí)施犯罪后自殺,13名公職人員被處理

郴州通報(bào)煙花零售店燃爆事件:店主實(shí)施犯罪后自殺,13名公職人員被處理

界面新聞
2026-03-27 12:27:38
魔笛J羅再相聚!皇馬兩代10號(hào)擁抱寒暄 賽后交換球衣

魔笛J羅再相聚!皇馬兩代10號(hào)擁抱寒暄 賽后交換球衣

葉青足球世界
2026-03-27 11:17:22
將日常的主食更換一下,全身炎癥水平下降了,體重不知不覺地掉了

將日常的主食更換一下,全身炎癥水平下降了,體重不知不覺地掉了

運(yùn)動(dòng)健身號(hào)
2026-03-26 10:15:07
有性生活的注意!男人感染HPV后,身體有2個(gè)表現(xiàn),教你一眼看出來

有性生活的注意!男人感染HPV后,身體有2個(gè)表現(xiàn),教你一眼看出來

健康科普365
2025-12-15 09:50:47
2011年“天上人間”段麗娟被執(zhí)行死刑,臨刑前大喊:我不后悔

2011年“天上人間”段麗娟被執(zhí)行死刑,臨刑前大喊:我不后悔

王嚾曉
2026-03-12 16:33:39
美股股指期貨擴(kuò)大漲幅,其中標(biāo)普500指數(shù)期貨漲幅擴(kuò)大至 0.5%

美股股指期貨擴(kuò)大漲幅,其中標(biāo)普500指數(shù)期貨漲幅擴(kuò)大至 0.5%

每日經(jīng)濟(jì)新聞
2026-03-27 08:09:04
曝付幸離異帶娃,和兒子為張雪峰慶生畫面疑曝光,眼神太甜蜜!

曝付幸離異帶娃,和兒子為張雪峰慶生畫面疑曝光,眼神太甜蜜!

古希臘掌管松餅的神
2026-03-27 19:29:24
廣汽集團(tuán),你瘋了嗎?

廣汽集團(tuán),你瘋了嗎?

汽車K線
2026-03-26 09:20:19
《人民的名義》演員徐光宇幫朋友免費(fèi)商演后獲贈(zèng)10%股權(quán),公司欠36萬余元工程款,他被債權(quán)人起訴要求賠償

《人民的名義》演員徐光宇幫朋友免費(fèi)商演后獲贈(zèng)10%股權(quán),公司欠36萬余元工程款,他被債權(quán)人起訴要求賠償

大風(fēng)新聞
2026-03-26 22:39:05
CBA最新排名:青島準(zhǔn)絕殺廣州重返前8 北控主場(chǎng)不敵同曦送溫暖

CBA最新排名:青島準(zhǔn)絕殺廣州重返前8 北控主場(chǎng)不敵同曦送溫暖

狼叔評(píng)論
2026-03-26 22:22:04
2026-03-27 19:56:49
CSDN incentive-icons
CSDN
成就一億技術(shù)人
26413文章數(shù) 242250關(guān)注度
往期回顧 全部

科技要聞

楊植麟張鵬夏立雪羅福莉,聊龍蝦、聊漲價(jià)

頭條要聞

美方稱在美軍事基地裝爆炸物的男子逃往中國 中方回應(yīng)

頭條要聞

美方稱在美軍事基地裝爆炸物的男子逃往中國 中方回應(yīng)

體育要聞

邵佳一:足球就像一場(chǎng)馬拉松

娛樂要聞

范瑋琪加盟,官宣《浪姐7》遭全網(wǎng)抵制

財(cái)經(jīng)要聞

我在小吃培訓(xùn)機(jī)構(gòu)學(xué)習(xí)“科技與狠活”

汽車要聞

與眾08,金標(biāo)大眾不能輸?shù)囊粦?zhàn)

態(tài)度原創(chuàng)

健康
藝術(shù)
房產(chǎn)
親子
公開課

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

藝術(shù)要聞

張大千:形成于未畫之先,神留于既畫之后

房產(chǎn)要聞

剛剛,海南樓市,官方數(shù)據(jù)發(fā)布!

親子要聞

嬰兒期真的好短啊,還沒好好的把你抱夠,轉(zhuǎn)眼就長(zhǎng)這么大了!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版