337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

正面硬剛Claude Opus 4.6:我們給GLM-5.1使了三個“絆子”,它居然…

0
分享至


智東西
作者 陳駿達(dá)
編輯 漠影

智東西4月8日報道,今天,智譜正式開源其最強模型GLM-5.1,這一模型在專業(yè)軟件開發(fā)基準(zhǔn)測試SWE-Bench Pro中,GLM-5.1刷新全球最佳成績,得分達(dá)到58.4,超過了GPT-5.4、Claude Opus 4.6等已經(jīng)正式發(fā)布的閉源模型,和MiniMax M2.7、Kimi K2.5等開源模型。


GLM-5.1并非只能跑跑簡單的Vibe Coding小案例,它專門面向長程任務(wù)設(shè)計,能持續(xù)地自主規(guī)劃、執(zhí)行并迭代,最終交付完整的工程結(jié)果。

兩個官方演示,直接把“長程任務(wù)”的能力具象化了:

在向量數(shù)據(jù)庫的調(diào)優(yōu)任務(wù)中,GLM-5.1沒有人類手把手教,自己跑了655輪迭代——測試、分析、改代碼、再測試……最終把性能硬生生提升至3.6倍。

它還靠著一張架構(gòu)草圖,連續(xù)自主工作了超過8小時,執(zhí)行了1200多個步驟,最終輸出了一套功能完備的Linux桌面系統(tǒng)。官方測算,這相當(dāng)于一個4人小團隊連軸轉(zhuǎn)一周的工作量。

這個“8小時不間斷工作”的紀(jì)錄,讓它成為了全球首個在真實工程任務(wù)中驗證這一能力的開源模型。

這意味著,那些過去只屬于人類團隊的復(fù)雜、長周期工程級任務(wù),現(xiàn)在對逐漸AI也敞開了大門。

一、海外網(wǎng)友火速體驗:體感接近Opus 4.6,成本暴砍至1/30

GLM-5.1一經(jīng)發(fā)布,就吸引了海量關(guān)注,其推文的閱讀量在12小時內(nèi)就沖破了200萬次,目前已經(jīng)飆到227萬次了。


不少體驗過GLM-5.1的網(wǎng)友紛紛發(fā)帖評價,在這些帖子中,有一個關(guān)鍵信息被反復(fù)提及:GLM-5.1的使用體感,已經(jīng)接近Claude Opus 4.6。

AI開發(fā)者toli拿GLM-5.1和Opus 4.6跑了113個編程任務(wù),發(fā)現(xiàn)GLM-5.1的體感就和Opus一樣。同時,智譜的Coding Plan提供了Claude Code訂閱三倍的用量,價格只有后者的1/3。Toli認(rèn)為,GLM-5.1是絕對的殺手級產(chǎn)品。


另一位開發(fā)者Beau Johnson分享,他已經(jīng)將自己部署的OpenClaw背后的模型,從Opus 4.6替換為GLM-5.1,作為協(xié)調(diào)和執(zhí)行Agent。這一切換沒有帶來任何體驗上的差別,而成本卻從1000美元暴砍至30美元左右。


軟件定制公司Zenoware的創(chuàng)始人JP分享了他用GLM-5.1 one-shot做出來的10個案例,JP認(rèn)為這是最接近Claude Opus 4.6的中國模型,給Opus 4.6帶來了嚴(yán)重威脅。以下是JP部分案例的集錦:


口碑之外,GLM-5.1在多項基準(zhǔn)測試中的表現(xiàn),同樣值得仔細(xì)拆解。

在編程能力這一維度,有三個基準(zhǔn)測試的成績較有參考性,包括衡量模型專業(yè)軟件開發(fā)工作的SWE-Bench Pro、操作命令行解決問題的Terminal-Bench 2.0、從零構(gòu)建完整代碼倉庫的NL2Repo。在這三個基準(zhǔn)測試中,GLM-5.1的得分已經(jīng)拍到全球第三、國產(chǎn)第一、開源第一。


而在考察模型設(shè)計能力的Design Arena上,GLM 5.1排名第四,同時多款GLM模型也包攬了這一榜單上的前四名,這個表現(xiàn),基本可以和Opus 4.6還有Sonnet 4.6一塊兒坐主桌了。


而在文本能力維度,Text Arena上GLM-5.1被評為排名第一的開源模型。


二、真刀真槍一手實測:連續(xù)接受十幾條需求變更,還扛住了拔網(wǎng)線和復(fù)雜遺留代碼

榜單好看,用戶也叫好,但真正的考驗還是在實際使用里。這次,智譜格外強調(diào)“長程任務(wù)(Long-Horizon Tasks)”,確實精準(zhǔn)判斷了當(dāng)前大模型在工業(yè)界落地的痛點。

在真實的軟件工程或復(fù)雜業(yè)務(wù)場景中,幾乎沒有任何有價值的問題是可以通過“一問一答”或“單次生成”解決的。只有真正具備了自主試錯和策略演進(jìn)的能力,模型才能像中高級工程師一樣去“啃”硬骨頭,而不是只寫個初版就罷工。

這已經(jīng)幾乎成為了行業(yè)共識。無論是GLM-5.1、Claude Opus 4.6還是GPT-5.4,各家都在將長程能力作為核心賣點。

原因是,對于真正要拿AI干活、提效的企業(yè)而言,分?jǐn)?shù)、正確率、排行榜都只是參考,他們關(guān)心的是模型能否在拿到一個任務(wù)后無需人工干預(yù),自動診斷并修復(fù)問題,能否用8小時替代一個初級工程師一周的重復(fù)勞動,這些,才是可見的真實生產(chǎn)力。

那么,GLM-5.1到底能不能打?它真的能成為Opus 4.6的國產(chǎn)平替嗎?我們拿GLM-5.1和Opus 4.6跑了兩個完整工程任務(wù),燒掉幾百萬token,看看它們的真實表現(xiàn)到底如何。

1、從零搭建待辦看板,前后端+數(shù)據(jù)庫全閉環(huán)

Prompt: 在一個空目錄下,從零搭建一個完整的“待辦事項看板”前端+后端,使用FastAPI+React,連接PostgresSQL數(shù)據(jù)庫,實現(xiàn)增刪改查。

拿到這一任務(wù)后,GLM-5.1和Opus 4.6都進(jìn)行了初步的項目規(guī)劃,拆解提示詞中的要求,然后再開始開發(fā)。值得一提的是,我們用于測試的電腦環(huán)境相對老舊,還缺失部分依賴。率先進(jìn)行開發(fā)的GLM-5.1馬上定位了這些問題,直接“動手”幫我們裝好了。


其實,GLM-5.1和Opus 4.6一開始給出的結(jié)果都有點簡陋。于是我們向兩個模型發(fā)送了十幾條修改意見,包括要打造完整的導(dǎo)航菜單、配備全局搜索框+通知系統(tǒng)+用戶頭像、三級分組菜單等等。

GLM-5.1并沒有被這一連串的“干擾”打斷自己的開發(fā)節(jié)奏,在多輪需求變更后仍然可以成功交付。最終它打造的任務(wù)看板功能完整度較高,交互體驗流暢,前后端數(shù)據(jù)也是聯(lián)動的——新增的項目的確能在數(shù)據(jù)庫中找到。


此外,網(wǎng)頁的UI細(xì)節(jié)也很到位,字體大小層級分明,光標(biāo)懸停在卡片上時有微動效,還通過顏色區(qū)分了任務(wù)的優(yōu)先級。

再來看看Opus 4.6的表現(xiàn)。在基礎(chǔ)功能上,Opus 4.6同樣實現(xiàn)了基于數(shù)據(jù)庫的增刪改查核心功能,不過網(wǎng)頁的色彩選擇和UI設(shè)計有些單調(diào)。


這一表現(xiàn)源于智譜在訓(xùn)練策略上的創(chuàng)新:通過顯著擴展任務(wù)過程的訓(xùn)練窗口,采用多輪監(jiān)督微調(diào)(multi-turn SFT)與強化學(xué)習(xí)(RL)結(jié)合的訓(xùn)練范式,GLM-5.1得以在完整的任務(wù)流程中學(xué)習(xí),從“接受任務(wù)→規(guī)劃→執(zhí)行→調(diào)整→交付”的全過程都被納入學(xué)習(xí)信號。因此,它不會因新指令的影響,丟掉原本的目標(biāo)與方向。

2、網(wǎng)絡(luò)中斷+遺留代碼+中文亂碼:GLM-5.1如何自救?

Prompt: 搭建一個簡易的電商后臺,需要實現(xiàn)商品管理、訂單流程和支付對接。

當(dāng)AI模型進(jìn)入企業(yè),面臨的往往是更多復(fù)雜的不確定性,比如模糊的目標(biāo),混亂的項目結(jié)構(gòu)等等。在這些因素的干擾下,GLM-5.1還能穩(wěn)定交付嗎?

GLM-5.1的新任務(wù),是搭建一個簡易的電商后臺,發(fā)送指令后,我們刻意使了點壞,在GLM-5.1快寫完項目的時候把網(wǎng)給掐了,并關(guān)閉了現(xiàn)有的上下文窗口。重啟Claude Code之后,再讓它根據(jù)之前的項目文件繼續(xù)開發(fā)。

GLM-5.1沒有被這一小插曲影響。在告訴它原項目的地址后,GLM-5.1花了3分鐘梳理了這個項目的后端部分,然后開始補齊前端缺失的代碼。


理解遺留代碼是開發(fā)的前提,理解程度直接影響著后續(xù)的開發(fā)質(zhì)量。在GLM-5.1輸出的前端設(shè)計框架中,可以看到它對原本的后端代碼分析十分到位,不僅準(zhǔn)確識別了Express 5+SQLite的技術(shù)棧,還敏銳地發(fā)現(xiàn)了后端缺少全局支付列表接口這一設(shè)計缺陷,并據(jù)此提出了“訂單列表+展開行加載支付記錄”的解決方案。


這得益于GLM-5.1更好的狀態(tài)延續(xù)與上下文整合。面對長時間跨度和大量上下文信息,GLM-5.1能穩(wěn)定地追蹤已完成的內(nèi)容、當(dāng)前所處階段和下一步關(guān)鍵動作,持續(xù)整合新信息,保持執(zhí)行鏈路的一致性。

在即將完成開發(fā)時,GLM-5.1在我們沒有要求的情況下,主動檢查了后端的API路徑,并發(fā)現(xiàn)并逐一修復(fù)了5個問題。這種“實驗→分析→優(yōu)化”的閉環(huán),正是GLM-5.1能在長任務(wù)中始終保持方向不偏、質(zhì)量統(tǒng)一、無需人工頻繁糾偏的重要原因。


最終,GLM-5.1交付了這一電商后臺項目,核心功能運轉(zhuǎn)正常,還將后臺數(shù)據(jù)進(jìn)行了可視化。不過,我們刻意人為動手修改了中文字符的編碼,讓這一電商后臺的中文字符顯示為小方塊。


為排查這一問題,GLM-5.1進(jìn)行了29次工具調(diào)用,主要都是閱讀文件,多工具協(xié)同效果穩(wěn)定。最后,它發(fā)現(xiàn)數(shù)據(jù)庫中多處中文字段都是亂碼(GBK編碼被錯誤當(dāng)UTF-8存入),于是很快進(jìn)行了修復(fù)。可以說,GLM-5.1在多輪工具調(diào)用和長上下文場景中,表現(xiàn)出工程師般的自主診斷和修復(fù)能力。


經(jīng)歷這兩個小插曲,GLM-5.1用大概45分鐘的時間完成了整個項目的開發(fā),修復(fù)后的結(jié)果如下。


它交付了整整兩個文件夾的成果,算上代碼、組件庫等等,有數(shù)百個文件,大小也來到了40多兆。


拿到同樣任務(wù)的Opus 4.6,交付的結(jié)果如下:


從結(jié)果上來看,即便是我們?nèi)藶榻oGLM-5.1上強度,它交付的結(jié)果也和Opus 4.6的結(jié)果保持在相似的水平線上。在保持原有功能、優(yōu)化代碼結(jié)構(gòu)等多重任務(wù)中,GLM-5.1仍然完成了高質(zhì)量的方案設(shè)計與執(zhí)行,充分驗證了其在復(fù)雜開發(fā)和維護任務(wù)中的工程化能力。

結(jié)語:開源模型長程任務(wù)能力突破:從“回答問題”到“交付項目”

頂尖開源模型,正極大地拉近與閉源模型的差距。長程任務(wù)是Claude引以為傲的能力之一,模型不僅要會寫代碼,還要像人一樣在數(shù)小時內(nèi)保持目標(biāo)感、處理意外、自我糾偏、并堅持到最后一刻。

過去,這一直是閉源模型的護城河,也是開源模型難以逾越的分水嶺。

智譜稱,GLM-5.1是全球第一個在真實工程任務(wù)中驗證了8小時持續(xù)工作能力的開源模型。同時,我們的實測也顯示,GLM-5.1不是靠“更長的上下文窗口”去死記硬背,而是真正學(xué)會了“規(guī)劃→執(zhí)行→檢查→修復(fù)→交付”的完整工作流。

大模型正在從“回答問題”走向“交付項目”。在這一方向上,GLM-5.1已具備了在真實、混亂、長周期的工程環(huán)境中,獨立承擔(dān)任務(wù)的底氣。


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
AI降低創(chuàng)業(yè)門檻,高管希望孩子不讀大學(xué)直接創(chuàng)業(yè)

AI降低創(chuàng)業(yè)門檻,高管希望孩子不讀大學(xué)直接創(chuàng)業(yè)

IT之家
2026-04-08 18:46:13
深度解讀:中俄否決霍爾木茲海峽提案

深度解讀:中俄否決霍爾木茲海峽提案

楓嶺社
2026-04-08 15:28:46
中國最丑18大建筑:南京衛(wèi)生巾、昆山螃蟹,不忍直視!

中國最丑18大建筑:南京衛(wèi)生巾、昆山螃蟹,不忍直視!

秘密即將揭曉
2026-03-25 16:56:26
王輔一將軍逝世,生前被譽為“軍史活辭典”

王輔一將軍逝世,生前被譽為“軍史活辭典”

澎湃新聞
2026-04-08 22:32:27
輸廣廈有喜有憂!高詩巖陶漢林覺醒,邱彪上瓊斯自殺,陳林堅連崩

輸廣廈有喜有憂!高詩巖陶漢林覺醒,邱彪上瓊斯自殺,陳林堅連崩

籃球資訊達(dá)人
2026-04-09 00:08:55
紅34師幸存一團長,55年授中將,臨終遺言:要和他們葬在一起

紅34師幸存一團長,55年授中將,臨終遺言:要和他們葬在一起

歷史龍元閣
2026-04-07 18:10:14
河南8個月大小狗因高度近視,走路時常撞到家具、認(rèn)錯主人,主人花800元給它配了副專屬眼鏡:雖然花費不菲,但看到它重新活蹦亂跳非常值得

河南8個月大小狗因高度近視,走路時常撞到家具、認(rèn)錯主人,主人花800元給它配了副專屬眼鏡:雖然花費不菲,但看到它重新活蹦亂跳非常值得

洪觀新聞
2026-04-08 16:44:20
國內(nèi)將逐步淘汰白內(nèi)障手術(shù)?做完人就瞎了?醫(yī)生告訴你真相

國內(nèi)將逐步淘汰白內(nèi)障手術(shù)?做完人就瞎了?醫(yī)生告訴你真相

健康之光
2026-03-12 13:55:08
蓉城球迷還想念他倆嗎? 徐正源曬出他跟萊切特合影,引發(fā)熱議

蓉城球迷還想念他倆嗎? 徐正源曬出他跟萊切特合影,引發(fā)熱議

懂個球
2026-04-09 01:01:28
村婦堅稱軍馬吃了自家粟谷,石敬瑭:把馬殺了,沒有粟谷就殺村婦

村婦堅稱軍馬吃了自家粟谷,石敬瑭:把馬殺了,沒有粟谷就殺村婦

收藏大視界
2026-03-22 22:16:23
43歲賈玲解散公司拒上春晚,多年消失真相終于大白

43歲賈玲解散公司拒上春晚,多年消失真相終于大白

書慧我心
2026-04-06 04:18:35
上海人下班早點回家!預(yù)警已發(fā)布!很多人凌亂了:風(fēng)大得幾乎走不動……

上海人下班早點回家!預(yù)警已發(fā)布!很多人凌亂了:風(fēng)大得幾乎走不動……

環(huán)球網(wǎng)資訊
2026-04-08 17:48:03
六世達(dá)賴:白天是西藏權(quán)力最大的王,晚上是拉薩街頭最風(fēng)流的情郎

六世達(dá)賴:白天是西藏權(quán)力最大的王,晚上是拉薩街頭最風(fēng)流的情郎

野蠻不失女人心
2024-09-29 03:05:03
100人擠一間,睡鋼板,剃光頭:探秘世界最大“超級監(jiān)獄”

100人擠一間,睡鋼板,剃光頭:探秘世界最大“超級監(jiān)獄”

花小貓的美食日常
2026-04-09 00:21:59
意大利連續(xù)3屆世界杯出局,23歲后衛(wèi)把痛苦轉(zhuǎn)嫁給阿森納對手

意大利連續(xù)3屆世界杯出局,23歲后衛(wèi)把痛苦轉(zhuǎn)嫁給阿森納對手

籃壇第一線
2026-04-09 01:03:24
事實證明,73歲無兒無女的遲重瑞,早已被陳麗華“安排”好了后路

事實證明,73歲無兒無女的遲重瑞,早已被陳麗華“安排”好了后路

娛說瑜悅
2026-04-08 20:07:18
中日破裂,這是53年來對日最強硬的外交表態(tài)!

中日破裂,這是53年來對日最強硬的外交表態(tài)!

見聞致
2025-11-15 21:21:56
上海17連勝廣東逆轉(zhuǎn)北京勝山東榮CBA積分榜出爐

上海17連勝廣東逆轉(zhuǎn)北京勝山東榮CBA積分榜出爐

小齊艱難度日
2026-04-09 01:26:45
一旦武統(tǒng)臺灣,這4個臺灣人必上“斬首”名單,一個都跑不掉!

一旦武統(tǒng)臺灣,這4個臺灣人必上“斬首”名單,一個都跑不掉!

超喜歡我
2026-04-06 13:24:09
天助C羅:1-1,C羅爭冠勁敵遭沙特聯(lián)第9逼平,落后利雅得勝利4分

天助C羅:1-1,C羅爭冠勁敵遭沙特聯(lián)第9逼平,落后利雅得勝利4分

側(cè)身凌空斬
2026-04-09 01:56:47
2026-04-09 02:39:00
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級。
11534文章數(shù) 117025關(guān)注度
往期回顧 全部

科技要聞

造出地表最強AI,卻死活不給你用!

頭條要聞

伊朗武裝部隊:伊朗對美以絕不信任

頭條要聞

伊朗武裝部隊:伊朗對美以絕不信任

體育要聞

40歲,但實力倒退12年

娛樂要聞

侯佩岑全家悉尼度假,一家四口幸福滿溢

財經(jīng)要聞

天津海河乳業(yè)回應(yīng)直播間涉黃

汽車要聞

20萬級滿配華為全家桶 華境S是懂家庭的大六座

態(tài)度原創(chuàng)

健康
房產(chǎn)
本地
公開課
軍事航空

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

房產(chǎn)要聞

正式動工!珠城馬場地塊,簽約華爾道夫!

本地新聞

跟著歌聲游安徽,聽古村回響

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

文化符號當(dāng)“彈藥” 美伊將信息戰(zhàn)帶入新階段

無障礙瀏覽 進(jìn)入關(guān)懷版