337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

GLM-5技術報告精讀:多步任務強化學習,如何訓出最好的開源編程Agent

0
分享至

智譜最近站在了風口浪尖上。

1月8日港股上市,45天市值漲了超500%,一度突破3200億港元。


資本市場的熱度還沒消化完,技術社區又炸了——智譜GLM-5技術報告公開,40頁,把這款模型如何從「AI輔助寫代碼」進化到「自主完成工程任務」的底層路徑,完整交出來了。

a16z最近發了一張圖,表示開源模型和閉源模型的差距正在快速縮小,GLM-5作為現階段最好的開源模型,已經極大拉小了和Claude Opus 4.6的距離。


說起來,過去兩個月我寫了四篇論文解讀——全是DeepSeek的。R1從22頁擴到86頁那篇、mHC殘差連接那篇、Engram記憶論文那篇、OCR 2視覺因果流那篇。寫到后來我自己都在想,是不是要改名叫「DeepSeek論文博主」了。

所以這次換一家。2月17日,智譜發了GLM-5的技術報告,40頁,標題挺有意思:「GLM-5: from Vibe Coding to Agentic Engineering」——從氛圍編程到智能體工程。


之前我寫過一篇GLM-5的體驗文章(從GLM-4.5到GLM-5,我見證了一個模型從碼農晉升為架構師),聊的是使用感受。這次不一樣,我想認認真真地把這40頁論文拆開,看看里面到底寫了什么。

先看成績單

GLM-5的規格:744B總參數,MoE架構,256個專家每次激活8個,實際推理時活躍參數約40B。預訓練數據28.5T tokens,成績確實猛。

Artificial Analysis的Intelligence Index拿了50分,開源模型首次達到這個水平。


SWE-bench Verified 77.8%,開源最高。BrowseComp(聯網檢索,配合上下文管理)75.9%和MCP-Atlas(工具調用)67.8%,論文稱是全模型最高——不是開源最高,是包括Opus、GPT、Gemini在內所有模型里的最高。


論文里還有一個自研的CC-Bench-V2評測,包含前端開發、后端開發和長周期Agent三類任務。在這個基準上,GLM-5整體和Claude Opus 4.5接近。論文很坦誠地承認了一些不如Opus的地方——比如需要極強審美判斷的前端任務。這種坦誠在技術報告里不多見,至少說明數據可信度比較高。

成績單到這里,一個問題自然冒出來:資本市場和技術社區為什么同時這么看好GLM-5?

我覺得有兩個層面。

第一個是定位。論文標題說得很直白:from Vibe Coding to Agentic Engineering。翻譯過來就是,從「程序員用AI輔助寫代碼」變成「Agent 7×24小時自主完成工程任務」。之前的AI編程是人在循環里——人提需求、AI寫代碼、人檢查、人修改。Agentic Engineering是把人從循環里拿出來,Agent自己規劃、自己寫、自己測、自己改bug。

這個轉變意味著什么?意味著AI消耗token的方式從「一次性對話」變成了「持續運轉」。一個Coding Agent跑一個SWE-bench任務可能要消耗幾萬甚至幾十萬token。當Agent成為主要的token消費者,誰的模型最適合做Agent,誰就占據了最大的商業想象力。GLM-5就是沖著這個定位去的。

第二個是技術。讀完40頁論文,我發現GLM-5的創新主要集中在兩個階段:預訓練階段有兩個巧妙的工程改進,后訓練階段有一套完整的Agent RL訓練體系。后者是重頭戲,但前者也值得先說。


預訓練:兩個巧妙的工程改進

第一個:讓兩個好工具一起工作。

GLM-5同時用了兩項技術:MLA(一種壓縮記憶的方法,省顯存)和Muon(一種更快的訓練優化器)。各自都是好東西,但放在一起會打架。

打個比方:MLA的工作方式是把所有信息打包成一個壓縮包,整體處理。Muon的工作方式是把信息拆開,一份一份獨立優化。一個要打包,一個要拆包,硬放一起訓練效果就變差。

智譜的解法很樸素——在中間加一步:先把壓縮包拆開讓Muon逐份優化,優化完再打包回去給MLA用。論文里管這個叫Muon Split。實驗數據顯示,這一拆一合確實改善了訓練效果。


第二個:共享參數的多步預測。

MTP是一種加速推理的技術——讓模型一次預測接下來的多個詞,而不是一個一個蹦。DeepSeek用1個預測層來做這件事。GLM-5更大膽:用3個預測層,但讓這3層共享同一套參數。

直覺上,3個獨立的預測層應該更強——各自專精嘛。但共享參數的方案逼著模型學會一種更通用的「多步預測能力」。就像下棋,一個人用同一套棋理連想三步,比三個人各想一步更連貫。

測試數據也證實了這一點:同樣的推理步數下,GLM-5每次預測被接受的詞數比DeepSeek多約8%,推理更快。

這兩個改進都不是會上頭條的大突破。但做法本身說明一件事:光用好技術不夠,還得讓這些技術在一起配合得好。

后訓練的重頭戲:Slime異步Agent RL

預訓練的改進偏「小而美」。后訓練階段才是GLM-5真正的主戰場,其中最核心的創新是異步Agent RL框架,智譜內部叫「Slime」。


如果說DeepSeek的GRPO讓整個行業記住了一種新的強化學習優化方式,那Slime要解決的問題更往前一步——不是「怎么優化RL」,而是「怎么讓Agent RL大規模跑得起來」。這可能是整篇論文里信息密度最高、也最有行業價值的部分。

先解釋為什么Agent RL特別難。

傳統的RL訓練是這樣的:模型生成一段文本(比如做一道數學題),環境給個分數,模型根據分數調整參數。整個過程很快,因為「生成答案」和「打分」都可以在GPU集群內部完成。

但Agent RL不一樣。模型不是在做一道題,而是在執行一個完整的任務——比如修復GitHub上的一個bug。這意味著模型需要讀代碼、寫代碼、運行測試、看報錯信息、再修改。這個過程可能需要幾十輪對話,每輪都要調用外部工具(代碼編輯器、終端、瀏覽器)。

一個SWE-bench任務的rollout(從頭到尾跑完一個任務)可能要花幾分鐘甚至幾十分鐘。而傳統的數學推理RL,一次rollout只要幾秒。

這就造成了一個嚴重的效率問題。在Agent RL場景下,絕大部分訓練時間都花在了rollout generation上。GPU集群的大部分時間都在等——等外部工具返回結果。

傳統的同步RL框架(比如OpenRLHF、verl)解決不了這個問題,因為它們假設生成和訓練是緊耦合的:生成一批、訓練一批、再生成一批。當生成要等幾十分鐘時,整個訓練流水線就卡住了。

智譜的解法是完全解耦生成和訓練。

Slime框架的架構是這樣的:

Rollout服務器集群:一堆獨立的服務器,每臺負責執行一個Agent任務(讀代碼、調終端、跑測試)。它們有自己獨立的GPU做推理,任務跑完就把trajectory(完整的執行軌跡)發回來。

訓練集群:另一堆GPU,只負責根據收到的trajectory做參數更新。不等,有數據就訓練。

TITO網關(Token-In-Token-Out):這是一個很巧妙的中間層。它接收外部服務器發來的文本,用當前版本的分詞器轉成token,再發給模型。模型返回的token也由它轉回文字。

TITO為什么重要?因為在異步RL里,rollout服務器上跑的模型版本可能和訓練集群上的不一樣——你生成的時候是v1.3,等你的數據到了訓練集群,模型可能已經更新到v1.5了。如果直接拿v1.3的token去給v1.5的模型訓練,分詞器都可能對不上(比如v1.5新加了特殊token),就會出錯。

TITO網關通過統一的文本中間層解決了這個問題:不管你哪個版本生成的,我都先轉成文本,再用當前訓練版本的分詞器重新編碼。保證token永遠和模型版本匹配。

另一個問題是off-policy數據的穩定性。因為生成和訓練不同步,訓練集群收到的數據可能來自好幾個歷史版本的模型。用歷史版本的數據訓練當前版本的模型,如果不加處理,訓練會不穩定甚至崩潰。

智譜用了一個叫「雙側重要性采樣」的方法來處理。傳統重要性采樣只用一個比率(舊策略vs新策略的概率比),Slime用兩個:一個控制token級別的重要性權重,一個控制整個樣本級別的。兩個一起用,既保證了數據利用效率,又不會因為某個極端樣本把訓練帶跑偏。

這整套系統不是論文里隨便寫寫的。智譜已經把Slime框架開源了(github.com/THUDM/slime) ,任何團隊都可以直接用。

拆開來看,Slime的貢獻其實是兩層的:底層是異步RL基礎設施——把生成和訓練徹底解耦,讓GPU不再干等;上層是異步Agent RL算法——TITO網關和雙側重要性采樣,讓異步訓練在數學上也站得住腳。基礎設施解決「跑得起來」,算法解決「跑得穩當」。

我覺得這是GLM-5論文里最值得關注的創新。所有想做Agent的團隊都知道Agent RL效果好,但傳統同步框架讓訓練效率低到不可接受。Slime給出了第一個系統級的解法。這件事的意義,可能要等更多團隊用上這個框架之后才能完全顯現。

三階段RL:順序決定命運

異步RL解決了效率問題。但還有一個更根本的問題:你要讓模型學什么?

GLM-5的RL訓練分三個階段,順序很講究:

第一階段:Reasoning RL——教模型「想」。用MATH、AIME、代碼競賽這些有明確對錯的任務來訓練。這個階段的目標是建立基礎推理能力。

第二階段:Agentic RL——教模型「做」。用SWE任務(修復真實GitHub bug)、終端任務、多跳搜索任務這些長周期Agent任務來訓練。這個階段用的就是前面說的Slime框架。

第三階段:General RL——教模型「當人」。用開放對話、創意寫作、角色扮演這些任務來訓練。這個階段讓模型不只是一臺推理機器,還是一個有品味、有性格的對話伙伴。


為什么順序重要?

因為后面的階段會讓模型忘掉前面學到的東西。這個問題在機器學習里叫「災難性遺忘」。你訓練模型學會了修bug,再訓練它聊天寫作,它修bug的能力就可能退化。

就像一個人去學了烹飪,不代表他會忘記開車。但對于神經網絡來說,這種遺忘是真實存在的。

GLM-5的解法叫「On-Policy Cross-Stage Distillation」(在線跨階段蒸餾)。做法是:在第二階段訓練時,同時用第一階段的最佳模型作為「老師」,讓學生模型在學新技能的同時保持舊技能。第三階段同理。

論文里給了具體數據:沒有蒸餾時,從Agentic RL進入General RL階段后,SWE-bench得分從77.8%掉到73.2%。用了跨階段蒸餾后,基本不掉分。

這個技巧挺實用的。我之前寫DeepSeek R1論文解讀時提到過,R1團隊也遇到了RL訓練導致能力退化的問題,他們的做法是在訓練數據里混入歷史數據。GLM-5的蒸餾方案更系統——不只是混數據,而是讓當前模型持續向歷史最佳版本學習。

Agent場景下的三種思考模式

RL訓練之外,GLM-5在推理策略上也有自己的設計。

傳統的「思考型模型」(比如DeepSeek R1、o1)在回答之前會先做一段長長的內部推理,放在 標簽里。這種模式對數學題和編程題很有效。

但Agent任務不一樣。Agent需要執行很多輪對話——讀文件、改代碼、跑測試、看結果、再改。如果每一輪都做一大段思考,上下文窗口很快就被撐爆了。

GLM-5設計了三種思考模式來應對不同場景:

Interleaved Thinking(交錯思考):每輪對話都思考,但思考內容比較短。適合需要持續推理的場景。

Preserved Thinking(保留思考):只在第一輪做深度思考,后續輪次直接執行。思考內容會保留在上下文中供后續參考。適合任務明確、執行步驟多的場景。

Turn-level Thinking(輪次級思考):每輪獨立思考,但不保留歷史思考內容——上一輪的 在下一輪會被清除。適合上下文緊張的長任務。


這三種模式的切換是通過系統提示詞來控制的。論文里給了一個有意思的實驗:在SWE-bench任務上,Turn-level Thinking的效果比Interleaved Thinking好約2個百分點。原因是SWE-bench需要很多輪交互,Interleaved模式的思考內容太多會擠占真正有用的代碼和報錯信息。

這種設計挺實用的。核心不是「思考越多越好」,而是「什么時候該想、什么時候該干活,得分場景」。

一個有意思的細節

論文里還有一個有趣的案例值得單獨拎出來。

幻燈片生成的多層獎勵。GLM-5能生成PPT幻燈片(通過寫HTML/CSS再渲染)。訓練這個能力時,獎勵函數的設計分了三層:

第一層是靜態檢查——HTML代碼有沒有語法錯誤、CSS屬性用得對不對。

第二層是渲染檢查——渲染出來的頁面字有沒有溢出、元素有沒有重疊。這需要用Playwright把HTML渲染成圖片再檢查。

第三層是視覺感知——用另一個VLM(視覺語言模型)來評價渲染結果好不好看。

但這里出了一個經典的reward hacking問題:模型學會了一種「作弊」方式來騙取高分——用純黑背景加白色文字。因為純黑背景上白字的對比度最高,VLM評判時容易給高分。但生成出來的PPT全是黑底白字,完全沒有設計感。

智譜的修復方案是在第三層獎勵里引入參考幻燈片對比——不只是問「好不好看」,而是問「跟優秀案例比怎么樣」。

這種reward hacking的故事在RL文獻里很常見,但每次看到具體案例還是覺得有趣。它說明了一件事:訓練AI的難度不在于讓它「做到」,而在于讓它「做對」。

國產芯片適配:不只是一句口號

論文里有一章專門寫了國產芯片適配。GLM-5從發布之初就原生適配了國產GPU生態,覆蓋7家主流芯片平臺:華為昇騰、摩爾線程、海光、寒武紀、昆侖芯、沐曦、燧原。

不少媒體在報道這件事時就寫了一句「全棧國產」然后帶過。但論文里的細節比這豐富得多。

以華為昇騰Atlas系列為例,智譜做了從量化到推理引擎的全鏈路優化——W4A8混合精度量化讓單臺服務器裝下750B參數,定制融合算子解決稀疏注意力的計算瓶頸,深度適配vLLM-Ascend和SGLang兩大推理引擎。最終效果是:GLM-5在單臺國產算力節點上的推理性能,足以媲美兩臺國際主流GPU集群。

7家芯片的架構各不相同,指令集不同,編程模型不同。要在7個平臺上都能跑GLM-5,意味著很多底層算子得重寫7遍。這不是什么「突破性創新」,但它是實打實的工程苦活。

我之前寫DeepSeek論文解讀時提過一個觀察:DeepSeek的很多技術突破其實是「工程驅動」而非「理論驅動」的——他們不是先想到一個新理論再去實驗,而是在工程實踐中遇到問題、被迫想出解決方案。

智譜在國產芯片上的適配也是同樣的邏輯。你也可以說是「不得不用」,但這個約束倒逼出了一套跨芯片的工程能力,長遠來看反而是競爭優勢。

回到開頭的問題:GLM-5到底做了什么創新?

預訓練階段,Muon Split讓MLA和Muon優化器兼容工作,共享參數MTP把推理速度往上拉了一截。后訓練階段是真正的重頭戲——Slime異步RL框架解決了Agent訓練的效率瓶頸,三階段RL配合跨階段蒸餾防止能力遺忘,三種思考模式適配不同Agent場景。這些創新指向同一個方向:怎么把一個好底座訓成一個好Agent。

這恰好是2025-2026年整個行業的核心戰場。架構層面趨同之后,真正拉開差距的是Post-Training——怎么做RL、怎么訓Agent、怎么防遺忘、怎么設計獎勵函數。GLM-5在這個戰場上拿出了自己的解法,而且把核心框架Slime開源了出去,下一個團隊可以直接站在這個起點出發。

744B參數,28.5T tokens訓練,原生適配國產芯片生態,核心創新開源回饋社區。這篇40頁的技術報告,值得認真讀。

論文鏈接:https://arxiv.org/abs/2602.15763

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
事發上海高架!男子突然情緒失控,沖向前車司機…行為太瘋狂!

事發上海高架!男子突然情緒失控,沖向前車司機…行為太瘋狂!

環球網資訊
2026-03-30 21:19:52
注意!4月1日后去醫院開高血壓糖尿病藥,只帶這3樣就夠用

注意!4月1日后去醫院開高血壓糖尿病藥,只帶這3樣就夠用

王二哥老搞笑
2026-03-31 04:39:48
49歲舒淇承認求子九年:拼盡全力后的和解,才是人生最通透圓滿

49歲舒淇承認求子九年:拼盡全力后的和解,才是人生最通透圓滿

魔都姐姐雜談
2026-03-30 12:24:35
“直接崩了,一天掉了一百多元!”有人瘋狂拋售,國際巨頭接連發布新技術……格局將被改變?

“直接崩了,一天掉了一百多元!”有人瘋狂拋售,國際巨頭接連發布新技術……格局將被改變?

都市快報橙柿互動
2026-03-29 12:26:05
6月1號起,車管所跟你關系不大了

6月1號起,車管所跟你關系不大了

音樂時光的娛樂
2026-03-30 15:57:27
父親是福建人,母親是牙買加人,他落戶上海,或將成為男籃主力

父親是福建人,母親是牙買加人,他落戶上海,或將成為男籃主力

寒士之言本尊
2026-03-30 17:12:18
CBA排名大調整,廣東大勝沖第一,遼寧連敗第八都困難

CBA排名大調整,廣東大勝沖第一,遼寧連敗第八都困難

宗介說體育
2026-03-30 14:14:55
1.1億先生空歡喜,哈弗茨點射建功!2-1絕殺,德國豪取7連勝

1.1億先生空歡喜,哈弗茨點射建功!2-1絕殺,德國豪取7連勝

我的護球最獨特
2026-03-31 04:47:46
保密期限終到期,中央首長透露:毛岸英真相,可以向外界公開了

保密期限終到期,中央首長透露:毛岸英真相,可以向外界公開了

歷史點行
2026-03-29 13:38:28
核武器殉爆?以色列政府發布危險物質泄露,伊朗這回中大樂透了!

核武器殉爆?以色列政府發布危險物質泄露,伊朗這回中大樂透了!

汪鏞的創業之路
2026-03-31 04:08:46
豐田“大力出奇跡”!新車14.78萬起

豐田“大力出奇跡”!新車14.78萬起

手機評測室
2026-03-30 11:50:35
2.3億到手,481天不踢球:讓國足花光預算的小摩托,在巴西躺平了

2.3億到手,481天不踢球:讓國足花光預算的小摩托,在巴西躺平了

綠茵舞著
2026-03-30 23:25:05
菲律賓這件事,開始變了

菲律賓這件事,開始變了

陸棄
2026-03-30 08:15:03
約了2次打賞3萬,抱一下都不讓:女子嫌男主播“下頭男”要其退款

約了2次打賞3萬,抱一下都不讓:女子嫌男主播“下頭男”要其退款

漢史趣聞
2026-03-30 15:41:54
動容!阿根廷主帥淚灑現場+直接結束發布會:為23歲新星重傷惋惜

動容!阿根廷主帥淚灑現場+直接結束發布會:為23歲新星重傷惋惜

風過鄉
2026-03-31 06:49:44
魯山舅舅娶亡姐大結局!新華社通報調查結果,這次終于真相大白了

魯山舅舅娶亡姐大結局!新華社通報調查結果,這次終于真相大白了

王曉愛體彩
2026-03-31 03:12:00
俄羅斯不賣油了!普京禁令一下,遭殃的不是歐洲,而是兩個鄰國

俄羅斯不賣油了!普京禁令一下,遭殃的不是歐洲,而是兩個鄰國

共工之錨
2026-03-31 00:08:35
實探太原怡和巷火災樓棟內部:毀壞最嚴重的飯店防護門焚燒殆盡 桌上留有食客飯菜

實探太原怡和巷火災樓棟內部:毀壞最嚴重的飯店防護門焚燒殆盡 桌上留有食客飯菜

紅星新聞
2026-03-31 02:48:32
蔚來推出包月租車業務:每月2399元起,以租代買真劃算嗎?

蔚來推出包月租車業務:每月2399元起,以租代買真劃算嗎?

數評時代
2026-03-30 21:13:49
英德同時對美展現立場,特朗普僅剩一條路可走

英德同時對美展現立場,特朗普僅剩一條路可走

史政先鋒
2026-03-30 07:11:46
2026-03-31 08:24:49
AI進化論花生 incentive-icons
AI進化論花生
AI博主,AppStore付費榜第一的小貓補光燈app開發者
169文章數 83關注度
往期回顧 全部

科技要聞

一句謊言引發的硅谷血案

頭條要聞

伊朗批準對霍爾木茲海峽征收通行費 特朗普設最后期限

頭條要聞

伊朗批準對霍爾木茲海峽征收通行費 特朗普設最后期限

體育要聞

想進世界杯,意大利還要過他這一關

娛樂要聞

全紅嬋聊到體重哭了,每天只吃一頓飯

財經要聞

本輪地緣沖突,A股憑什么走出獨立行情

汽車要聞

限時12.58萬起 銀河星耀8遠航家系列上市

態度原創

教育
藝術
旅游
游戲
公開課

教育要聞

文科無用論下985/211新傳人就業調查。

藝術要聞

這父子倆的花鳥,堪稱一絕

旅游要聞

擦亮眼睛,看清李逵與李鬼——致所有想加入入境游賽道的同行與伙伴

CEO暗示《GTA6》定價?并非高達100美元!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版