網易首頁 > 網易號 > 正文申請入駐

深入談談GLM-5-Turbo：先有模型，后有Agent

2026-03-16 11:19:39　來源: 沃垠AI

四川舉報

分享至

大家好，我是最近有點焦慮的冷逸。

焦慮的原因是，龍蝦太火了，市面上魚龍混雜，大家體驗后覺得不過如此，又把它給卸載了，回到過去“能工智能”的老路。

以至于網上有個段子：有人花499請人上面安裝OpenClaw，在用了幾天后實在難用而且又不知道怎么刪除，于是花了299找人上門卸載，結果卸載后電腦藍屏，只得再花1000找人恢復數據。

圖由Lovart生成

普及Agent本是好事，但如因為濫竽充數導致人們對AI大失所望，反而會透支行業信用。

所以，又挺讓人焦慮的。

我在很多地方都分享過一個觀點：用好龍蝦，關鍵在于模型和Skills。

如果沒有好的底層模型，沒有找到好的場景Skills，那還真不如“能工智能”，畢竟人可以無限Token，微信直接發布命令……

模型這塊，現在已經有幾個不錯的模型了，比如GPT-5.4、Claude Opus 4.6、Gemini 3 Flash等。

但說實話，真不便宜，而且也有門檻，很多人用不了。

今天，智譜發布了「全球首款龍蝦模型」GLM-5-Turbo，專門針對龍蝦工作流進行優化。

在ZClawBench上取得了僅次于Claude Opus 4.6的全面表現，相比自己的GLM-5更是提升顯著。

ZClawBench大家可能比較陌生，我給大家簡單介紹一下。這是一個基于大量OpenClaw的真實用例，專門用來評估模型在真實工作流中執行能力的測評基準。

不同于傳統的Benchmark，ZClawBench更接近Agent能力測評，不只是看模型會不會答問題，而是看模型能不能完成一件完整的事情。

龍蝦任務講求成功率，并不是模型的參數越大越好，而是要專門對Agent任務（比如工具調用、多步規劃）進行優化，同時兼顧推理效率（也就是速度）。

所以，一般是用推理效率更高的中端或輕量級模型來跑龍蝦，任務成功率會更高一些。GLM-5-Turbo，便是基于GLM-5基座調優出來的龍蝦增強模型。

很多人玩龍蝦，喜歡用它來做定時任務，但你發覺沒有，經常定著定著它就沒有時間觀念了，可能隔幾天就忘記了前面的設定。

這本質上是模型長文本instruction following能力的缺陷，導致它容易“失憶”，或者無法被喚醒。

針對這個問題，GLM-5-Turbo進行了專項優化，不僅能拆解復雜指令、指揮多智能體協作，還能在“時間維度”上保持對指令的長期記憶，確保長任務持續執行不斷線。

所以，它很擅長處理定時和持續性任務，能夠保持長任務不中斷。

如果你最近有用過澳龍（AutoClaw），你就會發現上面多了一個叫Pony Alpha-2的模型。

在海外，有很多老哥猜測這到底是什么模型。比如@Numman Ali 就說，Pony Alpha-2看起來像Opus級別的模型。

今天，智譜官方揭曉：這其實就是GLM-5-Turbo。

我們也第一時間在澳龍里測了測，給大家看下我的一手體驗。

我的任務是：

到豆瓣 https://movie.douban.com 搜索最近熱門的電影，結合熱度、評分和上映時間綜合篩選10部電影給我，整理成Excel表格，并根據Excel表格的信息設計一個可視化HTML，最后把Excel和HTML一并發到我的飛書上。

這個任務其實挺復雜的，澳龍要自己上網篩選信息→總結內容→生成表格→編寫代碼→自動發送到飛書。

這里面一共有5步，分別調用了搜索工具、文檔工具、IM接口和模型Coding能力，很多模型走到第3步就崩了。

問題出在哪？會聊天≠會干活。

龍蝦任務需要的是連續執行、精準調用工具、長時間不斷線……這些，通用模型沒有專門訓過，根本就不會。

而搭載了GLM-5-Turbo的澳龍，它真的把Excel和HTML就直接給了我。

是的，就直接給了我，連過程它都沒有輸出幾句廢話……是不是像極了你們公司剛入職賣力干活求轉正的新員工？

那來看下最終的結果呢？

臥槽，我還以為我打開的會是一個一看就是Python寫的原始表格。沒想到，它連配色、排版這些都考慮到了，我直接就可以用。

生成的可視化網頁，這塊我完全相信GLM模型的Coding能力。

接著，我又測了一個任務，這是我很早就想做的定時任務，讓大模型來監控DeepSeek，看他們公司究竟什么時候發新模型。

一旦有新動態，第一時間通過飛書滴我。

任務需求是：

這是DeepSeek的4個官方信息發布渠道：
https://github.com/deepseek-ai
https://huggingface.co/deepseek-ai
https://www.xiaohongshu.com/user/profile/66821202000000001b01a005
https://x.com/deepseek_ai

 請監控這4個url，每隔30分鐘給我匯報一次DeepSeek的最新動態，并通過飛書反饋給我。

 需要注意：
1.如果DeepSeek有發布新模型/新消息，請匯報詳細情況，并貼出信息地址；如果無新消息，也要匯報，但是內容略。
2.如果DeepSeek發布了新模型（比如DeepSeek V4），請第一時間通過飛書滴我，緊急告知。
3.僅監控這4個渠道。
4.2025年以前的消息都可以忽視，只看2026年以后的。

真的，一開始我都不抱希望，因為這里面涉及到各種反爬機制，很多模型大概率會失敗。

之后，我就去吃飯了。2個小時后回來，沒想到它真的開始監控了。

并成功通過飛書推送了監控報告。到發稿，我這個定時任務依然還在跑著。

它創建這個定時任務的思考過程超長超長，但你別管人家怎么想的，最終就是搞定了。

我只能說，真的，智譜。

這真的解決了我很早就想做但一直沒能去做的需求問題，而今天我只口噴了幾句提示，GLM-5-Turbo就接管了我的需求。

價格方面，這次智譜專門搞了個龍蝦套餐，支持個人和Team訂閱。

Claw體驗月卡，3500萬Tokens，39元/張；
Claw進階月卡，1億Tokens，99元/張。

說實話，對于高頻養蝦戶來說，1億Tokens可能不太夠。

之前GLM模型就一直供不應求，我估計這個龍蝦套餐也會很快售罄（還是算力緊張給影響的），需要的朋友，得早點下手了。

訂閱地址：https://www.bigmodel.cn/claw-plan-team

除Claw套餐外，他們家的Coding Plan Max套餐已經支持GLM-5-Turbo。很幸運，我在春節前就買了他們的Max套餐，現在算是實現了“GLM模型自由”。

真的，還是那句話，底層模型太重要了。

沒有優秀的底層模型，即使你的Agent框架設計得再好，soul、memory、Heartbeat、skills設計得再漂亮，也是白搭。

先有模型，后有Agent。

最近，我看到一個觀點：

「大模型，不是一個只安靜呆在底下給你調API的基礎設施，它本身就是智能，就是認知，就是那個會持續進化、持續吞并、持續往上吃的東

西。」（by@Melly在硅谷）

深感認同！我們不應被Agent表面的繁榮轉移了注意力，底層模型的進化，才是定義這個時代的根本力量。

框架和應用可能是時代的弄潮兒，但只有模型本身才是推動這個時代的潮水。

所以，我是真的很高興，今天能夠看到有這么厲害的國產龍蝦模型面世。

最后，再分享一個行業細節：近期，OpenAI內部已經將核心KPI從傳統的DAU（日活躍用戶數）轉向了TPD（每日Token消耗量）。

這什么意思呢？未來衡量AI的價值不是有多少人在用，而是AI替人類干了多少活。

不知道大家有沒有注意，現在提Token，大家也都能明白，都能理解了，并不需要你給他科普 1 Token到底等于等于幾個漢字、幾個單詞。

沒人在乎Token的具體含義，但人人都在談Token。

這就是，時代真的變了。

而我們，每個人都成了時代的一份子。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.