聽雨 發自 凹非寺
量子位 | 公眾號 QbitAI
國產大模型,開卷視覺編程,主打一個AI看著草圖就能vibe coding。
前腳千問剛發完Qwen3.5-Omni,后腳智譜就上新了多模態Coding基座模型——GLM-5V-Turbo
給它一個鏈接,它能直接復刻整個網頁前端,還是能理解頁面結構和背后交互邏輯的內種:
![]()
或者給它一個草圖、設計稿或者網站截圖,它也能立刻生成完整可運行的前端工程,還準確還原版式和配色:
![]()
這波產品經理狂喜,完全可以自己零門檻做出demo,再拿去跟開發討論。
要不Vibe Coding換個詞,以后改叫Vision Coding?(doge)
GLM-5V-Turbo還讓龍蝦長出了眼睛,可以解讀復雜圖表。
配合AutoClaw已上線的“股票分析師”Skill,龍蝦能直接看懂K線走勢、估值區間圖和券商研報圖表,還能生成圖文并茂的報告。
跑分上,GLM-5V-Turbo也是表現突出,在多模態Coding、Agentic任務以及純文本Coding上都實現了對Claude Opus 4.6的超越。
![]()
在設計稿還原、視覺代碼生成、多模態檢索與問答、視覺探查等基準上,GLM-5V-Turbo都相當領先。
而在衡量真實GUI環境操控能力的AndroidWorld、WebVoyager等基準上,同樣表現突出。
![]()
在純文本Coding能力方面,GLM-5V-Turbo的表現同樣保持穩定。這說明視覺能力引入后,純文本編程與推理能力保持了同等水準
重點是,價格也很可觀。
![]()
也難怪有網友銳評:Claude Code的時代結束了。
![]()
一張草圖畫出前端
話不多說,上一手實測。
先來考考GLM-5V-Turbo的Vision Coding能力:給它一張草圖,讓它畫出產品前端。
![]()
圖,是真的隨手畫的,非常簡單。不過看不懂沒關系,我們再加上提示詞:
- 根據草圖設計一個音樂播放器的前端界面,左側是音樂播放頁面,右側是好歌推薦和音樂播放列表,深色背景,古典風格。
![]()
GLM-5V-Turbo的反應很快,大概十幾秒的時間,它已經給我寫出了HTML和CSS代碼。
在vision coding的過程中,你也可以不斷與它交互,讓它按你的要求修改。比如一開始它做出的效果我不太滿意,又讓它修改了兩三次。
![]()
最后得到了這樣一個前端頁面:
![]()
左側是音樂播放器,點擊“播放”鍵會有唱片播放或停止的效果,左右也可以切歌。
右側上方是好歌推薦,下方是播放列表,和我畫的草圖基本一致。
點擊播放列表的每一首歌,左側的播放頁面也會相應切換,基本的交互功能已經有了,頁面色調和風格也比較符合提示詞要求。
美中不足的是,左下角不起眼的“順序/隨機”播放按鈕,點擊后不會真的按照邏輯切歌,還處于擺設的狀態。
接下來如果想優化,可以進一步給模型提需求。
我們再來看看另一個case——讓GLM-5V-Turbo解讀論文。
![]()
這是一篇來自馬薩諸塞大學的經濟學實證研究論文,里面復雜的公式和圖表很多。
但是GLM-5V-Turbo的優勢就在于——可視化
它直接幫我們拆解了整篇論文的結構,把核心發現、主要結論和相應圖表都提煉了出來,還生成了一個圖文并茂的報告。
![]()
這對于外行來說太友好了,掃一眼就能大概看懂這篇研究在做什么,每個圖表對應的含義是怎樣的。
轉念一想,這其實也相當于另一個形式的ppt?學生黨做論文pre都可以直接拿來用了。
給龍蝦安上“眼睛”
智譜這次還特別拓展了龍蝦的任務邊界,給自家澳龍安上了“眼睛”。
在AutoClaw中選擇GLM-5V-Turbo模型,你就可以讓它瀏覽網頁和文檔,做報告和PPT,還可以解讀復雜圖表。
澳龍已經上線了“股票分析師”skill,完美適配GLM-5V-Turbo解讀復雜圖表的能力。
我在飛書上給它截圖了一張英偉達股票圖,讓它幫我分析一下。
![]()
沒過多久,它就給我生成了一份圖文并茂的分析報告:
![]()
整體內容還是挺詳細的,還給出了基本面分析和操作建議,簡單作為一個參考是足夠了的。
這么強,咋做到的?
據官方介紹,GLM-5V-Turbo在模型架構、訓練方法、數據構造、工具鏈四個層面都做了升級:
第一,原生多模態融合。
GLM-5V-Turbo從預訓練階段就把文本和圖像能力一起訓練,后面再通過進一步優化,讓兩者配合更默契。
同時,他們做了一個新的視覺編碼器(CogViT),在識別物體、理解細節、空間關系這些能力上都更強。
再加上一個更適合多模態推理的結構(MTP),整體推理效率也更高。
第二,30+ 任務協同強化學習。
在強化學習階段,模型同時訓練了30多個任務,覆蓋STEM推理、圖像定位(grounding)、視頻理解、GUI操作等多個方向。
這樣帶來的好處是:模型不只是某一項能力強,而是感知、推理、執行整體更均衡,也更穩定,避免了只在單一領域“偏科”。
第三,專門為Agent能力設計數據。
Agent最大的難點是:數據少、而且很難驗證對不對。
智譜的做法是:
- 搭了一套從“看懂元素”到“預測一連串動作”的訓練體系;
- 用合成環境大規模生成可控、可驗證的數據;
- 甚至在預訓練階段就提前加入Agent相關能力(比如GUI操作數據),減少模型幻覺。
另外,還用了類似“以評估反推能力”的方法,用多模態任務去倒逼模型變得更像一個能干活的Agent。
第四,把工具鏈從“純文本”升級到“能看能操作”。
除了原有的文本工具,GLM-5V-Turbo新增支持多模態搜索、畫框、截圖、讀網頁等多模態tools。
這意味著模型能真正做到一整套閉環:看懂環境 → 規劃步驟 → 動手執行。
而且它和Claude Code、AutoClaw這些工具的配合也更好了,整體更接近一個能實際完成任務的智能體。
目前,新模型在Z.ai和AutoClaw上都可以體驗,也支持API調用,感興趣的朋友快去試試吧~
體驗地址:
AutoClaw(澳龍):https://autoglm.zhipuai.cn/autoclaw/
Z.ai:https://chat.z.ai
API接入:
https://docs.bigmodel.cn/cn/guide/models/vlm/glm-5v-turbo
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.