網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

智譜放大招！實測GLM-4.6V，它也太會“看圖做事”了

2025-12-08 21:44:12　來源: 沃垠AI

四川舉報

分享至

這篇文章，由AI一鍵直出??

今天，智譜發(fā)布并開源了GLM-4.6V多模態(tài)模型，一個是向云端服務(wù)的106B基礎(chǔ)版，一個是面向本地部署的9B輕量版。

模型下載：

https://huggingface.co/collections/zai-org/glm-46v

API調(diào)用平臺：

https://www.bigmodel.cn

MCP調(diào)用入口：

https://docs.bigmodel.cn/cn/coding-plan/mcp/vision-mcp-server

開頭這篇文章，便是由GLM-4.6V-106B直接生成。

可以看到，GLM-4.6V除了在視覺理解上能夠“看懂”多模態(tài)內(nèi)容外，還具備工具調(diào)用能力（Function Call）能夠直接做“執(zhí)行”。

官方說，這是一個原生具備多模態(tài)工具調(diào)用能力的模型。比如，可以處理圖文混排、識圖購物、導(dǎo)購以及各種Agent場景的復(fù)雜視覺任務(wù)。

省流：感知→理解→執(zhí)行，都在一個推理鏈里完成，無需外部工程化。

一手實測

我知道，這么說，你可能還是沒懂。下面，我們來看點實際的。

打開Z.ai，選擇模型“GLM-4.6V”，根據(jù)任務(wù)需要選擇合適的工具，開啟“深度思考”，進行體驗。

這里，簡單分享幾點技巧：

①建議所有場景都開啟深度思考，除非是明確的簡單行為，比如OCR識別。
②不需要把所有工具都勾選，建議根據(jù)自己的任務(wù)情況來選擇。比如coding任務(wù)，它不太需要圖像處理、圖像搜索和購物搜索，那就把4個工具都關(guān)掉。
③如果不知道自己需要什么樣的工具，可以點下方的膠囊入口。

這里內(nèi)置了6個場景：識圖搜圖、圖文掃描、文檔解讀、視頻理解、商品比價和數(shù)理解題。

1）復(fù)刻網(wǎng)頁

我們先來復(fù)刻一個網(wǎng)頁，比如復(fù)刻抖音電腦版。

請給我這個網(wǎng)頁截圖的HTML Code，如果網(wǎng)頁包含圖片素材，一定要給我圖片，不要用Placeholder替代。

這是成品，跟抖音網(wǎng)頁版幾乎一模一樣。

復(fù)刻小紅書。

提示詞：復(fù)刻這個網(wǎng)頁。如果網(wǎng)頁包含圖片素材，請聯(lián)網(wǎng)搜索與內(nèi)容適配的圖片進行替代，不要使用占位圖。

復(fù)刻OpenAI News。

提示詞：請給我這個網(wǎng)頁截圖的HTML Code，如果網(wǎng)頁包含圖片素材，一定要給我圖片，不要用Placeholder替代。

個人體驗來看，GLM-4.6V的前端能力離Gemini 3 Pro還差了那么一點。但話又說回來，又有誰的前端能力能比得過Gemini 3呢？

不同的是，GLM-4.6V的前端復(fù)刻支持多輪視覺交互修改，可以在生成的網(wǎng)頁截圖上框選區(qū)域進行修改，比如“把這個按鈕向左移一點，顏色改為橘紅色”。

案例來自官方視頻

2）文檔解讀+寫作

之前，很多模型一直解決不了的圖文同時輸出能力，GLM-4.6V這次做到了。

比如，我們拿一份Transformer論文給它，然后輸入提示詞：

根據(jù)附件論文，寫一篇圖文并茂的微信公眾號文章來介紹這篇論文，語言要通俗易懂、生動有趣，盡量讓小學(xué)生也能聽懂。使用圖文并茂的markdown格式輸出。

然后，就得到了一篇圖文并茂的公眾號文章。

（可上下滑動，查看全圖）

所有配圖都來自論文中的真實架構(gòu)圖和圖表，不是生圖，也不是聯(lián)網(wǎng)找圖。而是模型自己定位內(nèi)容所在的頁面和區(qū)域，然后調(diào)用工具進行截圖和嵌入，輸出圖文并茂的文章。

從對信息的理解，到工具的調(diào)用，到內(nèi)容的生成，均由GLM-4.6V在同一推理鏈路內(nèi)完成。

在我見過的VLM模型中，GLM-4.6V應(yīng)該是第一個做到的，非常牛逼。

它的場景非常豐富，特別是對于我這樣還在堅持圖文創(chuàng)作的博主來說，非常受用。

比如，我們可以讓它對比論文。

提示詞：根據(jù)這兩篇論文的圖表，對比一下Transformer 和 ViT 模型的差異，并思考和闡述下一步改進 ViT 模型的思路。

（可上下滑動，查看全圖）

又比如，讓它直接搜索《瘋狂動物城2》，生成一篇圖文并茂的影評文章。

（可上下滑動，查看全圖）

3）商品比價

最近，為了更快的vibe working，特地買了一個麥克風接電腦上，可以更快的口噴文章、口噴代碼需求。

正好，讓GLM-4.6V幫我比下價，查下大家的評價。

（可上下滑動，查看全圖）

這信息找的，還挺準的。感覺，我以后都不用逛購物平臺了，直接問它就行。

4）識別疑難雜字

豆瓣上有個小組，叫「史上寫字最爛小組」，里面的字個個奇葩，但又個個真實。

畢竟，這世上能寫出好看、齊整字的人，本就鳳毛麟角。相反，那些寫出爛字、疑難雜字的人，才是更普遍的大多數(shù)。

比如，這位爺爺在ICU留下的字，就直接把我干沉默了。

沉默的原因在于，一是我也猜不出這是什么字，二是問了GLM-4.6V也不行，遺憾未能幫到這位朋友。

但這些字，對于GLM-4.6V來說，就小菜一碟了。

比如這個，如果我沒有背過“君不見”這幾個字，我還真不知道他在說什么。

發(fā)給GLM-4.6V，一下子把全文寫出來了。

看到這，我相信你可能也有和我一樣的疑問：是不是因為模型背過這首詩？所以能秒懂。

于是，我又換了張圖。說實話，我根本不懂他想表達什么。

發(fā)給GLM-4.6V后，這下終于懂了。

5）地圖推理

這是我11月去北京在大聰明的酒吧拍的。

問GLM-4.6V，輕松推導(dǎo)出是在北京中關(guān)村創(chuàng)業(yè)大街。

這是我10月去昆明拍的。

它也能輕松推理出是昆明老街，完全正確。

提示詞：你正在參加一場地圖推理游戲，附件的圖片是我11某個早晨在飛機上拍攝的，請盡可能地推導(dǎo)出圖片所在的位置，我要具體的、詳細的位置，比如某某路或者某某街區(qū)。

6）圖片反推

這是來自沃垠AI群里的一張圖片，用戶用NBP生成的，拿來上課非常好使。

我試著用GLM-4.6V反推了一下提示詞。

得到提示詞：

Traditional Chinese ink - wash style educational infographic titled "Water Journey: Chinese Vocabulary Memory Aid", illustrating the water radical (氵) through nature. Features a flowing river (江, Jiāng - River), river (河, Hé - River), lake (湖, Hú - Lake), ocean (海, Hǎi - Ocean), and swim (泳, Yǒng - Swim) with Chinese characters, pinyin, and English translations. Includes mountains, pine trees, waterfalls, clouds, small boats, and swimmers. Soft pastel color palette with beige background, blue water, earthy mountain tones. Composition shows water flow from river to lake to ocean, with arrows indicating direction. Detailed landscape with traditional Chinese artistic elements, suitable for language learning.

中文：傳統(tǒng)中國水墨風格教育信息圖，標題為“Water Journey: Chinese Vocabulary Memory Aid”（《水之旅：中文詞匯記憶輔助》），通過自然展示水部首（氵）。畫面包含流動的江（江，Jiāng - River）、河（河，Hé - River）、湖（湖，Hú - Lake）、海（海，Hǎi - Ocean）和游泳（泳，Yǒng - Swim），配有漢字、拼音和英文翻譯。包含山脈、松樹、瀑布、云朵、小船和游泳者。柔和的 pastel 色彩，米色背景，藍色水域，土色調(diào)的山脈。構(gòu)圖展示水流從河流到湖泊再到海洋，箭頭指示方向。細節(jié)豐富的景觀，具有傳統(tǒng)中國藝術(shù)元素，適合語言學(xué)習。

發(fā)到即夢上，沒想到直接就生成了類似的圖。

以后，用GLM-4.6V做反推真的太容易了。

7）視頻理解

我把GLM-4.6V官方介紹視頻里的多個功能，用3倍速剪在了一塊。

發(fā)給GLM-4.6V問：這支視頻講了什么？

GLM-4.6V的回答還是挺準的，而且精確定位到了幀數(shù)。

從個人實測來看，GML-4.6V的工具調(diào)用能力（Function Call）非常出色，而且是原生就支持。

做到了「圖像即參數(shù)，結(jié)果即上下文」。

雖然在一些能力上（比如寫作、前端）還達不到頂尖，這需要更強力的基模，但這一手工具調(diào)用能力就已經(jīng)是很多VLM不能比的了。

所以，這是一個天然適合做Agentic基座的模型，可以為真實業(yè)務(wù)場景賦能。

自GLM-4.6以來，我們看到，智譜正在開發(fā)者生態(tài)爆發(fā)相當大的潛力。

今天，又一個強力VLM模型來襲，而且已經(jīng)加入智譜Coding Plan。

而這，只是智譜開源周的Day 1。

說實話，有點期待接下來的幾天了。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.