★ 設為星標 | 只講人話,帶你玩轉AIGC。
說到文生圖,大家心里可能都有個“白月光”,那就是谷歌的 Nano Banana Pro(下文簡稱 NBP)。
有一說一,NBP 確實是現階段實打實的王者,尤其是疊加了 Gemini 大模型后,那魔法簡直了。
最讓我佩服的是,它基本解決了 AI 繪圖界的一大頑疾——文字生成,特別是漢字。
但這兩天,我突然發現一款國產工具沖上了熱榜。
我一看,好家伙,它居然在“寫漢字”這個領域,把 NBP 給超了?
![]()
圖:GLM-Image在文字渲染的權威榜單中達到開源 SOTA水平
不僅如此,它還是個開源的。
它就是剛剛上市的 AI 第一股智譜出品的 GLM Image。
廢話不多說,咱們不看參數,直接上“地獄級”實測。
它到底能不能打?
01 終于能聽懂“人話”了,尤其是中文
既然,在寫漢字這個事情上屠榜,那我們就先來試試它。
![]()
提示詞:中國傳統水墨畫風格。畫面是一座雄偉的古樓(鸛雀樓),背景是夕陽依山而落,黃河奔騰入海的壯觀景象。在畫面的留白處,用毛筆行書字體寫下整首唐詩:“白日依山盡,黃河入海流。欲窮千里目,更上一層樓。”畫風古樸典雅,宣紙紋理。
看到這張圖我松了一口氣,字寫得相當準確,沒有出現那種常見的“鬼畫符”的情況。
雖然這個例子對現在的模型來說不算太難,但能把整首詩完整寫對,起碼及格線是穩了。
好,既然簡單的過了,咱們上強度。
![]()
提示詞:一張極具史詩感和科技感的商業電影海報。畫面采用極具視覺沖擊力的人物面部超大特寫,主體是一位中年科技商業領袖男主角,面容滄桑堅毅,目光深邃地直視鏡頭。整個畫面(包括人物面部皮膚、頭發和背景)都疊加著密集的、發光的金色數據流代碼、抽象電路板線條和數字噪點紋理,營造出一種被數字化信息包裹的力量感。整體色調為輝煌、厚重的暖金色調,光影對比強烈。海報下方三分之一處,巨大的粗體金屬質感中文標題“破局者”橫跨畫面,帶有厚重的立體光效。標題上方是較小的副標題“決勝全球芯片戰爭始末”。最底部是小字上映信息:“2025年春節檔震撼上映 | IMAX 3D”。文字排版層級分明,與人物肖像在空間上形成緊密的疊加關系。
坦率說,這張海報的文字處理真的驚艷到我了。
“破局者”三個大字非常有張力,其他小字也都能清晰識別。
看起來,在這個特定領域,GLM Image 真的趕得上 NBP 這種商業閉源神器了。
不過,我感覺它在處理很多文字都時候,不是很穩定,有時候需要多抽幾次卡才能出完美效果。
看下跟 NBP 的對比。
![]()
圖:GLM Image 對比 NBP 的多文字處理
但考慮到它是免費開源的,這點“小脾氣”我覺得完全可以接受。
測到這里,我感覺它還是有點東西。這可能是目前開源模型里,對中文處理最強的。
以前這種圖,Nano Banana 根本沒法處理(Pro 才可以),Midjourney 更是完全不支持中文。
連這些國外商業巨頭都頭疼的問題,讓一個國產開源模型解決了,這不得不佩服。
02 審美在線:從宋詞意境到王家衛美學
光能寫字還不夠,圖畫得丑也不行。
很多國產模型最大的問題是“土”,或者有一股濃濃的塑料“AI 味”,甚至有些默認生成的是外國人。
GLM 的審美在線嗎?畫質和光影呢?
我們細看之前那張圖,非常有電影感,也符合那首宋詞的意境。
![]()
提示詞:一張極具電影感的紀實攝影作品。場景是雨后的清晨,一座古樸典雅的中式庭院。一位身著宋代服飾的女子站在木制窗欞后,輕輕卷起珠簾向外張望。窗外的庭院里,濕潤的地面上散落著被打落的紅色海棠花瓣(紅瘦),而枝頭經過雨水滋潤的綠葉顯得格外翠綠茂盛,掛著水珠(綠肥)。空氣中充滿濕潤感,柔和的自然光。
人的眼睛對人像最敏感,咱們再來個高難度的“王家衛風格”。
![]()
提示詞:一位冷艷的亞洲時尚女性,留著利落的濕發造型(Wet Look),身穿深祖母綠的亮片晚禮服,佩戴夸張的銀色流蘇耳環,材質上形成反光亮片與金屬冷感的碰撞。她側臥在平靜的深藍色水面上,背景是大面積高飽和度的克萊因藍,營造出深邃靜謐的包裹感。光影采用棱鏡折射效果(Prism Effect),在人物面部投下彩虹般的破碎光斑,并帶有微弱的慢門拖影(Motion Blur),賦予畫面一種流動的迷幻感。構圖采用上帝視角(Top-down shot),王家衛電影美學,高噪點膠片質感,藝術攝影風格。
這張圖的完成度非常高。
不僅逼真,關鍵是水面的倒影、棱鏡的折射光斑,處理得非常有質感。
為了防止它是“運氣好”,我又測了個極端的——當復雜的毛發遇上暴風雪。
這通常是 AI 的“死穴”,很容易糊成一團。
![]()
提示詞:一只雪豹的正面特寫,漫天風雪,眼神犀利直視鏡頭,毛發上掛著冰渣和雪花,背景是模糊的雪山,國家地理風格,超高清
大家放大看細節。
風雪和毛發的交互很真實,雪花是“陷”在毛發里的,而不是浮在表面,眼神的那種野性也抓住了。
不得不說,這張圖堪稱完美。
小遺憾: 目前還不支持原生 4K 輸出(盲猜是算力成本問題),放大看極微小的細節還是會有一點點涂抹感,但發朋友圈或做配圖綽綽有余。
![]()
圖:GLM Image 支持多種分辨率
03 搞錢神器:海報和封面,它真能干活
測到這,我覺得它已經不僅僅是個玩具了。
解鎖了“文字”+“畫質”這兩個技能包,意味著什么?意味著它能幫我們干活了!
我是做內容的,以前做小紅書封面,要么去素材網找圖改,要么買 Canva 會員。
但我發現,GLM Image 處理這種圖文結合的封面,似乎非常在行。
![]()
提示詞:一張極具吸引力的小紅書/YouTube 視頻封面圖,波普藝術拼貼風格。畫面主體是一位年輕可愛的亞洲職場女性,留著短發,戴著黑框眼鏡,身穿白襯衫和黃色背帶褲。她雙手托腮,對著鏡頭做出夸張驚訝的表情(O型嘴),人物周圍有一圈明顯的白色描邊(貼紙效果),將她與背景的模糊辦公室環境隔離開來。視覺設計包含上下邊緣的黃色撕紙紋理效果。畫面頂部有巨大的、黑色的粗體中文字體,印在黃色的矩形色塊背景上,第一行寫‘職場菜鳥’,第二行寫‘生存法則’。人物右側懸浮著手寫體的中文標簽‘干貨滿滿’和‘建議收藏’,以及一個波普風格的英文單詞‘WOW’。畫面點綴著卡通燈泡圖標、卡通眼睛貼紙和閃爍的星星符號。整體色調以明亮的黃色和黑白色為主,高飽和度,視覺沖擊力強。”
![]()
圖:GLM Image 生成的圖片
是不是有點意思?
甚至 NBP 很拿手的“信息圖表”,GLM 也能模仿個七七八八:
![]()
圖:生成一張咖啡制作的信息圖
![]()
提示詞:創建一個展示如何制作面包的信息圖表
這里我要客觀說一句:如果是特別復雜、步驟特別多的信息圖,NBP 依然更勝一籌,畢竟人家底層模型的參數量擺在那。
但在 GLM 里, 如果把提示詞寫得很詳細具體,其實也能得到那樣的圖。
![]()
圖:通過詳細的提示詞生成的信息圖
極簡風的產品海報,GLM Image 也是信手拈來:
![]()
提示詞:一張極具奢華感的高端護膚品廣告海報。畫面中央是一瓶半透明的琥珀色精華液瓶身,瓶身表面有精致的金色燙金文字。瓶子置于平靜的水面上,周圍有金色的漣漪和飛濺的水珠,光影呈現出剔透的琉璃質感。 背景是深邃的漸變黑金色。畫面上方留白處,使用優雅纖細的中文襯線字體(宋體風格)排版:‘凝時?新生’。下方是一行較小的英文:‘TIMELESS BEAUTY’。整體風格追求極致的純凈與奢華,微距攝影視角。
還有這種速度感的汽車海報:
![]()
提示詞:一張充滿速度感的電動超跑商業海報。一輛銀灰色的流線型概念跑車正在深邃的未來隧道中極速飛馳。背景的燈光因為高速移動拉成了長長的霓虹光流(Motion blur),而車身主體清晰銳利,車漆反射著周圍流動的光影,金屬質感極強。 畫面采用傾斜構圖,極具視覺沖擊力。左上角排版巨大的、粗體傾斜的無襯線中文字體:‘極速?由此定義’。右下角是汽車品牌Logo和一行小字‘未來已來’。冷色調,賽博朋克與工業設計的完美結合。
作為一款文生圖的模型,GLM Image 目前還不支持修圖,所以相對來講比較簡單,不知道后期會不會有這些功能,包括參考圖等。
網上很多人把 GLM Image 稱為 Nano Banana 的“國產平替”或“開源平替”。
但我扒了一下它的底,發現事情沒那么簡單。
它底層用的是一種很新的“自回歸 + 擴散”架構 。
簡單說,就是用大模型的腦子去“聽懂話”,再用繪畫模型的筆去“摳細節” 。這也是為什么它能把復雜的漢字寫對的核心原因 。
更硬核的是,它是智譜聯合華為昇騰和昇思 MindSpore 硬磕出來的,從里到外都是純國產算力 。
當然,最吸引我的還是開源。
如果你在意數據隱私,或者公司想省成本,完全可以把它下載下來本地部署。
不用聯網也能跑,相當于擁有了一個私有的繪圖工作臺,這點對企業太香了。
別光聽我說,建議直接上手試,小白用戶直接去 bigmodel.cn 免費體驗:
![]()
圖:GLM Image 的圖像生成界面
技術大神去 GitHub 搜 GLM-Image 就能扒代碼:
GitHub:https://github.com/zai-org/GLM-Image
Hugging Face:https://huggingface.co/zai-org/GLM-Image
魔搭社區:https://modelscope.cn/models/ZhipuAI/GLM-Image
試完覺得好用的,記得回來給國產 AI 點個贊!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.