![]()
始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區,始終堅持“中立、開放、共建、共創、合作”五項基本原則,歡迎加入共同成長。
![]()
智譜聯合華為開源新一代圖像生成模型GLM-Image,模型基于昇騰Atlas 800T A2設備和昇思MindSpore AI框架完成從數據到訓練的全流程,是首個在國產芯片上完成全程訓練的SOTA多模態模型。GLM-Image已經發布在始智AI wisemodel開源社區,歡迎大家前往嘗試。
![]()
模型地址
https://wisemodel.cn/models/ZhipuAI/GLM-Image
GLM-Image采用自主創新的「自回歸+擴散解碼器」混合架構,實現了圖像生成與語言模型的聯合,是我們面向以Nano Banana Pro為代表的新一代「認知型生成」技術范式的一次重要探索。
核心亮點如下:
架構革新,面向「認知型生成」的技術探索:采用創新的「自回歸 + 擴散編碼器」混合架構,兼顧全局指令理解與局部細節刻畫,克服了海報、PPT、科普圖等知識密集型場景生成難題,向探索以Nano Banana Pro為代表的新一代“知識+推理”的認知型生成模型邁出了重要一步。
首個在國產芯片完成全程訓練的SOTA模型:模型自回歸結構基座基于昇騰Atlas 800T A2設備與昇思MindSpore AI框架,完成了從數據預處理到大規模訓練的全流程構建,驗證了在國產全棧算力底座上訓練前沿模型的可行性。
文字渲染開源SOTA:在CVTG-2K(復雜視覺文本生成)和LongText-Bench(長文本渲染)榜單獲得開源第一,尤其擅長漢字生成任務。
高性價比與速度優化:API調用模式下,生成一張圖片僅需0.1元,速度優化版本即將更新。
01.
架構創新:讀懂指令,寫對文字
近期,以Nano Banana Pro為代表的閉源圖像生成模型正在推動圖像生成與大語言模型的深度融合。技術范式正從單一的圖像生成,進化為兼具世界知識與推理能力的「認知型生成」。這些模型在海報、PPT、科普圖等知識密集型場景及高保真細節呈現上表現驚艷,展現了這一技術范式的優勢。
GLM-Image正是面向「認知型生成」技術范式一次重要探索。這是首個開源的工業表現級離散自回歸圖像生成模型,希望借此與開源社區分享我們在這一前沿方向的技術路徑與實踐思考。
創新架構讓模型讀懂寫對:面對傳統模型在“理解復雜指令”與“精準繪制文字”上難以兼顧的問題,GLM-Image 引入了「自回歸+擴散解碼器」混合架構,創新地融合了9B大小的自回歸模型與7B大小的DiT擴散解碼器。前者利用其語言模型的底座優勢,專注于提升對指令的語義理解和畫面的全局構圖;后者配合Glyph Encoder的文本編碼器,專注于還原圖像的高頻細節和文字筆畫,以此改善模型“提筆忘字”的現象。
多分辨率自適應:通過改進Tokenizer策略,GLM-Image能夠自適應處理多種分辨率,原生支持從1024x1024到2048×2048尺寸的任意比例圖像的生成任務,無需重新訓練。
![]()
通用pipeline
![]()
解碼器結構示意圖
GLM-Image技術報告:https://z.ai/blog/glm-image
02.
開源SOTA:更擅長文字密集生成任務
基于上述架構創新,GLM-Image在文字渲染的權威榜單中達到開源SOTA水平。
![]()
CVTG-2K(復雜視覺文字生成)榜單核心考察模型在圖像中同時生成多處文字的準確性。在多區域文字生成準確率上,GLM-Image憑借0.9116的Word Accuracy(文字準確率)成績,位列開源模型第一。在NED(歸一化編輯距離)指標上,GLM-Image同樣以0.9557領先,表明其生成的文字與目標文字高度一致,錯字、漏字情況更少。
LongText-Bench(長文本渲染)榜單考察模型渲染長文本、多行文字的準確性,覆蓋招牌、海報、PPT、對話框等8種文字密集場景,并分設中英雙語測試,GLM-Image以英文0.952、中文0.979的成績位列開源模型第一。
03.
首個國產芯片訓練出的SOTA模型
GLM-Image是我們對國產計算生態的一次深度探索與驗證。其自回歸結構基座從早期的數據預處理到最終的大規模預訓練,全流程均在昇騰Atlas 800T A2設備上完成。
依托昇騰NPU和昇思MindSpore AI框架,使用動態圖多級流水下發、高性能融合算子、多流并行等特性,我們自研了模型訓練套件,全面優化數據預處理、預訓練、SFT和RL的端到端流程。通過動態圖的多級流水優化機制,將Host側算子下發的關鍵階段流水化并高度重疊,消除下發瓶頸;通過多流并行策略,通信和計算互掩,打破文本梯度同步、圖像特征廣播等操作的通信墻,極致優化性能;使用AdamW EMA、COC、RMS Norm等昇騰親和的高性能融合算子,同步提升訓練的穩定性和性能。
GLM-Image是首個在國產芯片上完成全流程訓練的SOTA多模態模型,驗證了在國產全棧算力底座上訓練高性能多模態生成模型的可行性。我們希望這一實踐能為社區挖掘國產算力潛力提供有價值的參考。
04.
實測案例
下面來看看GLM-Image在實際的復雜圖文任務中的表現。
場景一:科普插畫
GLM-Image 更擅長繪制包含復雜邏輯流程與文字說明的科普插畫及原理示意圖。
![]()
場景二:多格圖畫
在生成電商圖、漫畫等多格圖畫時,GLM-Image能夠保持風格和主體的一致性,并保障多處文字生成的準確率。
![]()
場景三:社交媒體圖文封面
GLM-Image 適用于制作社交媒體封面及內容等排版復雜的圖片,讓您的創作更自由豐富。
![]()
場景四:商業海報
GLM-Image 能夠生成構圖富有設計感、文字嵌入準確的節日海報與商業宣傳圖。
![]()
場景五:寫實攝影
在文字渲染以外,GLM-Image也同樣擅長生成各種景別和尺寸的人像、寵物、風景、靜物。
![]()
最后,用GLM-Image生成的一張圖總結一下模型的核心要點。
![]()
----- END -----
![]()
wisemodel相關:
系列模型:
![]()
關于wisemodel更多
![]()
1
歡迎持續關注和支持
開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發布到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續關注wisemodel.cn開源社區動態。
2
歡迎加盟wisemodel開源社區
3
歡迎投稿優質內容
歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。
4
關于wisemodel開源社區
始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。
向上滑動查看
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.