剛剛發生了兩件事,放在一起看很有意思
第一件:來自英偉達
英偉達 H200 對華出口限制,正式放寬
第二件:來自「華為 x 智譜」
首個在國產芯片上,完成全流程訓練的多模態模型,GLM-Image 發布并開源,從數據預處理到大規模預訓練,全程跑在昇騰 Atlas 800T A2
![]()
不得不說,是個創舉 先看效果
效果圖:商業海報
效果圖:科普插畫
效果圖:社交媒體封面
主打文字渲染,尤其擅長中文
在 CVTG-2K(復雜視覺文字生成)和 LongText-Bench(長文本渲染)兩個榜單上都是開源第一
![]()
榜單成績 國產芯片全流程
這是這次發布最核心的部分
官方說法:自回歸結構基座從數據預處理到大規模預訓練,全流程在昇騰 Atlas 800T A2 上完成
具體怎么做的:
基于昇思 MindSpore 框架,智譜自研了一套訓練套件
覆蓋數據預處理、預訓練、SFT、RL,端到端全流程
優化上,用動態圖多級流水下發消除下發瓶頸,用多流并行讓通信和計算互掩
算子層面,用了 AdamW EMA、COC、RMS Norm 等昇騰親和的融合算子
![]()
國產算力訓練流程 架構
GLM-Image 采用「自回歸 + 擴散解碼器」混合架構
兩個模塊,各管一攤
自回歸部分,9B
負責語義理解和全局構圖,全程在昇騰上訓練
擴散解碼器部分,7B
DiT 結構,配合 Glyph Encoder 做文字渲染,解決「提筆忘字」的問題
前者管「讀懂」,后者管「寫對」
![]()
GLM-Image 架構圖
這個方向和 Google 去年 11 月發的 Nano Banana Pro 一致
Nano Banana Pro 基于 Gemini 3 Pro,核心思路是把語言模型的推理能力和圖像生成結合起來
智譜管這叫「認知型生成」
![]()
解碼器結構示意圖 一個細節
還有一個值得關注的點:分辨率支持任意比例
傳統圖像生成模型的分辨率是 4:3、16:9 這樣的預設比例。GLM-Image 通過改進 Tokenizer 策略,原生支持從 1024x1024 到 2048x2048 尺寸的任意比例圖像生成,比如1240x1600 這種非標分辨率
對海報、社交媒體封面這類需要自定義尺寸的場景比較實用
價格與開源
API 調用 0.1 元/張
開源地址:
? GitHub:
https://github.com/zai-org/GLM-Image? Hugging Face:
https://huggingface.co/zai-org/GLM-Image? 魔搭社區:
https://modelscope.cn/models/ZhipuAI/GLM-Image
在線體驗已在智譜開放平臺上線,Z.ai 和智譜清言即將接入
技術報告:https://z.ai/blog/glm-image
![]()
智譜用 GLM-Image 生成的總結圖
H200 解禁了,這是好事
但智譜用國產芯片跑通全流程這件事,證明了另一條路也能走
有沒有一種可能...互為因果
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.