網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

智譜×?xí)N騰×?xí)N思：自主創(chuàng)新算力賦能，多模態(tài)SOTA模型再迎新突破

2026-01-21 14:46:29　來(lái)源: 科技talk

河北舉報(bào)

分享至

在AI核心技術(shù)從“專用工具”向“通用智能伙伴”跨越的今天，全球算力升級(jí)正在支撐百萬(wàn)級(jí)Token的長(zhǎng)上下文處理，并通過(guò)整合文本、圖像、音頻、視頻及3D點(diǎn)云等多源數(shù)據(jù)，推動(dòng)人機(jī)交互向“所見(jiàn)即所得”的多模態(tài)交互演進(jìn)。

繼谷歌發(fā)布Nano Banana Pro認(rèn)知型生成模型之后，1月14日，智譜聯(lián)合華為也正式發(fā)布了新一代圖像生成模型GLM-Image。作為智譜面向「認(rèn)知型生成」技術(shù)范式的一次重要探索，該模型采用自主創(chuàng)新的「自回歸＋擴(kuò)散解碼器」混合架構(gòu)，實(shí)現(xiàn)了圖像生成與語(yǔ)言模型的協(xié)同。

得益于昇騰NPU和昇思MindSpore AI框架所提供的從數(shù)據(jù)到訓(xùn)練的全流程支撐，GLM-Image不僅是首個(gè)基于自主創(chuàng)新算力底座全程訓(xùn)練的SOTA多模態(tài)模型，也是首個(gè)開(kāi)源的工業(yè)表現(xiàn)級(jí)離散自回歸圖像生成模型。1月15日，GLM-Image更是登頂全球知名AI開(kāi)源社區(qū)Hugging Face Trending榜。這也是中國(guó)首次實(shí)現(xiàn)基于自主創(chuàng)新算力底座的前沿多模態(tài)模型全流程訓(xùn)練與全球開(kāi)源榜首突破。

可以說(shuō)，GLM-Image的創(chuàng)新實(shí)踐，既驗(yàn)證了在昇騰全棧算力底座上訓(xùn)練高性能多模態(tài)生成模型的可行性，也為社區(qū)挖掘自主創(chuàng)新算力潛力提供了重要參考。

擁抱架構(gòu)創(chuàng)新，打造中國(guó)版開(kāi)源Nano Banana

過(guò)去幾年，文本生成圖像（T2I）與多模態(tài)生成式模型的能力突飛猛進(jìn)，尤其是Nano Banana Pro的問(wèn)世，文本生成圖像正在廣泛應(yīng)用于角色一致性、照片修復(fù)及無(wú)限畫布局部編輯等場(chǎng)景，成為創(chuàng)意與技術(shù)深度融合的助推器。

作為全球首家以通用人工智能（AGI）基座大模型為核心業(yè)務(wù)的上市公司，智譜也在積極開(kāi)展AI圖像生成與編輯模型的創(chuàng)新。智譜全新推出的GLM-Image，在實(shí)際復(fù)雜圖文任務(wù)中的表現(xiàn)讓人眼前一亮。

比如，在科普插畫中，GLM-Image可以繪制出包含復(fù)雜邏輯流程與文字說(shuō)明的科普插畫及原理示意圖；在社交媒體圖文封面中，GLM-Image可以制作社交媒體封面及內(nèi)容等排版復(fù)雜的圖片；在商業(yè)海報(bào)中，GLM-Image能夠生成構(gòu)圖富有設(shè)計(jì)感、文字嵌入準(zhǔn)確的節(jié)日海報(bào)與商業(yè)宣傳圖。

GLM-Image之所以能夠讓創(chuàng)作更自由豐富，首先得益于創(chuàng)新的「自回歸+擴(kuò)散解碼器」混合架構(gòu)，可兼顧全局指令理解與局部細(xì)節(jié)刻畫，克服海報(bào)、PPT、科普?qǐng)D等知識(shí)密集型場(chǎng)景生成難題。同時(shí)，GLM-Image還能夠自適應(yīng)處理多種分辨率，幫助用戶生成任意比例的圖像。

在此基礎(chǔ)上，GLM-Image在文字渲染的權(quán)威榜單中達(dá)到開(kāi)源SOTA水平。其中，在CVTG-2K（復(fù)雜視覺(jué)文本生成）和LongText-Bench（長(zhǎng)文本渲染）榜單均位列開(kāi)源模型第一，可大大提升在圖像中同時(shí)生成多處文字的準(zhǔn)確性，以及渲染長(zhǎng)文本、多行文字的準(zhǔn)確性。

昇騰+昇思，全棧自主創(chuàng)新算力底座助力模型訓(xùn)練

除了采用創(chuàng)新的混合架構(gòu)之外，GLM-Image還是首個(gè)基于自主創(chuàng)新算力底座全程訓(xùn)練的SOTA模型。模型的自回歸結(jié)構(gòu)基于昇騰Atlas 800T A2設(shè)備與昇思MindSpore AI框架，完成了從數(shù)據(jù)預(yù)處理到大規(guī)模訓(xùn)練的全流程構(gòu)建，充分驗(yàn)證了在全棧自主創(chuàng)新算力底座上也能訓(xùn)練出SOTA模型。

其中，Atlas 800T A2作為昇騰訓(xùn)練服務(wù)器設(shè)備，具有高計(jì)算密度、高能效比、高網(wǎng)絡(luò)帶寬、易擴(kuò)展、易管理等特點(diǎn)，可以更好地滿足智譜在深度學(xué)習(xí)模型開(kāi)發(fā)和AI訓(xùn)練服務(wù)場(chǎng)景上的需要。

而昇思MindSpore AI框架則內(nèi)置大模型訓(xùn)練所需的多種并行能力，可提供簡(jiǎn)單易用的大模型分布式策略配置接口，幫助智譜快速實(shí)現(xiàn)高性能的大模型分布式訓(xùn)練。同時(shí)，該框架通過(guò)動(dòng)靜統(tǒng)一編程，可最大程度地發(fā)揮昇騰硬件能力，幫助智譜縮短訓(xùn)練時(shí)間，提升推理性能。

依托昇騰NPU與昇思MindSpore AI框架，智譜利用動(dòng)態(tài)圖多級(jí)流水下發(fā)、高性能融合算子、多流并行等特性，自研了一整套模型訓(xùn)練套件，對(duì)數(shù)據(jù)預(yù)處理、預(yù)訓(xùn)練、SFT（監(jiān)督微調(diào)）和RL（強(qiáng)化學(xué)習(xí)）的端到端流程進(jìn)行了全面優(yōu)化。

其中，借助動(dòng)態(tài)圖的多級(jí)流水優(yōu)化機(jī)制，將Host側(cè)算子下發(fā)的關(guān)鍵階段流水化并高度重疊，可提升訓(xùn)練性能20%；借助AdamW EMA、COC、RMS Norm等昇騰親和的高性能融合算子，可提升訓(xùn)練的穩(wěn)定性，并將通信效率提升15%；借助多流并行策略，將通信和計(jì)算相互掩蓋，打破了文本梯度同步、圖像特征廣播等操作的通信墻，可整體提升訓(xùn)練性能10%。

自主創(chuàng)新算力引領(lǐng)，人工智能產(chǎn)業(yè)發(fā)展再迎新突破

當(dāng)前，全球AI產(chǎn)業(yè)競(jìng)爭(zhēng)日趨激烈，國(guó)外大模型技術(shù)的創(chuàng)新與迭代速度持續(xù)加快。在此背景下，智譜攜手華為，在積極探索模型架構(gòu)創(chuàng)新的同時(shí)，將自主創(chuàng)新算力充分應(yīng)用到SOTA多模態(tài)模型訓(xùn)練中，不僅展現(xiàn)出中國(guó)企業(yè)在AI領(lǐng)域的創(chuàng)新實(shí)力，更凸顯了自主創(chuàng)新算力底座所扮演的重要角色。

首先，驗(yàn)證了自主創(chuàng)新算力也能高性能訓(xùn)出SOTA模型。如今，模型訓(xùn)練對(duì)算力的計(jì)算精度、通信效率、軟硬件協(xié)同優(yōu)化的要求持續(xù)提升。智譜通過(guò)“昇騰+昇思”的應(yīng)用實(shí)踐，不僅打破了自主創(chuàng)新算力難以勝任尖端AI訓(xùn)練的刻板印象，也充分證明了自主創(chuàng)新算力完全有能力承載并驅(qū)動(dòng)最前沿的AI研究與工程實(shí)踐。

其次，為中國(guó)AI企業(yè)開(kāi)展模型訓(xùn)練提供了極具價(jià)值的參考借鑒。智譜借助“昇騰+昇思”，從數(shù)據(jù)預(yù)處理、預(yù)訓(xùn)練到監(jiān)督微調(diào)，再到強(qiáng)化學(xué)習(xí)，為中國(guó)企業(yè)、開(kāi)源社區(qū)開(kāi)展模型訓(xùn)練提供了端到端的全流程自主創(chuàng)新技術(shù)的落地范例，可幫助企業(yè)開(kāi)發(fā)者降低自主創(chuàng)新算力底座的應(yīng)用門檻，加速推進(jìn)模型創(chuàng)新與落地進(jìn)程。

再次，推動(dòng)了全棧自主創(chuàng)新算力生態(tài)的繁榮發(fā)展。AI產(chǎn)業(yè)的創(chuàng)新發(fā)展，離不開(kāi)算力底座、模型架構(gòu)和應(yīng)用落地三者的相互協(xié)同，智譜與昇騰、昇思的協(xié)同，不僅提升了模型訓(xùn)練的效率與安全性，也反向驅(qū)動(dòng)了昇騰與昇思的能力提升，加速自主創(chuàng)新算力底座從“可用”到“好用”的進(jìn)化，并為推進(jìn)AI產(chǎn)業(yè)生態(tài)的繁榮奠定了堅(jiān)實(shí)基礎(chǔ)。

最后，加速了多模態(tài)AI技術(shù)自主創(chuàng)新與普惠化進(jìn)程。多模態(tài)作為通往通用人工智能的關(guān)鍵一環(huán)，其能力直接關(guān)乎未來(lái)數(shù)字內(nèi)容創(chuàng)作、智能交互等核心產(chǎn)業(yè)的創(chuàng)新發(fā)展。智譜借助昇騰、昇思成功訓(xùn)練出GLM-Image，意味著中國(guó)AI產(chǎn)業(yè)可以更加安全、高效地開(kāi)展多模態(tài)AI的創(chuàng)新，從而推動(dòng)多模態(tài)技術(shù)更快速、更廣泛地應(yīng)用到各行各業(yè)。

在多模態(tài)AI成為技術(shù)創(chuàng)新與產(chǎn)業(yè)應(yīng)用核心方向的今天，智譜攜手昇騰、昇思，其突破性遠(yuǎn)遠(yuǎn)不止于打造一個(gè)優(yōu)秀的圖像生成模型，更是一次自主創(chuàng)新算力底座支撐SOTA模型訓(xùn)練的關(guān)鍵驗(yàn)證。隨著智譜與昇騰合作的持續(xù)深化，也將吸引更多企業(yè)加入自主創(chuàng)新的AI生態(tài)構(gòu)建中，推動(dòng)中國(guó)AI產(chǎn)業(yè)高質(zhì)量發(fā)展。未來(lái)，中國(guó)AI產(chǎn)業(yè)完全有能力構(gòu)建從算力底座到應(yīng)用創(chuàng)新的全鏈路競(jìng)爭(zhēng)力，并為全球AI產(chǎn)業(yè)的發(fā)展貢獻(xiàn)中國(guó)智慧和中國(guó)方案。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.