在AI核心技術(shù)從“專用工具”向“通用智能伙伴”跨越的今天,全球算力升級(jí)正在支撐百萬(wàn)級(jí)Token的長(zhǎng)上下文處理,并通過(guò)整合文本、圖像、音頻、視頻及3D點(diǎn)云等多源數(shù)據(jù),推動(dòng)人機(jī)交互向“所見(jiàn)即所得”的多模態(tài)交互演進(jìn)。
繼谷歌發(fā)布Nano Banana Pro認(rèn)知型生成模型之后,1月14日,智譜聯(lián)合華為也正式發(fā)布了新一代圖像生成模型GLM-Image。作為智譜面向「認(rèn)知型生成」技術(shù)范式的一次重要探索,該模型采用自主創(chuàng)新的「自回歸+擴(kuò)散解碼器」混合架構(gòu),實(shí)現(xiàn)了圖像生成與語(yǔ)言模型的協(xié)同。
得益于昇騰NPU和昇思MindSpore AI框架所提供的從數(shù)據(jù)到訓(xùn)練的全流程支撐,GLM-Image不僅是首個(gè)基于自主創(chuàng)新算力底座全程訓(xùn)練的SOTA多模態(tài)模型,也是首個(gè)開(kāi)源的工業(yè)表現(xiàn)級(jí)離散自回歸圖像生成模型。1月15日,GLM-Image更是登頂全球知名AI開(kāi)源社區(qū)Hugging Face Trending榜。這也是中國(guó)首次實(shí)現(xiàn)基于自主創(chuàng)新算力底座的前沿多模態(tài)模型全流程訓(xùn)練與全球開(kāi)源榜首突破。
可以說(shuō),GLM-Image的創(chuàng)新實(shí)踐,既驗(yàn)證了在昇騰全棧算力底座上訓(xùn)練高性能多模態(tài)生成模型的可行性,也為社區(qū)挖掘自主創(chuàng)新算力潛力提供了重要參考。
![]()
擁抱架構(gòu)創(chuàng)新,打造中國(guó)版開(kāi)源Nano Banana
過(guò)去幾年,文本生成圖像(T2I)與多模態(tài)生成式模型的能力突飛猛進(jìn),尤其是Nano Banana Pro的問(wèn)世,文本生成圖像正在廣泛應(yīng)用于角色一致性、照片修復(fù)及無(wú)限畫布局部編輯等場(chǎng)景,成為創(chuàng)意與技術(shù)深度融合的助推器。
作為全球首家以通用人工智能(AGI)基座大模型為核心業(yè)務(wù)的上市公司,智譜也在積極開(kāi)展AI圖像生成與編輯模型的創(chuàng)新。智譜全新推出的GLM-Image,在實(shí)際復(fù)雜圖文任務(wù)中的表現(xiàn)讓人眼前一亮。
![]()
比如,在科普插畫中,GLM-Image可以繪制出包含復(fù)雜邏輯流程與文字說(shuō)明的科普插畫及原理示意圖;在社交媒體圖文封面中,GLM-Image可以制作社交媒體封面及內(nèi)容等排版復(fù)雜的圖片;在商業(yè)海報(bào)中,GLM-Image能夠生成構(gòu)圖富有設(shè)計(jì)感、文字嵌入準(zhǔn)確的節(jié)日海報(bào)與商業(yè)宣傳圖。
![]()
GLM-Image之所以能夠讓創(chuàng)作更自由豐富,首先得益于創(chuàng)新的「自回歸+擴(kuò)散解碼器」混合架構(gòu),可兼顧全局指令理解與局部細(xì)節(jié)刻畫,克服海報(bào)、PPT、科普?qǐng)D等知識(shí)密集型場(chǎng)景生成難題。同時(shí),GLM-Image還能夠自適應(yīng)處理多種分辨率,幫助用戶生成任意比例的圖像。
在此基礎(chǔ)上,GLM-Image在文字渲染的權(quán)威榜單中達(dá)到開(kāi)源SOTA水平。其中,在CVTG-2K(復(fù)雜視覺(jué)文本生成)和LongText-Bench(長(zhǎng)文本渲染)榜單均位列開(kāi)源模型第一,可大大提升在圖像中同時(shí)生成多處文字的準(zhǔn)確性,以及渲染長(zhǎng)文本、多行文字的準(zhǔn)確性。
昇騰+昇思,全棧自主創(chuàng)新算力底座助力模型訓(xùn)練
除了采用創(chuàng)新的混合架構(gòu)之外,GLM-Image還是首個(gè)基于自主創(chuàng)新算力底座全程訓(xùn)練的SOTA模型。模型的自回歸結(jié)構(gòu)基于昇騰Atlas 800T A2設(shè)備與昇思MindSpore AI框架,完成了從數(shù)據(jù)預(yù)處理到大規(guī)模訓(xùn)練的全流程構(gòu)建,充分驗(yàn)證了在全棧自主創(chuàng)新算力底座上也能訓(xùn)練出SOTA模型。
其中,Atlas 800T A2作為昇騰訓(xùn)練服務(wù)器設(shè)備,具有高計(jì)算密度、高能效比、高網(wǎng)絡(luò)帶寬、易擴(kuò)展、易管理等特點(diǎn),可以更好地滿足智譜在深度學(xué)習(xí)模型開(kāi)發(fā)和AI訓(xùn)練服務(wù)場(chǎng)景上的需要。
而昇思MindSpore AI框架則內(nèi)置大模型訓(xùn)練所需的多種并行能力,可提供簡(jiǎn)單易用的大模型分布式策略配置接口,幫助智譜快速實(shí)現(xiàn)高性能的大模型分布式訓(xùn)練。同時(shí),該框架通過(guò)動(dòng)靜統(tǒng)一編程,可最大程度地發(fā)揮昇騰硬件能力,幫助智譜縮短訓(xùn)練時(shí)間,提升推理性能。
依托昇騰NPU與昇思MindSpore AI框架,智譜利用動(dòng)態(tài)圖多級(jí)流水下發(fā)、高性能融合算子、多流并行等特性,自研了一整套模型訓(xùn)練套件,對(duì)數(shù)據(jù)預(yù)處理、預(yù)訓(xùn)練、SFT(監(jiān)督微調(diào))和RL(強(qiáng)化學(xué)習(xí))的端到端流程進(jìn)行了全面優(yōu)化。
其中,借助動(dòng)態(tài)圖的多級(jí)流水優(yōu)化機(jī)制,將Host側(cè)算子下發(fā)的關(guān)鍵階段流水化并高度重疊,可提升訓(xùn)練性能20%;借助AdamW EMA、COC、RMS Norm等昇騰親和的高性能融合算子,可提升訓(xùn)練的穩(wěn)定性,并將通信效率提升15%;借助多流并行策略,將通信和計(jì)算相互掩蓋,打破了文本梯度同步、圖像特征廣播等操作的通信墻,可整體提升訓(xùn)練性能10%。
自主創(chuàng)新算力引領(lǐng),人工智能產(chǎn)業(yè)發(fā)展再迎新突破
當(dāng)前,全球AI產(chǎn)業(yè)競(jìng)爭(zhēng)日趨激烈,國(guó)外大模型技術(shù)的創(chuàng)新與迭代速度持續(xù)加快。在此背景下,智譜攜手華為,在積極探索模型架構(gòu)創(chuàng)新的同時(shí),將自主創(chuàng)新算力充分應(yīng)用到SOTA多模態(tài)模型訓(xùn)練中,不僅展現(xiàn)出中國(guó)企業(yè)在AI領(lǐng)域的創(chuàng)新實(shí)力,更凸顯了自主創(chuàng)新算力底座所扮演的重要角色。
首先,驗(yàn)證了自主創(chuàng)新算力也能高性能訓(xùn)出SOTA模型。如今,模型訓(xùn)練對(duì)算力的計(jì)算精度、通信效率、軟硬件協(xié)同優(yōu)化的要求持續(xù)提升。智譜通過(guò)“昇騰+昇思”的應(yīng)用實(shí)踐,不僅打破了自主創(chuàng)新算力難以勝任尖端AI訓(xùn)練的刻板印象,也充分證明了自主創(chuàng)新算力完全有能力承載并驅(qū)動(dòng)最前沿的AI研究與工程實(shí)踐。
其次,為中國(guó)AI企業(yè)開(kāi)展模型訓(xùn)練提供了極具價(jià)值的參考借鑒。智譜借助“昇騰+昇思”,從數(shù)據(jù)預(yù)處理、預(yù)訓(xùn)練到監(jiān)督微調(diào),再到強(qiáng)化學(xué)習(xí),為中國(guó)企業(yè)、開(kāi)源社區(qū)開(kāi)展模型訓(xùn)練提供了端到端的全流程自主創(chuàng)新技術(shù)的落地范例,可幫助企業(yè)開(kāi)發(fā)者降低自主創(chuàng)新算力底座的應(yīng)用門檻,加速推進(jìn)模型創(chuàng)新與落地進(jìn)程。
再次,推動(dòng)了全棧自主創(chuàng)新算力生態(tài)的繁榮發(fā)展。AI產(chǎn)業(yè)的創(chuàng)新發(fā)展,離不開(kāi)算力底座、模型架構(gòu)和應(yīng)用落地三者的相互協(xié)同,智譜與昇騰、昇思的協(xié)同,不僅提升了模型訓(xùn)練的效率與安全性,也反向驅(qū)動(dòng)了昇騰與昇思的能力提升,加速自主創(chuàng)新算力底座從“可用”到“好用”的進(jìn)化,并為推進(jìn)AI產(chǎn)業(yè)生態(tài)的繁榮奠定了堅(jiān)實(shí)基礎(chǔ)。
最后,加速了多模態(tài)AI技術(shù)自主創(chuàng)新與普惠化進(jìn)程。多模態(tài)作為通往通用人工智能的關(guān)鍵一環(huán),其能力直接關(guān)乎未來(lái)數(shù)字內(nèi)容創(chuàng)作、智能交互等核心產(chǎn)業(yè)的創(chuàng)新發(fā)展。智譜借助昇騰、昇思成功訓(xùn)練出GLM-Image,意味著中國(guó)AI產(chǎn)業(yè)可以更加安全、高效地開(kāi)展多模態(tài)AI的創(chuàng)新,從而推動(dòng)多模態(tài)技術(shù)更快速、更廣泛地應(yīng)用到各行各業(yè)。
在多模態(tài)AI成為技術(shù)創(chuàng)新與產(chǎn)業(yè)應(yīng)用核心方向的今天,智譜攜手昇騰、昇思,其突破性遠(yuǎn)遠(yuǎn)不止于打造一個(gè)優(yōu)秀的圖像生成模型,更是一次自主創(chuàng)新算力底座支撐SOTA模型訓(xùn)練的關(guān)鍵驗(yàn)證。隨著智譜與昇騰合作的持續(xù)深化,也將吸引更多企業(yè)加入自主創(chuàng)新的AI生態(tài)構(gòu)建中,推動(dòng)中國(guó)AI產(chǎn)業(yè)高質(zhì)量發(fā)展。未來(lái),中國(guó)AI產(chǎn)業(yè)完全有能力構(gòu)建從算力底座到應(yīng)用創(chuàng)新的全鏈路競(jìng)爭(zhēng)力,并為全球AI產(chǎn)業(yè)的發(fā)展貢獻(xiàn)中國(guó)智慧和中國(guó)方案。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.