騰訊開源生圖模型 3.0,試了一下世界知識(shí)可以媲美 Banana,甚至可以圖解中學(xué)幾何題!美學(xué)和文字排版也達(dá)到了一流水平,太頂了。
模型參數(shù)高達(dá) 80B,這次的升級(jí)主要特點(diǎn)是:
1. 可以生成較長(zhǎng)的文字,包括中文;
2. 了解世界知識(shí)并且可以進(jìn)行一定程度的推理;
3. 美學(xué)表現(xiàn)相較于之前提升較大。
我也做了一下詳細(xì)的測(cè)試,文字生成和世界知識(shí)這塊非常的頂,提示詞放在圖片下方了。
世界知識(shí)這塊,我先是讓他解一些涉及到圖像的數(shù)學(xué)幾何體、物理或者化學(xué)題。
它可以在生成的圖片上完美的展示解題步驟,左邊展示對(duì)應(yīng)的示例圖案,解題步驟和答案的正確率接近 100%,左邊的圖例偶爾有問題,但已經(jīng)非常牛皮了。
搞定之后又讓他生成其他人文社科之類的圖片,比如推理和展示蒸汽機(jī)的發(fā)展路線,除了偶爾小字有問題外,整個(gè)圖案示例畫的相當(dāng)簡(jiǎn)單易懂。
生成對(duì)應(yīng)的詩詞解釋卡片也都沒問題,可以畫出詩詞對(duì)應(yīng)的景色,還能生成詩詞的背景和主旨。
還有常見的知識(shí)卡片,比如食譜和游戲卡片也沒啥問題,這部分如果他輸出文字較少的話你可以在提示詞規(guī)定對(duì)應(yīng)的文字?jǐn)?shù)量。
在文字生成這部分測(cè)試了一下之前常用的復(fù)雜排版玄學(xué)壁紙和單純的字體設(shè)計(jì)。
基本上都可以按照要求的排版方式和字體畫出對(duì)應(yīng)的圖片,而且上面也都有對(duì)應(yīng)的文字內(nèi)容。
純粹的藝術(shù)字體生成先是讓他生成類似篆體的 Logo,確實(shí)非常有那個(gè)神韻。然后是書法字體也生成的相當(dāng)不錯(cuò),有那味了。
然后肉讓他整了兩張復(fù)雜的中秋海報(bào),涉及到文字生成、排版位置和畫面風(fēng)格,都處理的不錯(cuò),基本達(dá)到了現(xiàn)在頭部圖像模型的水平。
目前跟 Banana 的差距就是圖像編輯了,暫時(shí)還沒有這個(gè)能力,但是有內(nèi)幕消息說國(guó)慶之后估計(jì)就有了。
開源的這種級(jí)別的圖像編輯和世界知識(shí)圖像模型,想象力還是非常大的, 加上微調(diào)之后可以搞很多好玩的。
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.