Google 最新發(fā)布的多模態(tài)模型 nano banana(Gemini 2.5 Flash image)已經(jīng)刷屏整整一周了。
Twitter、小紅書(shū)等等社媒上隨處可見(jiàn)小香蕉的帖子,Gemini 甚至還花錢給它買了個(gè)“熱搜”。
![]()
每次新模型出來(lái)后,網(wǎng)友們總有保留節(jié)目——玩梗和搞創(chuàng)意。nano banana 強(qiáng)大的主體形象一致性特點(diǎn),以及對(duì)圖像理解、用戶意圖理解的能力,讓網(wǎng)友們貢獻(xiàn)出眾多“邪修”玩法。
玩法一:保持環(huán)境一致?lián)Q臉
![]()
*圖源:
@EHuanglu
玩法二:保持人物一致,指定衣服和動(dòng)作
![]()
*圖源:
@ai_for_success
玩法三:生成3D模型
![]()
*圖源:
@deedydas
上傳一張帶有物體的精美照片,或者是一幅電影截圖,nano banana 可以生成一個(gè)幾乎 1:1 的3D模型圖,可以直接用來(lái)做3D建模。
玩法四:保持人物形象,改變?nèi)宋镒藨B(tài)
![]()
*圖源:
tapehead_Lab
玩法五:原材料生成食品圖
![]()
*圖源:
maxescu
上傳一些原材料的圖片,給模型輸入提示詞讓它來(lái)做一個(gè)吃的。
玩法六:改變圖片角度
![]()
*圖源:
dr_cintas
玩法七:更換背景、姿勢(shì),一鍵P圖
![]()
*圖源:
clandestino_ai
玩法八:上傳戶型圖看裝修
![]()
![]()
*圖源:
levelsio
玩法九:替換發(fā)型
![]()
*圖源:
hahazwei
玩法十:生成四格電影
![]()
*圖源:
FinanceYF5
玩法十一:做幾何題
![]()
*圖源:@Gorden_Sun
在邪修玩法之外,nano banana 令人驚艷的特點(diǎn)包括但不限于審美提升,任務(wù)執(zhí)行精準(zhǔn)。
近期,nano banana 核心團(tuán)隊(duì)做客了一檔節(jié)目,揭秘模型訓(xùn)練背后的故事。核心觀點(diǎn)如下:
![]()
雖然模型已經(jīng)有很大提升,但團(tuán)隊(duì)認(rèn)為 nano banana 的文字渲染能力不夠完美,接下來(lái)還會(huì)優(yōu)化。
關(guān)于模型評(píng)估,這次 Gemini 團(tuán)隊(duì)把“文字渲染”作為評(píng)估指標(biāo)之一。一個(gè)重要原因是,當(dāng)模型學(xué)會(huì)了在圖像中正確生成文字這種結(jié)構(gòu)以后,往往也能學(xué)到圖像中其他結(jié)構(gòu)的生成。
nano banana說(shuō)明,多模態(tài)模型的圖像理解和圖像生成能力是"攜手并進(jìn)"的。
nano banana能夠精準(zhǔn)執(zhí)行任務(wù)的一個(gè)原因是交錯(cuò)生成,也就是將復(fù)雜的提示分解成多個(gè)步驟,并在不同的步驟中逐一進(jìn)行編輯。模型也能獲取多模態(tài)的上下文信息,然后基于它來(lái)生成新的圖像。
nano banana 相比自己的上一代,更大的提升是用不同角度渲染同一個(gè)角色,依然能保持一致。并且,它的審美也更好。
以下是這次交流的逐字翻譯:
Logan:大家好,歡迎來(lái)到 Release Notes 節(jié)目。我是 Logan Kilpatrick,來(lái)自 Google DeepMind 團(tuán)隊(duì)。今天和我們一起的是 Kaushik、Robert、Nicole 和 Mustafa。他們是 Gemini 圖像生成模型研發(fā)和產(chǎn)品團(tuán)隊(duì)成員。我們今天討論這個(gè)最新的模型。
Nicole:對(duì),我們?cè)?Gemini 中發(fā)布一個(gè)圖像生成和編輯功能的更新。這次是一個(gè)巨大的飛躍,模型達(dá)到了最先進(jìn)水平,我直接來(lái)演示一下這個(gè)模型的效果。現(xiàn)在我要給你拍一張照片,把畫(huà)面放遠(yuǎn)一點(diǎn),生成一張你穿著巨型香蕉服裝的圖像,確保你的臉是清晰可見(jiàn)的。生成需要幾秒鐘,但速度還是相當(dāng)快的——你應(yīng)該記得我們上個(gè)版本也是相當(dāng)快速的模型。這是我最喜歡的功能之一。
![]()
圖片出來(lái)了,這就是 Logan,畫(huà)面中仍然是你的臉。這個(gè)模型了不起的地方在于,它生成的形象仍然看起來(lái)像你,它給你穿上了一個(gè)巨大的香蕉服裝。圖片的背景很好看,是你走在城市街道上的場(chǎng)景。
Logan:太有意思了,這張圖是在芝加哥,而且實(shí)際上這基本就是那條街的真實(shí)模樣。這個(gè)模型居然體現(xiàn)出了現(xiàn)實(shí)世界的知識(shí)!
Nicole:現(xiàn)在我們繼續(xù),讓我們?cè)囈幌螺斎搿癿ake it nano”,讓我們看看模型會(huì)怎么做。好了,現(xiàn)在模型基于你的形象創(chuàng)建出了一個(gè)可愛(ài)的“納米版本”的你,穿著巨型香蕉服。
![]()
Logan:太喜歡這個(gè)了,真棒。
Nicole:這里特別棒的一點(diǎn)是——我們的提示詞非常模糊。
可是模型的創(chuàng)造力足夠強(qiáng),居然能自行解釋這個(gè)要求,然后創(chuàng)建出一個(gè)場(chǎng)景,既滿足了用戶的提示,又在整體上下文中合理,還保持了場(chǎng)景中其他所有元素的一致性。
這一點(diǎn)真的令人興奮,我認(rèn)為這是我們第一次看到大模型能在多次編輯中保持場(chǎng)景的一致性,并讓用戶用非常自然的語(yǔ)言與模型交互,不需要輸入很長(zhǎng)的提示詞——只需用非常自然的語(yǔ)言給出指令,就能夠和模型經(jīng)過(guò)多輪交互完成創(chuàng)作。
Logan:的確讓人興奮。我也很喜歡這一點(diǎn)。那么模型在文字渲染方面做得怎么樣?這是我個(gè)人最關(guān)心的用例之一。要不然我們?cè)谶@張圖片上加點(diǎn)文字試試?比如“Gemini Nano”。
![]()
Nicole:圖片出來(lái)了,效果很好。文本字符數(shù)很少,詞也很簡(jiǎn)單,所以效果非常好。我們?cè)?strong>發(fā)布說(shuō)明中也指出了目前文字渲染存在一些不足之處,我們也在努力改進(jìn)。
Logan:關(guān)于此次發(fā)布的評(píng)估維度有沒(méi)有什么可以分享的?很多情況下我們用人類偏好來(lái)衡量,但很難有一個(gè)“真實(shí)標(biāo)準(zhǔn)”,我想聽(tīng)聽(tīng)你們?cè)趺纯创@個(gè)問(wèn)題,不僅針對(duì)這次發(fā)布,也包括模型訓(xùn)練的整體過(guò)程。
Mustafa:我認(rèn)為總體來(lái)說(shuō),對(duì)圖像、視頻這類多模態(tài)任務(wù),要持續(xù)不斷提高指標(biāo)表現(xiàn)是非常困難的。過(guò)去的常用方法是利用大量人類偏好數(shù)據(jù),不斷迭代優(yōu)化模型。顯然,圖像的好壞是非常主觀的。因此這就需要從大量用戶那里獲得反饋數(shù)據(jù)結(jié)論,非常耗費(fèi)時(shí)間,并不是最快的評(píng)估方法,往往需要花費(fèi)很多小時(shí)才能收集到結(jié)果。
所以我們一直在想辦法設(shè)計(jì)其他可用于模型訓(xùn)練過(guò)程中持續(xù)優(yōu)化的指標(biāo)。
我覺(jué)得“文字渲染”作為評(píng)估指標(biāo)就是一個(gè)非常有意思的例子。Kaushik 其實(shí)很早就一直在強(qiáng)調(diào)這一點(diǎn),他是這方面最大的倡導(dǎo)者之一。而我們起初有段時(shí)間對(duì)他的話有點(diǎn)愛(ài)搭不理,心想“這家伙是不是有點(diǎn)瘋魔了”。他當(dāng)時(shí)確實(shí)對(duì)文本渲染指標(biāo)格外執(zhí)著。
不過(guò)到頭來(lái),文本渲染確實(shí)逐漸成為我們重點(diǎn)關(guān)注的指標(biāo)之一。你可以這樣來(lái)看:當(dāng)模型學(xué)會(huì)了在圖像中正確生成文字這種結(jié)構(gòu)以后,它往往也能學(xué)到圖像中其他結(jié)構(gòu)的生成。
在圖像中會(huì)有不同的成分,可能有大塊的結(jié)構(gòu),也會(huì)有紋理等細(xì)節(jié)。所以文字渲染這個(gè)指標(biāo)確實(shí)能夠提示模型在生成場(chǎng)景結(jié)構(gòu)方面的能力有多強(qiáng)。讓 Kaushik 再補(bǔ)充說(shuō)一點(diǎn)吧。
Logan:你當(dāng)初是基于什么信念認(rèn)為它是重要的?是在做很多實(shí)驗(yàn)時(shí)逐漸發(fā)現(xiàn)了這個(gè)現(xiàn)象嗎?
Kaushik:是的,我認(rèn)為最初是從找出這些模型不擅長(zhǎng)什么開(kāi)始的。要改進(jìn)任何模型,我們都需要一個(gè)能指示其薄弱環(huán)節(jié)的指標(biāo)。
接下來(lái)我們會(huì)嘗試各種各樣的改進(jìn)思路,無(wú)論是模型架構(gòu)、數(shù)據(jù),還是其他方面。一旦有了明確的指標(biāo),我們就肯定能在這上面取得顯著進(jìn)展。我記得幾年前,當(dāng)時(shí)幾乎沒(méi)有模型能在這方面做得很好,哪怕只是像“生成 Gemini nano”這樣簡(jiǎn)短的一行提示詞,模型都難以應(yīng)對(duì)。
因此,我們?cè)絹?lái)越重視這個(gè)指標(biāo),每次實(shí)驗(yàn)都持續(xù)跟蹤它。無(wú)論在進(jìn)行什么實(shí)驗(yàn),只要我們跟蹤這個(gè)指標(biāo),就能確保模型在這方面沒(méi)有退步。而且正因?yàn)榘阉鳛橐粋€(gè)指標(biāo),我們甚至發(fā)現(xiàn)有些我們本來(lái)不認(rèn)為會(huì)有影響的改動(dòng),在這個(gè)指標(biāo)上確實(shí)產(chǎn)生了影響。
這樣我們就能確保隨著時(shí)間推移不斷提升這個(gè)指標(biāo)。
Mustafa:正如 Kaushik 所說(shuō),當(dāng)缺乏合適的圖像質(zhì)量指標(biāo)時(shí),文字渲染是一個(gè)衡量整體圖像質(zhì)量的極佳方式。
人類評(píng)估的一個(gè)問(wèn)題在于,當(dāng)足夠多的人去評(píng)估足夠多類別的大量提示詞及其結(jié)果時(shí),確實(shí)能得到相當(dāng)多有價(jià)值的數(shù)據(jù)結(jié)果。不過(guò)這種方法代價(jià)很高,我們不可能一直讓一群人來(lái)給圖像評(píng)分。
所以在模型訓(xùn)練中,觀察這個(gè)文字渲染指標(biāo),就能很好地說(shuō)明模型的表現(xiàn)是否符合預(yù)期。
Logan:還想知道圖像生成能力和圖像理解能力之間的相互影響是怎樣的。
之前我們做過(guò)一期節(jié)目采訪 Ani,他們團(tuán)隊(duì)在圖像理解方面下了很大功夫。是不是可以這樣理解:當(dāng)模型在圖像理解上變強(qiáng)時(shí),其中一些能力實(shí)際上也可以遷移到圖像生成上?畢竟,我們肯定希望最終能夠?qū)崿F(xiàn)原生的多模態(tài)理解與生成。
Mustafa:我們希望不同能力之間能實(shí)現(xiàn)正向遷移。這不光適用于單一模態(tài)的理解和生成,還包括:我們能否從圖像、視頻或音頻中學(xué)到一些世界規(guī)律,幫助提升文本的理解或生成?所以毫無(wú)疑問(wèn),圖像理解和圖像生成就像姐妹一樣。我們確實(shí)看到它們?cè)诮诲e(cuò)生成(interleaved generation)中是攜手并進(jìn)的。
我給你舉一個(gè)例子。
在語(yǔ)言領(lǐng)域有一種現(xiàn)象叫“報(bào)告偏差”(reporting bias)。意思是:你去朋友家玩,回來(lái)后跟別人聊天時(shí),你不會(huì)特地去提你朋友家那張普通的沙發(fā)。但是如果你給別人看一張他家房間的照片,照片里卻清楚地展現(xiàn)了那張沙發(fā)。所以如果想讓模型學(xué)習(xí)世界上的很多事物,圖像和視頻里面其實(shí)已經(jīng)蘊(yùn)含了這些信息,而不需要明確地、逐字逐句地提出請(qǐng)求來(lái)獲取這些信息。
通過(guò)其他模態(tài)也能學(xué)習(xí)到許多東西,但可能需要更多的語(yǔ)言 token 來(lái)描述。所以視覺(jué)信號(hào)絕對(duì)是學(xué)習(xí)這個(gè)世界的一個(gè)很好的捷徑。
回到理解和生成問(wèn)題,這兩者是攜手并進(jìn)的。具體到“交錯(cuò)式生成”(interleaved generation)這種場(chǎng)景,你會(huì)發(fā)現(xiàn)圖像理解對(duì)提升生成效果有巨大幫助,反之亦然。圖像生成是有助益的,我們有時(shí)會(huì)通過(guò)在白板上畫(huà)圖來(lái)幫助解決問(wèn)題。所以這樣一來(lái),也許你就能更好地理解以視覺(jué)圖像形式呈現(xiàn)的問(wèn)題。
我們可以實(shí)際演示一下交錯(cuò)式生成,展示理解和生成如何與文本協(xié)同工作。
我來(lái)試一個(gè)提示詞:“把這個(gè)主體變成1980年代美國(guó)商場(chǎng)魅力風(fēng)格的照片,給出五種不同呈現(xiàn)。”
![]()
![]()
*其中的三張展示
Nicole:看起來(lái)效果不錯(cuò)。很明顯這一步花的時(shí)間稍長(zhǎng)一些,因?yàn)槲覀冞@次要生成多張圖像。另外我們還讓模型生成了描述這些圖像的文本。
原生圖像生成的一個(gè)特點(diǎn)是模型會(huì)逐張生成圖像,而非同時(shí)生成多張。因此,模型可能會(huì)選擇參考前一張圖像,然后要么嘗試生成與之前截然不同的畫(huà)面,要么在之前的基礎(chǔ)上做出一些細(xì)微修改。
至少模型可以獲取到前面已經(jīng)生成的內(nèi)容作為上下文。這就是我們所說(shuō)的“原生圖像生成模型”(native image generation model)的含義——模型能夠獲取多模態(tài)的上下文信息,然后基于它來(lái)生成新的圖像。
Logan:這很有意思。我之前腦補(bǔ)的模型工作方式一直是仿佛做了四次相互獨(dú)立的前向傳播之類的。但實(shí)際上,這整個(gè)過(guò)程都發(fā)生在同一次,是在模型統(tǒng)一的上下文中的。這樣生成的圖像風(fēng)格是保持一致的。
Nicole:模型還有個(gè)有趣的地方,每一張圖里模型都把 Logan 重復(fù)生成了兩次。
我們可以把其中一些圖放大看看。
這個(gè)造型被模型命名為“街機(jī)之王 Logan”,這張叫“Rad Dude”。這些圖像配的描述都不是我們事先寫(xiě)的,我們最初給的提示詞只是說(shuō)讓他來(lái)一張“1980年代美國(guó)商場(chǎng)魅力風(fēng)格的照片”。
下一張叫“購(gòu)物狂”,Logan 你真的可以考慮試試這些服裝!
每張圖里 Logan 的服裝都不一樣,但每個(gè)形象看起來(lái)都是 Logan。至于在每張里都出現(xiàn)了兩個(gè)人,這大概是模型的一個(gè)小瑕疵。不過(guò)能夠看到模型想出了五種完全不同的創(chuàng)意,還給每種造型起了不同的名字、穿上不同的服裝,同時(shí)角色形象仍然保持一致,這真的很厲害了。
![]()
*每張圖都生成了兩個(gè)Logan
這項(xiàng)能力不僅對(duì)創(chuàng)造角色有用,其實(shí)如果用戶有一張自己房間的照片,它也同樣有用。
用戶可以對(duì)模型說(shuō),“嘿,幫我把這個(gè)房間用五種不同風(fēng)格裝修一下”,也許可以讓它從非常有創(chuàng)意的方案一直生成到相對(duì)保守、只做了一點(diǎn)點(diǎn)改動(dòng)的方案。
我們團(tuán)隊(duì)里已經(jīng)有很多人用它來(lái)重新設(shè)計(jì)自家的花園和房子了,這種非常實(shí)用的應(yīng)用場(chǎng)景真的很棒。相比之下,我們剛才拿“80年代風(fēng)格的Logan”開(kāi)玩笑就只是娛樂(lè)了。
Logan:我實(shí)際上曾經(jīng)在AI Studio上給我女朋友快速做了個(gè)“小項(xiàng)目”,能幫她把自己辦公室裝上各種不同顏色的窗簾或百葉窗來(lái)生成可視化效果。當(dāng)時(shí)她在糾結(jié):“我不知道哪種窗簾顏色更符合想要的氛圍”,所以我就用模型試了一下。當(dāng)時(shí)用的是2.0版本,我以后得用2.5版本再試一次,看看各種不同的風(fēng)格效果。模型當(dāng)時(shí)的表現(xiàn)已經(jīng)很不錯(cuò),非常有幫助。不過(guò)2.0有時(shí)候會(huì)把床或者別的東西也改掉,不只是改窗簾。
Nicole:所以看到那個(gè)用例真的很有趣,這也是我最喜歡的用法之一。
這個(gè)模型在保持場(chǎng)景其他部分一致性方面做得相當(dāng)不錯(cuò)。我們稱這種能力為“像素級(jí)編輯”(pixel-perfect editing)。這點(diǎn)非常重要,因?yàn)橛袝r(shí)候用戶只想編輯圖像里的某一個(gè)元素,但希望其他所有東西都維持不變。
再舉個(gè)例子,如果用戶在塑造角色形象,只是想讓角色換個(gè)朝向,但希望 TA 穿的衣服在所有場(chǎng)景里都保持一樣。
這個(gè)模型在這方面做得很好,雖然不能保證每次都100%完美,但它的進(jìn)步程度已經(jīng)讓我們相當(dāng)振奮了。
Robert:還有一個(gè)非常棒的點(diǎn)就是模型速度依然很快。剛才整個(gè)生成總共用了13秒。
Logan:那對(duì)于已經(jīng)用過(guò)2.0版本的人來(lái)說(shuō),新模型的使用也有不同之處。舉個(gè)例子,用2.0的時(shí)候最好一次只做一項(xiàng)編輯。如果用戶讓它同時(shí)改六個(gè)不同的地方,模型往往每一項(xiàng)都做得不夠好。那么在這個(gè)模型中,這一點(diǎn)還有必要遵循嗎?或者說(shuō),在可用性方面還有什么需要提醒用戶注意的嗎?
Mustafa:基本上說(shuō),“交錯(cuò)式生成” 的奇妙之處之一在于,它為圖像生成提供了一種全新的范式。
如果用戶的提示詞非常復(fù)雜,比如一次就提了50個(gè)圖像編輯要求,因?yàn)檫@個(gè)模型現(xiàn)在有了非常好的機(jī)制,可以從上下文(像素級(jí)信息)中提取信息并在下一步使用,所以用戶可以讓模型把這個(gè)復(fù)雜的指令拆解開(kāi),無(wú)論是編輯任務(wù)還是圖像生成任務(wù)都一樣。
把任務(wù)拆解成多個(gè)步驟,一步步逐項(xiàng)完成編輯。比如第一步處理其中的五個(gè)修改,然后下一步再處理下五個(gè),如此往復(fù)。
這個(gè)過(guò)程其實(shí)非常類似于我們?cè)谡Z(yǔ)言模型那邊所謂“鏈?zhǔn)剿季S”(chain of thought)推理的計(jì)算。投入更多的算力,讓模型把這種思考過(guò)程帶入像素空間,并將整體任務(wù)分解成若干小步驟,這樣每一步都能做到精準(zhǔn),同時(shí)這些步驟又在不斷累積,最終就可以完成無(wú)論多復(fù)雜的任務(wù)。
所以我再?gòu)?qiáng)調(diào)一下,這就是交錯(cuò)式生成的魔力:我們可以采用增量生成的思路來(lái)生成非常復(fù)雜的圖像,而不是用傳統(tǒng)方法一股腦硬逼模型一次性生成最完美的圖。說(shuō)到底,單次生成在模型所能推動(dòng)的復(fù)雜度上是有上限的。
想想看,當(dāng)用戶要求圖像里有上百個(gè)細(xì)節(jié)的時(shí)候,一次性完成顯然做不到。但采用這種拆步驟的交織生成,用戶想要多大的容量、多高的復(fù)雜度都是可以逐步實(shí)現(xiàn)的。
Logan:Nicole,你同時(shí)也是我們 Imagen 模型這邊的產(chǎn)品經(jīng)理。那么對(duì)于開(kāi)發(fā)者或者了解我們各類模型的用戶來(lái)說(shuō),他們?cè)撊绾稳∩峄蚶斫?Imagen 模型和我們這個(gè)原生多模態(tài)模型之間的關(guān)系呢?
Nicole:我們的目標(biāo)始終是用 Gemini 構(gòu)建出一個(gè)統(tǒng)一的模型。從長(zhǎng)遠(yuǎn)來(lái)看,我們的目標(biāo)是把所有模態(tài)最終都融合進(jìn) Gemini 中,以便我們能充分利用 Mustafa 提到的各種知識(shí)遷移的好處,最終朝著 AGI 的方向邁進(jìn)。
不過(guò)在邁向終極目標(biāo)的過(guò)程中,讓專門的模型針對(duì)某一特定任務(wù)做到極致,其實(shí)有很大的價(jià)值。比如 Imagen 模型就是一個(gè)非常出色的文本圖像生成模型。而且我們也有很多不同的 Imagen 變體可以執(zhí)行圖像編輯,這些都已經(jīng)在 Vertex 平臺(tái)上提供。
這些模型就是專門針對(duì)特定任務(wù)進(jìn)行了優(yōu)化。如果你只是想做文本生成圖像,而且每次只需要輸出一張圖,希望畫(huà)質(zhì)特別精美,同時(shí)生成速度很快、成本也劃算,那么 Imagen 就是你的不二之選。
但如果你想實(shí)現(xiàn)一些更復(fù)雜的工作流,比如在同一個(gè)流程里先用模型生成圖像,再對(duì)圖像進(jìn)行編輯,并且希望經(jīng)過(guò)多輪交互來(lái)完成的時(shí)候;或者希望利用模型做一些頭腦風(fēng)暴式的創(chuàng)意工作,就像我們剛才那樣,比如“你能幫我想些設(shè)計(jì)創(chuàng)意嗎,為我的房間或這個(gè)書(shū)房?”,那么 Gemini 2.5 Flash Image 就是你該用的模型。
它真的是一個(gè)更加多模態(tài)的、有創(chuàng)造力的伙伴,既可以輸出圖像,也可以輸出文本。
而且你給 Gemini 的指令可以不用那么精確。比如一開(kāi)始我們只是說(shuō)了“make it nano”這種模糊指令,因?yàn)?Gemini 具備對(duì)世界的理解能力,會(huì)更加富有創(chuàng)造力地去解讀你的意圖。
但另一方面,如果開(kāi)發(fā)者想要針對(duì)某個(gè)特定任務(wù)使用高度優(yōu)化的模型,Imagen 系列依然是很好的選擇。
Logan:我很想聽(tīng)聽(tīng)你們覺(jué)得該用哪個(gè)模型,或者說(shuō)這個(gè)原生圖像生成模型是否能解決這個(gè)問(wèn)題。比如我對(duì)模型說(shuō):“生成一張廣告牌的圖,把這個(gè)廣告牌做成我提到的某家公司風(fēng)格。”像這種需求,原生圖像生成是不是會(huì)更有優(yōu)勢(shì)?因?yàn)樗谌谌胧澜缰R(shí)這方面會(huì)更強(qiáng)一些。
而 Imagen 雖然在你提供明確提示時(shí)生成效果很好,但在理解我隱含的意圖方面就沒(méi)那么出色,也就是在真正領(lǐng)會(huì)我想讓它做什么這一點(diǎn)上。
Nicole:我覺(jué)得你說(shuō)的是其中一個(gè)方面。另外,在原生圖像生成里,如果你就是想獲取你提到的那個(gè)公司風(fēng)格的視覺(jué)參考,你還可以直接把相關(guān)圖片輸入模型,作為參考。
你完全可以輸入一張圖像作為參考,這會(huì)幫助模型理解你的提示。而這種操作在 Gemini 里原生就支持,做起來(lái)比在 Imagen 里容易得多。
Logan:回到我們2.0升級(jí)的話題。我印象最深的是,當(dāng)2.0發(fā)布時(shí),大家給我們反饋了海量關(guān)于在 AI Studio 乃至后來(lái) Gemini 應(yīng)用中的體驗(yàn),各種模型的失敗模式之類的問(wèn)題。
能不能請(qǐng)你們說(shuō)說(shuō)這個(gè)模型改進(jìn)的過(guò)程,以及之前收集到的那些失敗案例?比如2.0時(shí)有哪些效果不好的地方,而現(xiàn)在2.5有望把它做好?
Robert:我們當(dāng)時(shí)真的是天天守在 X 上翻閱各種反饋。
我記得我和 Kaushik 還有團(tuán)隊(duì)里其他一些人,一起收集了所有這些失敗的案例,然后把它們做成了評(píng)測(cè)集。所以我們現(xiàn)在有一個(gè)基于真實(shí)用戶反饋的數(shù)據(jù)集,內(nèi)容全都是推特上別人@我們說(shuō)“嘿,這個(gè)沒(méi)生成好”的那些例子。
未來(lái)每出一個(gè)新模型,我們都會(huì)把新發(fā)現(xiàn)的問(wèn)題附加進(jìn)這個(gè)集合里。舉個(gè)例子,比如我們發(fā)布2.0時(shí),有一個(gè)常見(jiàn)的失敗情況是:如果你對(duì)圖像進(jìn)行編輯,模型確實(shí)會(huì)按你的要求添加那個(gè)編輯內(nèi)容,但它不一定能與你圖像的其余部分保持一致。所以當(dāng)時(shí)我們把這一條列入了待改進(jìn)清單,然后針對(duì)它不斷優(yōu)化。
當(dāng)然類似的問(wèn)題還有很多。所以我們一直在不斷收集這些反饋。歡迎大家把那些生成失敗的例子都發(fā)給我們!
Logan:對(duì)你們來(lái)說(shuō),有沒(méi)有特別突出的例子,是以前完全不行、而現(xiàn)在變成了一項(xiàng)絕活的?
Robert:在2.0模型中,我們?cè)菊J(rèn)為非常難的一項(xiàng)是跨圖像的一致性。特別是當(dāng)用戶需要在多張圖中構(gòu)建同一個(gè)物體或者角色,并希望這個(gè)角色在所有圖里都保持一致時(shí),結(jié)果發(fā)現(xiàn)這其實(shí)相當(dāng)容易。2.0模型能很好地做到這一點(diǎn),比如它可以在角色頭上加頂帽子、改變一下表情之類,同時(shí)姿勢(shì)和場(chǎng)景的大體結(jié)構(gòu)都能保持不變。
2.5模型在2.0這些能力基礎(chǔ)上更進(jìn)一步的是:你可以讓它從不同角度渲染同一個(gè)角色,結(jié)果角色看起來(lái)還是完全一模一樣。又或者,你可以把一件家具放到一個(gè)完全不同的環(huán)境中,改變它的朝向,并據(jù)此生成整個(gè)新場(chǎng)景。那個(gè)家具依然保持與你上傳的原始圖像高度一致,盡管它在圖像中被進(jìn)行了很大的改變。
模型并不是簡(jiǎn)單地把輸入圖像里的像素?fù)赋鰜?lái)貼到輸出圖上去而已。
Logan:我很喜歡這一點(diǎn)。我對(duì)2.0版本的一些反饋是,有時(shí)生成的圖看起來(lái)就像是直接貼上去的,有點(diǎn)像用 PS 硬加上的效果。
Nicole:實(shí)際上我認(rèn)為這很大程度上取決于參與這個(gè)模型的各個(gè)團(tuán)隊(duì)的合作。對(duì)于之前的模型,我們團(tuán)隊(duì)當(dāng)時(shí)的心態(tài)是:它按照指令完成了編輯,這就算是成功了。但當(dāng)我們后來(lái)和 Imagen 團(tuán)隊(duì)越走越近、緊密合作時(shí),他們看我們 Gemini 這邊得到的編輯結(jié)果,卻會(huì)說(shuō):“這太糟糕了。”
“你們?cè)趺磿?huì)希望模型做出這樣的效果呢?” 這是一個(gè)很好的例子,說(shuō)明將兩邊團(tuán)隊(duì)的視角融合是如何促進(jìn)模型改進(jìn)的。Gemini 團(tuán)隊(duì)這邊更注重指令遵循、世界知識(shí)這些方面;而 Imagen 團(tuán)隊(duì)則更關(guān)注讓圖像看起來(lái)自然、美觀,并且真正實(shí)用。
我認(rèn)為兩方面都很重要。正是因?yàn)檫@些團(tuán)隊(duì)一起合作,才使得2.5模型在你剛才提到的那些方面改進(jìn)了許多。
Robert:說(shuō)到這個(gè),我們團(tuán)隊(duì)里其實(shí)有幾位成員來(lái)自 Imagen 團(tuán)隊(duì),他們對(duì)圖像審美有著非常敏銳的感知。所以很多時(shí)候我們做模型評(píng)估時(shí),會(huì)讓他們真的去看成百上千張圖片。他們會(huì)很篤定地說(shuō):“不,這個(gè)模型生成的圖像明顯比另一個(gè)模型好。”
而團(tuán)隊(duì)里很多其他人可能看了同樣的圖會(huì)有點(diǎn)摸不著頭腦,找不到區(qū)別。這樣的審美敏感度需要幾年時(shí)間去打磨,我自己這幾年也進(jìn)步了很多,但團(tuán)隊(duì)里確實(shí)有些人這方面異常厲害。每當(dāng)我們需要在模型之間做出取舍時(shí),總是會(huì)請(qǐng)他們來(lái)幫忙。
Logan:能不能拿這些人的個(gè)人審美,來(lái)訓(xùn)練一個(gè)自動(dòng)評(píng)分器?
Nicole:目前我們還沒(méi)做到,這是個(gè)有意思的項(xiàng)目。
Logan:我特別期待,隨著 Gemini 理解能力的提升,能夠基于我們團(tuán)隊(duì)里某個(gè)人的審美品味訓(xùn)練出一個(gè)“審美判別算子”,把那位同事的審美直覺(jué)拿來(lái)給模型提供訓(xùn)練數(shù)據(jù)就好了。
2.5版本有了很多進(jìn)步,顯然大家一定都非常期待去體驗(yàn)這個(gè)模型。那么接下來(lái)呢?
Mustafa:說(shuō)到圖像生成,我認(rèn)為視覺(jué)質(zhì)量當(dāng)然很重要,但我覺(jué)得有一個(gè)新的著力點(diǎn)。我們希望通過(guò)一個(gè)統(tǒng)一的“Omni”(全模態(tài))模型來(lái)實(shí)現(xiàn)——就是讓它變得更聰明。
你希望你的圖像生成模型用起來(lái)讓人覺(jué)得很聰明。當(dāng)用戶和它交互時(shí),不僅會(huì)對(duì)圖像質(zhì)量感到驚艷,還會(huì)覺(jué)得:“哇,這東西好聰明。”
我腦子里有個(gè)想法,非常期待能看到模型來(lái)實(shí)現(xiàn)。但有點(diǎn)微妙的是,我很難準(zhǔn)確定義這個(gè)特性:當(dāng)我讓模型做某件事時(shí),它并沒(méi)有完全照著我的指令去做,但生成結(jié)束時(shí)我卻會(huì)說(shuō):“真慶幸,它沒(méi)有嚴(yán)格按我的指令來(lái),結(jié)果比我描述的要好的多。”
Logan:你覺(jué)得模型是故意這么做的嗎?
Mustafa:不不,我不是那個(gè)意思。我是說(shuō),有時(shí)候你的請(qǐng)求本身可能描述不足;或者有時(shí)候是你對(duì)現(xiàn)實(shí)某些情況理解有誤。但是在 Gemini 掌握的外部世界知識(shí)看來(lái),實(shí)際情況與你的想法不一樣。
我認(rèn)為這當(dāng)然不是模型有意為之,它只是自然地就發(fā)生了,你會(huì)感覺(jué)自己在跟一個(gè)比你還聰明的系統(tǒng)交互。當(dāng)我讓它生成一些圖像時(shí),即使結(jié)果有點(diǎn)偏離了我的提示,生成出了和我要求不太一樣的東西,我也不介意,因?yàn)榇蠖鄶?shù)情況下它給出的結(jié)果比我腦子里想的還要好。
所以我認(rèn)為,在我們保持或提升視覺(jué)質(zhì)量的同時(shí),讓模型在更高層面上變得更聰明絕對(duì)是我們努力推進(jìn)的方向。當(dāng)然,還有非常多具體的能力、特性和應(yīng)用場(chǎng)景,特別是針對(duì)開(kāi)發(fā)者的。后面還有一些更新的版本在籌備中,時(shí)間節(jié)點(diǎn)暫時(shí)不能透露。
Logan:你們還有沒(méi)有其他讓人興奮的新能力想提一下?
Nicole:我個(gè)人對(duì)提升準(zhǔn)確性這一點(diǎn)特別期待。這又說(shuō)回一個(gè)場(chǎng)景,有時(shí)候你可能需要為工作演示做一個(gè)小圖表或信息圖。圖表好看當(dāng)然很好,但對(duì)于這個(gè)目的來(lái)說(shuō)光好看是不夠的。它必須準(zhǔn)確,比如文本部分不允許有任何多余的亂七八糟字符。
它不僅得美觀,還必須在功能上符合場(chǎng)景需求。我覺(jué)得我們目前只是開(kāi)始探索模型在這方面的潛力,我非常期待即將推出的一些版本,我們會(huì)在這類用例上不斷提升。我的夢(mèng)想是,將來(lái)有一天這些模型真的可以幫我做一套好看的工作PPT。
我正打算把我工作中這部分活兒外包給 Gemini 去干,我們?cè)谶@方面大有可為。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.