網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

nano banana刷屏一周：邪修玩法背后你不知道的訓(xùn)練密碼

2025-09-02 23:24:46　來(lái)源: 四木相對(duì)論

北京舉報(bào)

分享至

Google 最新發(fā)布的多模態(tài)模型 nano banana（Gemini 2.5 Flash image）已經(jīng)刷屏整整一周了。

Twitter、小紅書(shū)等等社媒上隨處可見(jiàn)小香蕉的帖子，Gemini 甚至還花錢給它買了個(gè)“熱搜”。

每次新模型出來(lái)后，網(wǎng)友們總有保留節(jié)目——玩梗和搞創(chuàng)意。nano banana 強(qiáng)大的主體形象一致性特點(diǎn)，以及對(duì)圖像理解、用戶意圖理解的能力，讓網(wǎng)友們貢獻(xiàn)出眾多“邪修”玩法。

玩法一：保持環(huán)境一致?lián)Q臉

*圖源：

@EHuanglu

玩法二：保持人物一致，指定衣服和動(dòng)作

*圖源：

@ai_for_success

玩法三：生成3D模型

*圖源：

@deedydas

上傳一張帶有物體的精美照片，或者是一幅電影截圖，nano banana 可以生成一個(gè)幾乎 1:1 的3D模型圖，可以直接用來(lái)做3D建模。

玩法四：保持人物形象，改變?nèi)宋镒藨B(tài)

*圖源：

tapehead_Lab

玩法五：原材料生成食品圖

*圖源：

maxescu

上傳一些原材料的圖片，給模型輸入提示詞讓它來(lái)做一個(gè)吃的。

玩法六：改變圖片角度

*圖源：

dr_cintas

玩法七：更換背景、姿勢(shì)，一鍵P圖

*圖源：

clandestino_ai

玩法八：上傳戶型圖看裝修

*圖源：

levelsio

玩法九：替換發(fā)型

*圖源：

hahazwei

玩法十：生成四格電影

*圖源：

FinanceYF5

玩法十一：做幾何題

*圖源：@Gorden_Sun

在邪修玩法之外，nano banana 令人驚艷的特點(diǎn)包括但不限于審美提升，任務(wù)執(zhí)行精準(zhǔn)。

近期，nano banana 核心團(tuán)隊(duì)做客了一檔節(jié)目，揭秘模型訓(xùn)練背后的故事。核心觀點(diǎn)如下：

雖然模型已經(jīng)有很大提升，但團(tuán)隊(duì)認(rèn)為 nano banana 的文字渲染能力不夠完美，接下來(lái)還會(huì)優(yōu)化。
關(guān)于模型評(píng)估，這次 Gemini 團(tuán)隊(duì)把“文字渲染”作為評(píng)估指標(biāo)之一。一個(gè)重要原因是，當(dāng)模型學(xué)會(huì)了在圖像中正確生成文字這種結(jié)構(gòu)以后，往往也能學(xué)到圖像中其他結(jié)構(gòu)的生成。
nano banana說(shuō)明，多模態(tài)模型的圖像理解和圖像生成能力是"攜手并進(jìn)"的。
nano banana能夠精準(zhǔn)執(zhí)行任務(wù)的一個(gè)原因是交錯(cuò)生成，也就是將復(fù)雜的提示分解成多個(gè)步驟，并在不同的步驟中逐一進(jìn)行編輯。模型也能獲取多模態(tài)的上下文信息，然后基于它來(lái)生成新的圖像。
nano banana 相比自己的上一代，更大的提升是用不同角度渲染同一個(gè)角色，依然能保持一致。并且，它的審美也更好。

以下是這次交流的逐字翻譯：

Logan：大家好，歡迎來(lái)到 Release Notes 節(jié)目。我是 Logan Kilpatrick，來(lái)自 Google DeepMind 團(tuán)隊(duì)。今天和我們一起的是 Kaushik、Robert、Nicole 和 Mustafa。他們是 Gemini 圖像生成模型研發(fā)和產(chǎn)品團(tuán)隊(duì)成員。我們今天討論這個(gè)最新的模型。

Nicole：對(duì)，我們?cè)?Gemini 中發(fā)布一個(gè)圖像生成和編輯功能的更新。這次是一個(gè)巨大的飛躍，模型達(dá)到了最先進(jìn)水平，我直接來(lái)演示一下這個(gè)模型的效果。現(xiàn)在我要給你拍一張照片，把畫(huà)面放遠(yuǎn)一點(diǎn)，生成一張你穿著巨型香蕉服裝的圖像，確保你的臉是清晰可見(jiàn)的。生成需要幾秒鐘，但速度還是相當(dāng)快的——你應(yīng)該記得我們上個(gè)版本也是相當(dāng)快速的模型。這是我最喜歡的功能之一。

圖片出來(lái)了，這就是 Logan，畫(huà)面中仍然是你的臉。這個(gè)模型了不起的地方在于，它生成的形象仍然看起來(lái)像你，它給你穿上了一個(gè)巨大的香蕉服裝。圖片的背景很好看，是你走在城市街道上的場(chǎng)景。

Logan：太有意思了，這張圖是在芝加哥，而且實(shí)際上這基本就是那條街的真實(shí)模樣。這個(gè)模型居然體現(xiàn)出了現(xiàn)實(shí)世界的知識(shí)！

Nicole：現(xiàn)在我們繼續(xù)，讓我們?cè)囈幌螺斎搿癿ake it nano”，讓我們看看模型會(huì)怎么做。好了，現(xiàn)在模型基于你的形象創(chuàng)建出了一個(gè)可愛(ài)的“納米版本”的你，穿著巨型香蕉服。

Logan：太喜歡這個(gè)了，真棒。

Nicole：這里特別棒的一點(diǎn)是——我們的提示詞非常模糊。

可是模型的創(chuàng)造力足夠強(qiáng)，居然能自行解釋這個(gè)要求，然后創(chuàng)建出一個(gè)場(chǎng)景，既滿足了用戶的提示，又在整體上下文中合理，還保持了場(chǎng)景中其他所有元素的一致性。

這一點(diǎn)真的令人興奮，我認(rèn)為這是我們第一次看到大模型能在多次編輯中保持場(chǎng)景的一致性，并讓用戶用非常自然的語(yǔ)言與模型交互，不需要輸入很長(zhǎng)的提示詞——只需用非常自然的語(yǔ)言給出指令，就能夠和模型經(jīng)過(guò)多輪交互完成創(chuàng)作。

Logan：的確讓人興奮。我也很喜歡這一點(diǎn)。那么模型在文字渲染方面做得怎么樣？這是我個(gè)人最關(guān)心的用例之一。要不然我們?cè)谶@張圖片上加點(diǎn)文字試試？比如“Gemini Nano”。

Nicole：圖片出來(lái)了，效果很好。文本字符數(shù)很少，詞也很簡(jiǎn)單，所以效果非常好。我們?cè)?strong>發(fā)布說(shuō)明中也指出了目前文字渲染存在一些不足之處，我們也在努力改進(jìn)。

Logan：關(guān)于此次發(fā)布的評(píng)估維度有沒(méi)有什么可以分享的？很多情況下我們用人類偏好來(lái)衡量，但很難有一個(gè)“真實(shí)標(biāo)準(zhǔn)”，我想聽(tīng)聽(tīng)你們?cè)趺纯创@個(gè)問(wèn)題，不僅針對(duì)這次發(fā)布，也包括模型訓(xùn)練的整體過(guò)程。

Mustafa：我認(rèn)為總體來(lái)說(shuō)，對(duì)圖像、視頻這類多模態(tài)任務(wù)，要持續(xù)不斷提高指標(biāo)表現(xiàn)是非常困難的。過(guò)去的常用方法是利用大量人類偏好數(shù)據(jù)，不斷迭代優(yōu)化模型。顯然，圖像的好壞是非常主觀的。因此這就需要從大量用戶那里獲得反饋數(shù)據(jù)結(jié)論，非常耗費(fèi)時(shí)間，并不是最快的評(píng)估方法，往往需要花費(fèi)很多小時(shí)才能收集到結(jié)果。

所以我們一直在想辦法設(shè)計(jì)其他可用于模型訓(xùn)練過(guò)程中持續(xù)優(yōu)化的指標(biāo)。

我覺(jué)得“文字渲染”作為評(píng)估指標(biāo)就是一個(gè)非常有意思的例子。Kaushik 其實(shí)很早就一直在強(qiáng)調(diào)這一點(diǎn)，他是這方面最大的倡導(dǎo)者之一。而我們起初有段時(shí)間對(duì)他的話有點(diǎn)愛(ài)搭不理，心想“這家伙是不是有點(diǎn)瘋魔了”。他當(dāng)時(shí)確實(shí)對(duì)文本渲染指標(biāo)格外執(zhí)著。

不過(guò)到頭來(lái)，文本渲染確實(shí)逐漸成為我們重點(diǎn)關(guān)注的指標(biāo)之一。你可以這樣來(lái)看：當(dāng)模型學(xué)會(huì)了在圖像中正確生成文字這種結(jié)構(gòu)以后，它往往也能學(xué)到圖像中其他結(jié)構(gòu)的生成。

在圖像中會(huì)有不同的成分，可能有大塊的結(jié)構(gòu)，也會(huì)有紋理等細(xì)節(jié)。所以文字渲染這個(gè)指標(biāo)確實(shí)能夠提示模型在生成場(chǎng)景結(jié)構(gòu)方面的能力有多強(qiáng)。讓 Kaushik 再補(bǔ)充說(shuō)一點(diǎn)吧。

Logan：你當(dāng)初是基于什么信念認(rèn)為它是重要的？是在做很多實(shí)驗(yàn)時(shí)逐漸發(fā)現(xiàn)了這個(gè)現(xiàn)象嗎？

Kaushik：是的，我認(rèn)為最初是從找出這些模型不擅長(zhǎng)什么開(kāi)始的。要改進(jìn)任何模型，我們都需要一個(gè)能指示其薄弱環(huán)節(jié)的指標(biāo)。

接下來(lái)我們會(huì)嘗試各種各樣的改進(jìn)思路，無(wú)論是模型架構(gòu)、數(shù)據(jù)，還是其他方面。一旦有了明確的指標(biāo)，我們就肯定能在這上面取得顯著進(jìn)展。我記得幾年前，當(dāng)時(shí)幾乎沒(méi)有模型能在這方面做得很好，哪怕只是像“生成 Gemini nano”這樣簡(jiǎn)短的一行提示詞，模型都難以應(yīng)對(duì)。

因此，我們?cè)絹?lái)越重視這個(gè)指標(biāo)，每次實(shí)驗(yàn)都持續(xù)跟蹤它。無(wú)論在進(jìn)行什么實(shí)驗(yàn)，只要我們跟蹤這個(gè)指標(biāo)，就能確保模型在這方面沒(méi)有退步。而且正因?yàn)榘阉鳛橐粋€(gè)指標(biāo)，我們甚至發(fā)現(xiàn)有些我們本來(lái)不認(rèn)為會(huì)有影響的改動(dòng)，在這個(gè)指標(biāo)上確實(shí)產(chǎn)生了影響。

這樣我們就能確保隨著時(shí)間推移不斷提升這個(gè)指標(biāo)。

Mustafa：正如 Kaushik 所說(shuō)，當(dāng)缺乏合適的圖像質(zhì)量指標(biāo)時(shí)，文字渲染是一個(gè)衡量整體圖像質(zhì)量的極佳方式。

人類評(píng)估的一個(gè)問(wèn)題在于，當(dāng)足夠多的人去評(píng)估足夠多類別的大量提示詞及其結(jié)果時(shí)，確實(shí)能得到相當(dāng)多有價(jià)值的數(shù)據(jù)結(jié)果。不過(guò)這種方法代價(jià)很高，我們不可能一直讓一群人來(lái)給圖像評(píng)分。

所以在模型訓(xùn)練中，觀察這個(gè)文字渲染指標(biāo)，就能很好地說(shuō)明模型的表現(xiàn)是否符合預(yù)期。

Logan：還想知道圖像生成能力和圖像理解能力之間的相互影響是怎樣的。

之前我們做過(guò)一期節(jié)目采訪 Ani，他們團(tuán)隊(duì)在圖像理解方面下了很大功夫。是不是可以這樣理解：當(dāng)模型在圖像理解上變強(qiáng)時(shí)，其中一些能力實(shí)際上也可以遷移到圖像生成上？畢竟，我們肯定希望最終能夠?qū)崿F(xiàn)原生的多模態(tài)理解與生成。

Mustafa：我們希望不同能力之間能實(shí)現(xiàn)正向遷移。這不光適用于單一模態(tài)的理解和生成，還包括：我們能否從圖像、視頻或音頻中學(xué)到一些世界規(guī)律，幫助提升文本的理解或生成？所以毫無(wú)疑問(wèn)，圖像理解和圖像生成就像姐妹一樣。我們確實(shí)看到它們?cè)诮诲e(cuò)生成（interleaved generation）中是攜手并進(jìn)的。

我給你舉一個(gè)例子。

在語(yǔ)言領(lǐng)域有一種現(xiàn)象叫“報(bào)告偏差”（reporting bias）。意思是：你去朋友家玩，回來(lái)后跟別人聊天時(shí)，你不會(huì)特地去提你朋友家那張普通的沙發(fā)。但是如果你給別人看一張他家房間的照片，照片里卻清楚地展現(xiàn)了那張沙發(fā)。所以如果想讓模型學(xué)習(xí)世界上的很多事物，圖像和視頻里面其實(shí)已經(jīng)蘊(yùn)含了這些信息，而不需要明確地、逐字逐句地提出請(qǐng)求來(lái)獲取這些信息。

通過(guò)其他模態(tài)也能學(xué)習(xí)到許多東西，但可能需要更多的語(yǔ)言 token 來(lái)描述。所以視覺(jué)信號(hào)絕對(duì)是學(xué)習(xí)這個(gè)世界的一個(gè)很好的捷徑。

回到理解和生成問(wèn)題，這兩者是攜手并進(jìn)的。具體到“交錯(cuò)式生成”（interleaved generation）這種場(chǎng)景，你會(huì)發(fā)現(xiàn)圖像理解對(duì)提升生成效果有巨大幫助，反之亦然。圖像生成是有助益的，我們有時(shí)會(huì)通過(guò)在白板上畫(huà)圖來(lái)幫助解決問(wèn)題。所以這樣一來(lái)，也許你就能更好地理解以視覺(jué)圖像形式呈現(xiàn)的問(wèn)題。

我們可以實(shí)際演示一下交錯(cuò)式生成，展示理解和生成如何與文本協(xié)同工作。

我來(lái)試一個(gè)提示詞：“把這個(gè)主體變成1980年代美國(guó)商場(chǎng)魅力風(fēng)格的照片，給出五種不同呈現(xiàn)。”

*其中的三張展示

Nicole：看起來(lái)效果不錯(cuò)。很明顯這一步花的時(shí)間稍長(zhǎng)一些，因?yàn)槲覀冞@次要生成多張圖像。另外我們還讓模型生成了描述這些圖像的文本。

原生圖像生成的一個(gè)特點(diǎn)是模型會(huì)逐張生成圖像，而非同時(shí)生成多張。因此，模型可能會(huì)選擇參考前一張圖像，然后要么嘗試生成與之前截然不同的畫(huà)面，要么在之前的基礎(chǔ)上做出一些細(xì)微修改。

至少模型可以獲取到前面已經(jīng)生成的內(nèi)容作為上下文。這就是我們所說(shuō)的“原生圖像生成模型”（native image generation model）的含義——模型能夠獲取多模態(tài)的上下文信息，然后基于它來(lái)生成新的圖像。

Logan：這很有意思。我之前腦補(bǔ)的模型工作方式一直是仿佛做了四次相互獨(dú)立的前向傳播之類的。但實(shí)際上，這整個(gè)過(guò)程都發(fā)生在同一次，是在模型統(tǒng)一的上下文中的。這樣生成的圖像風(fēng)格是保持一致的。

Nicole：模型還有個(gè)有趣的地方，每一張圖里模型都把 Logan 重復(fù)生成了兩次。

我們可以把其中一些圖放大看看。

這個(gè)造型被模型命名為“街機(jī)之王 Logan”，這張叫“Rad Dude”。這些圖像配的描述都不是我們事先寫(xiě)的，我們最初給的提示詞只是說(shuō)讓他來(lái)一張“1980年代美國(guó)商場(chǎng)魅力風(fēng)格的照片”。

下一張叫“購(gòu)物狂”，Logan 你真的可以考慮試試這些服裝！

每張圖里 Logan 的服裝都不一樣，但每個(gè)形象看起來(lái)都是 Logan。至于在每張里都出現(xiàn)了兩個(gè)人，這大概是模型的一個(gè)小瑕疵。不過(guò)能夠看到模型想出了五種完全不同的創(chuàng)意，還給每種造型起了不同的名字、穿上不同的服裝，同時(shí)角色形象仍然保持一致，這真的很厲害了。

*每張圖都生成了兩個(gè)Logan

這項(xiàng)能力不僅對(duì)創(chuàng)造角色有用，其實(shí)如果用戶有一張自己房間的照片，它也同樣有用。

用戶可以對(duì)模型說(shuō)，“嘿，幫我把這個(gè)房間用五種不同風(fēng)格裝修一下”，也許可以讓它從非常有創(chuàng)意的方案一直生成到相對(duì)保守、只做了一點(diǎn)點(diǎn)改動(dòng)的方案。

我們團(tuán)隊(duì)里已經(jīng)有很多人用它來(lái)重新設(shè)計(jì)自家的花園和房子了，這種非常實(shí)用的應(yīng)用場(chǎng)景真的很棒。相比之下，我們剛才拿“80年代風(fēng)格的Logan”開(kāi)玩笑就只是娛樂(lè)了。

Logan：我實(shí)際上曾經(jīng)在AI Studio上給我女朋友快速做了個(gè)“小項(xiàng)目”，能幫她把自己辦公室裝上各種不同顏色的窗簾或百葉窗來(lái)生成可視化效果。當(dāng)時(shí)她在糾結(jié)：“我不知道哪種窗簾顏色更符合想要的氛圍”，所以我就用模型試了一下。當(dāng)時(shí)用的是2.0版本，我以后得用2.5版本再試一次，看看各種不同的風(fēng)格效果。模型當(dāng)時(shí)的表現(xiàn)已經(jīng)很不錯(cuò)，非常有幫助。不過(guò)2.0有時(shí)候會(huì)把床或者別的東西也改掉，不只是改窗簾。

Nicole：所以看到那個(gè)用例真的很有趣，這也是我最喜歡的用法之一。

這個(gè)模型在保持場(chǎng)景其他部分一致性方面做得相當(dāng)不錯(cuò)。我們稱這種能力為“像素級(jí)編輯”（pixel-perfect editing）。這點(diǎn)非常重要，因?yàn)橛袝r(shí)候用戶只想編輯圖像里的某一個(gè)元素，但希望其他所有東西都維持不變。

再舉個(gè)例子，如果用戶在塑造角色形象，只是想讓角色換個(gè)朝向，但希望 TA 穿的衣服在所有場(chǎng)景里都保持一樣。

這個(gè)模型在這方面做得很好，雖然不能保證每次都100%完美，但它的進(jìn)步程度已經(jīng)讓我們相當(dāng)振奮了。

Robert：還有一個(gè)非常棒的點(diǎn)就是模型速度依然很快。剛才整個(gè)生成總共用了13秒。

Logan：那對(duì)于已經(jīng)用過(guò)2.0版本的人來(lái)說(shuō)，新模型的使用也有不同之處。舉個(gè)例子，用2.0的時(shí)候最好一次只做一項(xiàng)編輯。如果用戶讓它同時(shí)改六個(gè)不同的地方，模型往往每一項(xiàng)都做得不夠好。那么在這個(gè)模型中，這一點(diǎn)還有必要遵循嗎？或者說(shuō)，在可用性方面還有什么需要提醒用戶注意的嗎？

Mustafa：基本上說(shuō)，“交錯(cuò)式生成” 的奇妙之處之一在于，它為圖像生成提供了一種全新的范式。

如果用戶的提示詞非常復(fù)雜，比如一次就提了50個(gè)圖像編輯要求，因?yàn)檫@個(gè)模型現(xiàn)在有了非常好的機(jī)制，可以從上下文（像素級(jí)信息）中提取信息并在下一步使用，所以用戶可以讓模型把這個(gè)復(fù)雜的指令拆解開(kāi)，無(wú)論是編輯任務(wù)還是圖像生成任務(wù)都一樣。

把任務(wù)拆解成多個(gè)步驟，一步步逐項(xiàng)完成編輯。比如第一步處理其中的五個(gè)修改，然后下一步再處理下五個(gè)，如此往復(fù)。

這個(gè)過(guò)程其實(shí)非常類似于我們?cè)谡Z(yǔ)言模型那邊所謂“鏈?zhǔn)剿季S”（chain of thought）推理的計(jì)算。投入更多的算力，讓模型把這種思考過(guò)程帶入像素空間，并將整體任務(wù)分解成若干小步驟，這樣每一步都能做到精準(zhǔn)，同時(shí)這些步驟又在不斷累積，最終就可以完成無(wú)論多復(fù)雜的任務(wù)。

所以我再?gòu)?qiáng)調(diào)一下，這就是交錯(cuò)式生成的魔力：我們可以采用增量生成的思路來(lái)生成非常復(fù)雜的圖像，而不是用傳統(tǒng)方法一股腦硬逼模型一次性生成最完美的圖。說(shuō)到底，單次生成在模型所能推動(dòng)的復(fù)雜度上是有上限的。

想想看，當(dāng)用戶要求圖像里有上百個(gè)細(xì)節(jié)的時(shí)候，一次性完成顯然做不到。但采用這種拆步驟的交織生成，用戶想要多大的容量、多高的復(fù)雜度都是可以逐步實(shí)現(xiàn)的。

Logan：Nicole，你同時(shí)也是我們 Imagen 模型這邊的產(chǎn)品經(jīng)理。那么對(duì)于開(kāi)發(fā)者或者了解我們各類模型的用戶來(lái)說(shuō)，他們?cè)撊绾稳∩峄蚶斫?Imagen 模型和我們這個(gè)原生多模態(tài)模型之間的關(guān)系呢？

Nicole：我們的目標(biāo)始終是用 Gemini 構(gòu)建出一個(gè)統(tǒng)一的模型。從長(zhǎng)遠(yuǎn)來(lái)看，我們的目標(biāo)是把所有模態(tài)最終都融合進(jìn) Gemini 中，以便我們能充分利用 Mustafa 提到的各種知識(shí)遷移的好處，最終朝著 AGI 的方向邁進(jìn)。

不過(guò)在邁向終極目標(biāo)的過(guò)程中，讓專門的模型針對(duì)某一特定任務(wù)做到極致，其實(shí)有很大的價(jià)值。比如 Imagen 模型就是一個(gè)非常出色的文本圖像生成模型。而且我們也有很多不同的 Imagen 變體可以執(zhí)行圖像編輯，這些都已經(jīng)在 Vertex 平臺(tái)上提供。

這些模型就是專門針對(duì)特定任務(wù)進(jìn)行了優(yōu)化。如果你只是想做文本生成圖像，而且每次只需要輸出一張圖，希望畫(huà)質(zhì)特別精美，同時(shí)生成速度很快、成本也劃算，那么 Imagen 就是你的不二之選。

但如果你想實(shí)現(xiàn)一些更復(fù)雜的工作流，比如在同一個(gè)流程里先用模型生成圖像，再對(duì)圖像進(jìn)行編輯，并且希望經(jīng)過(guò)多輪交互來(lái)完成的時(shí)候；或者希望利用模型做一些頭腦風(fēng)暴式的創(chuàng)意工作，就像我們剛才那樣，比如“你能幫我想些設(shè)計(jì)創(chuàng)意嗎，為我的房間或這個(gè)書(shū)房？”，那么 Gemini 2.5 Flash Image 就是你該用的模型。

它真的是一個(gè)更加多模態(tài)的、有創(chuàng)造力的伙伴，既可以輸出圖像，也可以輸出文本。

而且你給 Gemini 的指令可以不用那么精確。比如一開(kāi)始我們只是說(shuō)了“make it nano”這種模糊指令，因?yàn)?Gemini 具備對(duì)世界的理解能力，會(huì)更加富有創(chuàng)造力地去解讀你的意圖。

但另一方面，如果開(kāi)發(fā)者想要針對(duì)某個(gè)特定任務(wù)使用高度優(yōu)化的模型，Imagen 系列依然是很好的選擇。

Logan：我很想聽(tīng)聽(tīng)你們覺(jué)得該用哪個(gè)模型，或者說(shuō)這個(gè)原生圖像生成模型是否能解決這個(gè)問(wèn)題。比如我對(duì)模型說(shuō)：“生成一張廣告牌的圖，把這個(gè)廣告牌做成我提到的某家公司風(fēng)格。”像這種需求，原生圖像生成是不是會(huì)更有優(yōu)勢(shì)？因?yàn)樗谌谌胧澜缰R(shí)這方面會(huì)更強(qiáng)一些。

而 Imagen 雖然在你提供明確提示時(shí)生成效果很好，但在理解我隱含的意圖方面就沒(méi)那么出色，也就是在真正領(lǐng)會(huì)我想讓它做什么這一點(diǎn)上。

Nicole：我覺(jué)得你說(shuō)的是其中一個(gè)方面。另外，在原生圖像生成里，如果你就是想獲取你提到的那個(gè)公司風(fēng)格的視覺(jué)參考，你還可以直接把相關(guān)圖片輸入模型，作為參考。

你完全可以輸入一張圖像作為參考，這會(huì)幫助模型理解你的提示。而這種操作在 Gemini 里原生就支持，做起來(lái)比在 Imagen 里容易得多。

Logan：回到我們2.0升級(jí)的話題。我印象最深的是，當(dāng)2.0發(fā)布時(shí)，大家給我們反饋了海量關(guān)于在 AI Studio 乃至后來(lái) Gemini 應(yīng)用中的體驗(yàn)，各種模型的失敗模式之類的問(wèn)題。

能不能請(qǐng)你們說(shuō)說(shuō)這個(gè)模型改進(jìn)的過(guò)程，以及之前收集到的那些失敗案例？比如2.0時(shí)有哪些效果不好的地方，而現(xiàn)在2.5有望把它做好？

Robert：我們當(dāng)時(shí)真的是天天守在 X 上翻閱各種反饋。

我記得我和 Kaushik 還有團(tuán)隊(duì)里其他一些人，一起收集了所有這些失敗的案例，然后把它們做成了評(píng)測(cè)集。所以我們現(xiàn)在有一個(gè)基于真實(shí)用戶反饋的數(shù)據(jù)集，內(nèi)容全都是推特上別人@我們說(shuō)“嘿，這個(gè)沒(méi)生成好”的那些例子。

未來(lái)每出一個(gè)新模型，我們都會(huì)把新發(fā)現(xiàn)的問(wèn)題附加進(jìn)這個(gè)集合里。舉個(gè)例子，比如我們發(fā)布2.0時(shí)，有一個(gè)常見(jiàn)的失敗情況是：如果你對(duì)圖像進(jìn)行編輯，模型確實(shí)會(huì)按你的要求添加那個(gè)編輯內(nèi)容，但它不一定能與你圖像的其余部分保持一致。所以當(dāng)時(shí)我們把這一條列入了待改進(jìn)清單，然后針對(duì)它不斷優(yōu)化。

當(dāng)然類似的問(wèn)題還有很多。所以我們一直在不斷收集這些反饋。歡迎大家把那些生成失敗的例子都發(fā)給我們！

Logan：對(duì)你們來(lái)說(shuō)，有沒(méi)有特別突出的例子，是以前完全不行、而現(xiàn)在變成了一項(xiàng)絕活的？

Robert：在2.0模型中，我們?cè)菊J(rèn)為非常難的一項(xiàng)是跨圖像的一致性。特別是當(dāng)用戶需要在多張圖中構(gòu)建同一個(gè)物體或者角色，并希望這個(gè)角色在所有圖里都保持一致時(shí)，結(jié)果發(fā)現(xiàn)這其實(shí)相當(dāng)容易。2.0模型能很好地做到這一點(diǎn)，比如它可以在角色頭上加頂帽子、改變一下表情之類，同時(shí)姿勢(shì)和場(chǎng)景的大體結(jié)構(gòu)都能保持不變。

2.5模型在2.0這些能力基礎(chǔ)上更進(jìn)一步的是：你可以讓它從不同角度渲染同一個(gè)角色，結(jié)果角色看起來(lái)還是完全一模一樣。又或者，你可以把一件家具放到一個(gè)完全不同的環(huán)境中，改變它的朝向，并據(jù)此生成整個(gè)新場(chǎng)景。那個(gè)家具依然保持與你上傳的原始圖像高度一致，盡管它在圖像中被進(jìn)行了很大的改變。

模型并不是簡(jiǎn)單地把輸入圖像里的像素?fù)赋鰜?lái)貼到輸出圖上去而已。

Logan：我很喜歡這一點(diǎn)。我對(duì)2.0版本的一些反饋是，有時(shí)生成的圖看起來(lái)就像是直接貼上去的，有點(diǎn)像用 PS 硬加上的效果。

Nicole：實(shí)際上我認(rèn)為這很大程度上取決于參與這個(gè)模型的各個(gè)團(tuán)隊(duì)的合作。對(duì)于之前的模型，我們團(tuán)隊(duì)當(dāng)時(shí)的心態(tài)是：它按照指令完成了編輯，這就算是成功了。但當(dāng)我們后來(lái)和 Imagen 團(tuán)隊(duì)越走越近、緊密合作時(shí)，他們看我們 Gemini 這邊得到的編輯結(jié)果，卻會(huì)說(shuō)：“這太糟糕了。”

“你們?cè)趺磿?huì)希望模型做出這樣的效果呢？” 這是一個(gè)很好的例子，說(shuō)明將兩邊團(tuán)隊(duì)的視角融合是如何促進(jìn)模型改進(jìn)的。Gemini 團(tuán)隊(duì)這邊更注重指令遵循、世界知識(shí)這些方面；而 Imagen 團(tuán)隊(duì)則更關(guān)注讓圖像看起來(lái)自然、美觀，并且真正實(shí)用。

我認(rèn)為兩方面都很重要。正是因?yàn)檫@些團(tuán)隊(duì)一起合作，才使得2.5模型在你剛才提到的那些方面改進(jìn)了許多。

Robert：說(shuō)到這個(gè)，我們團(tuán)隊(duì)里其實(shí)有幾位成員來(lái)自 Imagen 團(tuán)隊(duì)，他們對(duì)圖像審美有著非常敏銳的感知。所以很多時(shí)候我們做模型評(píng)估時(shí)，會(huì)讓他們真的去看成百上千張圖片。他們會(huì)很篤定地說(shuō)：“不，這個(gè)模型生成的圖像明顯比另一個(gè)模型好。”

而團(tuán)隊(duì)里很多其他人可能看了同樣的圖會(huì)有點(diǎn)摸不著頭腦，找不到區(qū)別。這樣的審美敏感度需要幾年時(shí)間去打磨，我自己這幾年也進(jìn)步了很多，但團(tuán)隊(duì)里確實(shí)有些人這方面異常厲害。每當(dāng)我們需要在模型之間做出取舍時(shí)，總是會(huì)請(qǐng)他們來(lái)幫忙。

Logan：能不能拿這些人的個(gè)人審美，來(lái)訓(xùn)練一個(gè)自動(dòng)評(píng)分器？

Nicole：目前我們還沒(méi)做到，這是個(gè)有意思的項(xiàng)目。

Logan：我特別期待，隨著 Gemini 理解能力的提升，能夠基于我們團(tuán)隊(duì)里某個(gè)人的審美品味訓(xùn)練出一個(gè)“審美判別算子”，把那位同事的審美直覺(jué)拿來(lái)給模型提供訓(xùn)練數(shù)據(jù)就好了。

2.5版本有了很多進(jìn)步，顯然大家一定都非常期待去體驗(yàn)這個(gè)模型。那么接下來(lái)呢？

Mustafa：說(shuō)到圖像生成，我認(rèn)為視覺(jué)質(zhì)量當(dāng)然很重要，但我覺(jué)得有一個(gè)新的著力點(diǎn)。我們希望通過(guò)一個(gè)統(tǒng)一的“Omni”（全模態(tài)）模型來(lái)實(shí)現(xiàn)——就是讓它變得更聰明。

你希望你的圖像生成模型用起來(lái)讓人覺(jué)得很聰明。當(dāng)用戶和它交互時(shí)，不僅會(huì)對(duì)圖像質(zhì)量感到驚艷，還會(huì)覺(jué)得：“哇，這東西好聰明。”

我腦子里有個(gè)想法，非常期待能看到模型來(lái)實(shí)現(xiàn)。但有點(diǎn)微妙的是，我很難準(zhǔn)確定義這個(gè)特性：當(dāng)我讓模型做某件事時(shí)，它并沒(méi)有完全照著我的指令去做，但生成結(jié)束時(shí)我卻會(huì)說(shuō)：“真慶幸，它沒(méi)有嚴(yán)格按我的指令來(lái)，結(jié)果比我描述的要好的多。”

Logan：你覺(jué)得模型是故意這么做的嗎？

Mustafa：不不，我不是那個(gè)意思。我是說(shuō)，有時(shí)候你的請(qǐng)求本身可能描述不足；或者有時(shí)候是你對(duì)現(xiàn)實(shí)某些情況理解有誤。但是在 Gemini 掌握的外部世界知識(shí)看來(lái)，實(shí)際情況與你的想法不一樣。

我認(rèn)為這當(dāng)然不是模型有意為之，它只是自然地就發(fā)生了，你會(huì)感覺(jué)自己在跟一個(gè)比你還聰明的系統(tǒng)交互。當(dāng)我讓它生成一些圖像時(shí)，即使結(jié)果有點(diǎn)偏離了我的提示，生成出了和我要求不太一樣的東西，我也不介意，因?yàn)榇蠖鄶?shù)情況下它給出的結(jié)果比我腦子里想的還要好。

所以我認(rèn)為，在我們保持或提升視覺(jué)質(zhì)量的同時(shí)，讓模型在更高層面上變得更聰明絕對(duì)是我們努力推進(jìn)的方向。當(dāng)然，還有非常多具體的能力、特性和應(yīng)用場(chǎng)景，特別是針對(duì)開(kāi)發(fā)者的。后面還有一些更新的版本在籌備中，時(shí)間節(jié)點(diǎn)暫時(shí)不能透露。

Logan：你們還有沒(méi)有其他讓人興奮的新能力想提一下？

Nicole：我個(gè)人對(duì)提升準(zhǔn)確性這一點(diǎn)特別期待。這又說(shuō)回一個(gè)場(chǎng)景，有時(shí)候你可能需要為工作演示做一個(gè)小圖表或信息圖。圖表好看當(dāng)然很好，但對(duì)于這個(gè)目的來(lái)說(shuō)光好看是不夠的。它必須準(zhǔn)確，比如文本部分不允許有任何多余的亂七八糟字符。

它不僅得美觀，還必須在功能上符合場(chǎng)景需求。我覺(jué)得我們目前只是開(kāi)始探索模型在這方面的潛力，我非常期待即將推出的一些版本，我們會(huì)在這類用例上不斷提升。我的夢(mèng)想是，將來(lái)有一天這些模型真的可以幫我做一套好看的工作PPT。

我正打算把我工作中這部分活兒外包給 Gemini 去干，我們?cè)谶@方面大有可為。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.