最初爆火的Nano Banana正式發布了,果然是谷歌新出的大模型 Gemini 2.5 Flash Image !
可以說,繼Gemini 2.5、Veo 3實現多模態推理、視頻音畫同步的『 TIP 』后,2.5 Flash Image又實現了AI 圖像創作一致性、真實性的新高度!
一開始是網友在 LMArena 這個網站上, 玩讓不同的 AI 模型隱去名字,互相比拼的“AI 對戰” 能力,發現有個叫 Nano Banana 的模型非常出色,人物一致性做的比任何圖像大模型都強!
在以往,圖像生成模型在圖像美感方面表現出色,但缺乏對現實世界的深度語義理解。而 Gemini 2.5 Flash Image則能夠讀取和理解手繪圖表、幫助解答實際問題以及一步完成復雜編輯指令的能力。
現在該模型可以在Gemini和Google AI Studio上免費使用,同時API以每張圖像0.039$(折合人民幣0.28¥)的價格開放。
鯨哥對它進行了一些實際測試,總的來說,它的表現只能用Niubility來形容,AI對真實圖片的PS,已經達到了以假亂真的地步。
首先測試的是圖片生成3D手辦的測試,將歐豪和海清的原圖放進去,經典梗:你是我的神!不知大家記得不。然后告訴AI提示詞。
提示詞:把這張照片變成一個人物模型。在它后面放一個印有人物圖像的盒子,以及一臺顯示 Blender 建模過程的電腦。在盒子前面放一個圓形塑料底座,人物模型就站在上面。場景設置在室內。Google:你是我的神!
再繼續測試,讓 角色互換 ,歐豪和海清位置互換,其他動作和場景一點都不變,生成的圖片也沒有絲毫違和感。不過原圖清晰度(梗圖太老了),其實還是影響了生成的結果。
接下來測試,給阿姨做了不同的 風格變換 ,有慕夏繪畫、流行波普、孟菲斯、藍線技術等風格。不同風格中,人物一致性得到了高度統一。
它的無縫融合多張圖片的能力,也是Gemini 2.5 Flash Image的最強能力之一。
最近即時零售大戰,送外賣補貼比較多。我們讓馬斯克騎著電動車去送外賣。。。
提示詞:讓圖片中的男性馬斯克,在老居民小區里面,帶著美團的頭盔,騎電動車送外賣。我們可以看見圖片中的馬斯克帶上了某團的頭盔,騎著特定的電動車在老巷子里送外賣,人物頭像沒有變臉,姿勢和光線的一致性恰到好處。
據野史記載,秦始皇曾在南極騎著北極熊,"有圖有真相",這個網絡熱梗不知道大家有沒有聽說過,在這里,我們也測試一下它能不能將兩張完全不是一個平面的照片合在一起。
提示詞:根據圖片,合成一張秦始皇騎北極熊的圖片,要求整體保持一致的和諧。秦始皇還真騎上了北極熊......兩張圖完全不在一個維度,但硬是拼出了和諧畫面,雖然有點違和但不多。
將多人放在同一照片中合照的測試,這個很考驗模型對細節的還原。
生成的圖片中,不管是人物的穿搭搭配還是動作表情,都非常的和諧,人物站位也有前后的順序調整,這是實拍照片嗎?AI已經讓我傻掉了。
隨后測試了,在不同姿勢中保持人物形象的一致性。
提示詞:將圖中的女性360度旋轉,展示她的左側、后側、右側,保持衣服,發型,五官,人物特點的一致。圖片中的女性四方位圖,不管是體型還是表情都沒有變化,椅子的朝向也跟隨著人物的變化而變化,只在右側圖中,手勢和放腳的地方變了。
不知道大家有沒有看最近爆火的《浪浪山小妖怪》,小孩看是喜劇,大人看是職場諷刺。我讓它基于四個動漫角色生成不同表情包。
提示詞:給圖片中的四個動漫角色生成四張不同的表情包每張都保持了角色一致性,表情豐富多樣,完美做成表情包套裝。國外有人擴展到10張不同風格,意義各異,還挺有創意的。 這功能對 meme 愛好者來說是福音,但如果角色太復雜,偶爾會丟點細節。
鯨哥再測試使用提示詞進行圖片精準的調整,給幾百年沒穿衣服的大衛和沒有手臂的維納斯,分別穿上西裝和長出手臂。
提示詞:給大衛和維納斯穿上衣服,給大衛穿上一件高級感的西裝,黑色有質感的西裝,系著一個紅色的領結,穿著一雙棕色的皮鞋,手里捧著一束紅玫瑰花束。讓維納斯長出雙手,給給她穿上一件漂亮的大拖尾婚紗。大衛穿上西裝后變瘦了,這就是“穿衣顯瘦,脫衣有肉”的真實寫照嗎,維納斯也長出了手臂,身穿白色禮服站在那里。這種提示詞編輯很方便,能局部改姿勢、加顏色或去污漬,但有時會過度平滑或忽略小指令。
最后測試的是 風格遷移 的能力,我讓它把一張普通圖轉成吉卜力風格插畫,要求保持原圖核心又突出吉卜力辨識度。
提示詞:請將提供的圖片轉換為吉卜力工作室風格的插畫,具有明顯的吉卜力風格辨識度,又不影響原圖核心內容的呈現。圖片顏色柔和、細節夢幻,卻沒丟原意。X上還有人用它轉老照片成彩色高清,還修復污損,效果都很驚艷。
總而言之:
Gemini 2.5 Flash Image的核心功能是 根據文本提示生成細節豐富的圖片、無縫融合多張圖片、在不同編輯中保持人物形象的一致性,以及使用自然語言進行精準的調整,例如更換服裝或場景。它甚至還具備多模態智能,你可以混合文本和圖片,獲得意想不到的效果。此外,它還內置了水印等安全功能,可以識別 AI 生成的內容。
毫無疑問,Gemini 2.5 Flash Image 會是一款顛覆性的快速創意圖像處理工具——速度快、價格實惠(例如每張圖片 0.039 美元)以后將取代很多PS任務。
如果您對 AI 圖片編輯感興趣,不妨試試它!歡迎在底下評論區交流!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.