網易首頁 > 網易號 > 正文申請入駐

谷歌2.5 Image：『你是我的神』，準備丟掉PS了

2025-08-27 20:30:01　來源: 鯨選AI

北京舉報

分享至

最初爆火的Nano Banana正式發布了，果然是谷歌新出的大模型 Gemini 2.5 Flash Image ！

可以說，繼Gemini 2.5、Veo 3實現多模態推理、視頻音畫同步的『 TIP 』后，2.5 Flash Image又實現了AI 圖像創作一致性、真實性的新高度！

一開始是網友在 LMArena 這個網站上，玩讓不同的 AI 模型隱去名字，互相比拼的“AI 對戰” 能力，發現有個叫 Nano Banana 的模型非常出色，人物一致性做的比任何圖像大模型都強！

在以往，圖像生成模型在圖像美感方面表現出色，但缺乏對現實世界的深度語義理解。而 Gemini 2.5 Flash Image則能夠讀取和理解手繪圖表、幫助解答實際問題以及一步完成復雜編輯指令的能力。

現在該模型可以在Gemini和Google AI Studio上免費使用，同時API以每張圖像0.039$（折合人民幣0.28￥）的價格開放。

鯨哥對它進行了一些實際測試，總的來說，它的表現只能用Niubility來形容，AI對真實圖片的PS，已經達到了以假亂真的地步。

首先測試的是圖片生成3D手辦的測試，將歐豪和海清的原圖放進去，經典梗：你是我的神！不知大家記得不。然后告訴AI提示詞。

提示詞：把這張照片變成一個人物模型。在它后面放一個印有人物圖像的盒子，以及一臺顯示 Blender 建模過程的電腦。在盒子前面放一個圓形塑料底座，人物模型就站在上面。場景設置在室內。

Google:你是我的神！

再繼續測試，讓角色互換，歐豪和海清位置互換，其他動作和場景一點都不變，生成的圖片也沒有絲毫違和感。不過原圖清晰度（梗圖太老了），其實還是影響了生成的結果。

接下來測試，給阿姨做了不同的風格變換，有慕夏繪畫、流行波普、孟菲斯、藍線技術等風格。不同風格中，人物一致性得到了高度統一。

它的無縫融合多張圖片的能力，也是Gemini 2.5 Flash Image的最強能力之一。

最近即時零售大戰，送外賣補貼比較多。我們讓馬斯克騎著電動車去送外賣。。。

提示詞：讓圖片中的男性馬斯克，在老居民小區里面，帶著美團的頭盔，騎電動車送外賣。

我們可以看見圖片中的馬斯克帶上了某團的頭盔，騎著特定的電動車在老巷子里送外賣，人物頭像沒有變臉，姿勢和光線的一致性恰到好處。

據野史記載，秦始皇曾在南極騎著北極熊，"有圖有真相"，這個網絡熱梗不知道大家有沒有聽說過，在這里，我們也測試一下它能不能將兩張完全不是一個平面的照片合在一起。

提示詞：根據圖片，合成一張秦始皇騎北極熊的圖片，要求整體保持一致的和諧。

秦始皇還真騎上了北極熊......兩張圖完全不在一個維度，但硬是拼出了和諧畫面，雖然有點違和但不多。

將多人放在同一照片中合照的測試，這個很考驗模型對細節的還原。

生成的圖片中，不管是人物的穿搭搭配還是動作表情，都非常的和諧，人物站位也有前后的順序調整，這是實拍照片嗎？AI已經讓我傻掉了。

隨后測試了，在不同姿勢中保持人物形象的一致性。

提示詞：將圖中的女性360度旋轉，展示她的左側、后側、右側，保持衣服，發型，五官，人物特點的一致。

圖片中的女性四方位圖，不管是體型還是表情都沒有變化，椅子的朝向也跟隨著人物的變化而變化，只在右側圖中，手勢和放腳的地方變了。

不知道大家有沒有看最近爆火的《浪浪山小妖怪》，小孩看是喜劇，大人看是職場諷刺。我讓它基于四個動漫角色生成不同表情包。

提示詞：給圖片中的四個動漫角色生成四張不同的表情包

每張都保持了角色一致性，表情豐富多樣，完美做成表情包套裝。國外有人擴展到10張不同風格，意義各異，還挺有創意的。這功能對 meme 愛好者來說是福音，但如果角色太復雜，偶爾會丟點細節。

鯨哥再測試使用提示詞進行圖片精準的調整，給幾百年沒穿衣服的大衛和沒有手臂的維納斯，分別穿上西裝和長出手臂。

提示詞：給大衛和維納斯穿上衣服，給大衛穿上一件高級感的西裝，黑色有質感的西裝，系著一個紅色的領結，穿著一雙棕色的皮鞋，手里捧著一束紅玫瑰花束。讓維納斯長出雙手，給給她穿上一件漂亮的大拖尾婚紗。

大衛穿上西裝后變瘦了，這就是“穿衣顯瘦，脫衣有肉”的真實寫照嗎，維納斯也長出了手臂，身穿白色禮服站在那里。這種提示詞編輯很方便，能局部改姿勢、加顏色或去污漬，但有時會過度平滑或忽略小指令。

最后測試的是風格遷移的能力，我讓它把一張普通圖轉成吉卜力風格插畫，要求保持原圖核心又突出吉卜力辨識度。

提示詞：請將提供的圖片轉換為吉卜力工作室風格的插畫，具有明顯的吉卜力風格辨識度，又不影響原圖核心內容的呈現。

圖片顏色柔和、細節夢幻，卻沒丟原意。X上還有人用它轉老照片成彩色高清，還修復污損，效果都很驚艷。

總而言之：

Gemini 2.5 Flash Image的核心功能是根據文本提示生成細節豐富的圖片、無縫融合多張圖片、在不同編輯中保持人物形象的一致性，以及使用自然語言進行精準的調整，例如更換服裝或場景。它甚至還具備多模態智能，你可以混合文本和圖片，獲得意想不到的效果。此外，它還內置了水印等安全功能，可以識別 AI 生成的內容。

毫無疑問，Gemini 2.5 Flash Image 會是一款顛覆性的快速創意圖像處理工具——速度快、價格實惠（例如每張圖片 0.039 美元）以后將取代很多PS任務。

如果您對 AI 圖片編輯感興趣，不妨試試它！歡迎在底下評論區交流！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.