網易首頁 > 網易號 > 正文申請入駐

Nano Banana 2登頂Arena第一，我拿5個真實項目測了一遍

2026-02-27 23:44:25　來源: AI進化論花生

北京舉報

分享至

昨天Nano Banana 2發布了。

說實話，AI生圖模型更新這么頻繁，大多數時候我已經不太激動了。但NB2確實有點不一樣——它在Arena的text to image盲測里直接沖到了第一名，超過了自家的Nano Banana Pro，也超過了GPT Image。

而且不是靠畫質碾壓的。NB2的底層從Gemini 3 Pro換成了Gemini 3.1 Flash，跑得更快、成本更低，但畫面質量幾乎沒掉。

放一組對比數據：

速度從每張10-20秒降到4-6秒。Arena ELO從1223拉到1280。價格幾乎全線腰斬——1K分辨率$0.134→$0.067，4K從$0.240→$0.151。中文渲染從「偶爾筆畫出錯」升級到了商用級別。唯一的代價是放大到像素級對比時NBP稍微精細一點，日常用肉眼看不出。

速度快一倍，價格砍一半，效果還排第一。只能說在文生圖領域，Google的領先優勢越來越明顯了。

不過模型歸模型。NB2是通過API調用的，每張圖按量收費，還得有Google Cloud賬號才能用——對國內用戶來說這本身就是個門檻。

所以，我這次選擇在Lovart上測NB2。Lovart直接集成了NB2，不需要折騰API。更關鍵的是，Pro會員閑時0積分無限生成——NB2本來按張收費的東西，在這里變成了包月不限量。

而且Lovart不只是套了個模型殼子。生成之后它還有一整套編輯能力：改文字、改細節、去背景、貼樣機、拆圖層。后面5個案例里都會用到。

上篇文章之后，最多人問的兩個問題

前陣子我寫了一篇「」，講我給Claude Code做的PPT Skill。那個Skill有兩條路徑——Path A是HTML轉PPT，文字可編輯；Path B是用Nano Banana Pro生成全AI插畫，視覺沖擊力強很多，但文字就燒死在圖里了。

文章發出去之后，問的最多的不是Skill怎么寫。

第一個問題：國內怎么用Nano Banana？Path B要調Gemini API，很多人要么沒Google賬號，要么網絡不通。功能再好，卡在訪問這步就沒用。

第二個問題：AI生成的PPT圖片能編輯嗎？其實這不只是PPT的問題。所有用AI生圖的人都碰過——出了一張很滿意的海報，客戶說把標題改一下，只能重新生成碰運氣。

在Lovart上用NB2，這兩個問題正好一起解了。

不過光說沒用。我拿了5個自己真實在做的項目跑了一遍。

案例1：PPT演講素材批量生成

先測最直接的——上篇PPT文章里的Path B，用AI生成幻燈片配圖。

之前我是在Claude Code里調Gemini API，一頁一頁生成。這次直接在Lovart里操作，把PPT大綱丟進去，讓NB2批量出一整套。

前陣子我剛做完一個企業AI培訓，兩天課程做了131頁PPT。那次用的Neo-Brutalism風格——粗黑邊框、高飽和色塊、超大字，投影到10米外都看得清。這次換個方向，用溫暖敘事風格重做一版，試試NB2。

上傳了自己的照片做角色參考，寫prompt：

為一場AI培訓設計演講幻燈片插畫。所有文字必須是簡體中文。
風格：溫暖敘事風格的教育插畫，像TED演講配圖或Airbnb品牌插畫的敘事感。
暖色調（奶油色背景），圓潤的人物造型，手繪線條質感。
講師形象參考上傳的照片，貫穿每一頁。

第1頁：封面「AI時代的個人生產力升級」
— 講師站在一面巨大的白板前，白板上密密麻麻寫滿了關鍵詞：
Claude Code、GPT-5、DeepSeek、Agent、Skills……
講師回頭看向觀眾，表情像在說「別慌，我幫你理清楚」

第2頁：「差提示詞 vs 好提示詞」
— 畫面左右分屏對比。左邊：一個人對著電腦只打了一行字「幫我分析數據」，
電腦屏幕上冒出一堆雜亂的結果。右邊：同一個人列出了清晰的四層結構
（角色、任務、上下文、約束），電腦屏幕上輸出整齊的報告。
左側標注「一句話丟給AI」，右側標注「4層結構提示詞」

第3頁：「從提示詞到工作流到Skills — 三級進化」
— 畫面是一個縱向的三層階梯。底層：一個人坐在電腦前打字（標注「提示詞：用一次」）。
中層：同一個人面前展開一條流水線，多個步驟自動流轉（標注「工作流：用一個月」）。
頂層：一個人站在控制臺前，多個Agent同時在工作（標注「Skills & Agent：用一年」）

簡答說明下我做PPT時的提示詞邏輯。一個是盡量提供明確的風格供NB2理解和參考。 比如我這次要求「像TED演講配圖」或具體品牌名（Airbnb插畫風格），AI就知道該往哪個方向走了。第二，每頁的文字內容要寫全——不要只寫「封面」兩個字，把標題、標注、對比文案全寫進prompt，NB2才能準確渲染。第三，描述畫面用敘事而不是布局指令——「講師回頭看向觀眾，表情像在說別慌」比「講師站在畫面中央」有效得多。

這次生成的三頁幻燈片中文字符算是非常準確。

不過呢，還有一個AI生圖的經典問題：抽卡。10張圖里總有一兩張細節不對。比如這次第一張封面，講師的帽子變成了鴨舌帽，但我的參考照片和其他頁面里都是漁夫帽。以前碰到這種情況只能重新生成碰運氣。

Lovart有個很順手的操作——按住Command鍵點擊圖片上的具體位置（比如帽子），直接告訴它「改成和參考圖一樣的漁夫帽」。只改帽子，其他內容不動。

指哪改哪，跟在Figma里點圖層一樣直覺。

改完了的效果也相當符合預期，你可以看到，除了帽子，圖片任何細節都沒改

案例2：小貓補光燈IP周邊設計

這是我一直想做但沒動手的事。

小貓補光燈是我做的一款iOS app，在App Store付費榜拿過第一。但作為獨立開發者，從來沒認真做過周邊——筆、徽章、鑰匙扣、貼紙這些。不是不想，是設計成本太高，找設計師做一套周邊視覺少說幾千塊。

這次用NB2試試。

上傳了小貓補光燈的logo做風格參考，寫prompt：

設計一套App周邊產品概念圖。品牌：小貓補光燈（一款可愛風格的iOS相機應用）。
IP形象參考我給你發的圖片。


請生成以下周邊產品的設計概念：
1. 金屬胸針/徽章 - 小貓舉著迷你補光燈，搪瓷工藝質感
2. 中性筆 - 筆帽是小貓頭部造型，筆身印有品牌logo
4. 亞克力鑰匙扣 - 透明底+小貓剪影

周邊產品的prompt關鍵在兩點。一是材質要具體——不能只說「設計一個徽章」，得說「搪瓷工藝質感」「亞克力透光效果」，AI才知道你要什么樣的渲染。二是品牌元素前置——先定IP形象，再展開具體產品，整套周邊的視覺語言才統一。

結果挺讓我意外。NB2出的周邊概念圖產品感很強——不是扁平的示意圖，是有材質、有光影、看起來像實物的效果。金屬徽章有搪瓷質感，鑰匙扣我尤其喜歡，有亞克力的透光感。

看到這幾個周邊設計，我還真有種強烈的要去某寶找商家做出來的沖動了。

案例3：App圖標套件生成

這個場景我之前在另一篇文章里做過——用Nano Banana Pro給我的小貓相冊app生了一整套定制圖標，每個圖標都是一只小貓在做不同的事。當你app中的設計元素不止是AI用代碼生成，或者引用開源圖標庫的時候，那給用戶的質感確實會大大不同。

我的新版app在小紅書發布后，受到了上百名女生的夸夸，用戶評價從「還行」變成了「好可愛」。

這次再用NB2教一下大家流程。

關鍵操作是墊圖。你需要先多嘗試不同風格，生成一版你滿意的圖標給NB2作為參考，以及你可以讓AI編程工具梳理出你的app中需要用到的icon名稱和樣式，然后批量生成：

參考上傳的logo風格（圓潤線條、暖黃配色、可愛小貓形象），
為一款相機類App生成一套功能圖標，統一風格。3D卡通渲染，
柔和光影，白色背景，每個圖標中小貓在執行對應功能的動作：


1. 補光模式 - 小貓舉著一盞發光的燈
2. 美顏濾鏡 - 小貓對著鏡子涂腮紅
3. 定時拍照 - 小貓看著沙漏倒計時
4. 相冊瀏覽 - 小貓翻閱一本厚厚的相冊
5. 分享導出 - 小貓把照片從窗口遞出去
6. 設置 - 小貓拿著扳手擰螺絲
7. 夜景模式 - 小貓戴著夜視儀
8. 連拍模式 - 小貓手持多臺相機同時拍

我再來拆解下圖標設計的這套Prompt。 批量圖標最重要的原則：墊圖 > 文字描述。100個形容詞不如一張參考圖。Prompt里的風格描述（「圓潤線條、暖黃配色」）是輔助，墊圖才是風格錨點。另外每個圖標的動作要有畫面感——不是「補光功能」而是「小貓舉著一盞發光的燈」，給AI一個可以構圖的場景。

NB2有墊圖的情況下，風格一致性挺好。8個圖標出來，配色、線條粗細、小貓造型基本統一。之前用NBP做小貓相冊那套時，偶爾有一兩個風格飄掉的。NB2稍微穩一些。

不過有個問題：NB2沒法直接出透明背景。每個圖標都帶著白色或彩色底，沒法直接丟進app里用。我之前的做法是用Claude Code寫代碼來幫我切圖和摳圖，效果大致也能用。

不過用Lovart的話，摳圖這一部分都可以直接省了。你可以直接在Lovart上給生成的圖標移除背景。點一下，背景就沒了，干凈的透明底PNG。8個圖標逐個去了背景，整套可以直接拿去Xcode里用。

案例4：短劇分鏡批量出圖

這個案例專門測NB2的規模能力——不是出幾張看效果，而是連續生成分鏡，看角色一致性和風格穩定性能不能撐住。

第一步，先定角色。在Lovart里用NB2生成女主角：

一位穿白襯衫的中國年輕女性，短發，干練氣質。
電影感構圖，柔和自然光，35mm鏡頭質感。

多抽了幾次，選一張最滿意的做角色參考。這步很重要——后面所有分鏡都拿這張圖做角色錨點。

角色定了，開始批量出分鏡。先跑第一集6個鏡頭：

中國都市情感短劇分鏡。電影感構圖，柔和自然光，
35mm鏡頭質感，淺景深。畫面比例均為9:16。
角色：參考我提供的角色圖片。


第1集·離開
鏡頭1：【全景】女主站在寫字樓落地窗前，俯瞰城市天際線，背影，夕陽光
鏡頭2：【特寫】女主的手放在辭職信上，指尖微微顫抖，桌面有咖啡杯和筆記本
鏡頭3：【中景】女主走出公司大門，陽光打在臉上，表情釋然
鏡頭4：【全景】女主在胡同口的咖啡館坐下，周圍是老北京的磚墻和綠植
鏡頭5：【特寫】手機屏幕上顯示「新消息：項目通過了」，女主嘴角上揚
鏡頭6：【遠景】女主騎自行車穿過林蔭道，光斑透過樹葉灑下來

這部分分鏡生成的工作流核心是「先定角色，再鋪場景」。 不要在每個鏡頭里重復描述角色長什么樣——直接上傳之前選好的參考圖，讓AI看圖而不是讀文字。每個鏡頭只描述三件事：景別（全景/中景/特寫）、場景環境、角色動作。另一個關鍵：用具體的視覺信息替代情緒形容詞——不寫「女主很開心」，寫「嘴角上揚」「陽光打在臉上」。

第一集6張跑完，角色一致性保持得不錯。這只是一個測試，流程跑通之后完全可以繼續出第2集、第3集……一口氣幾十張甚至上百張。NB2的速度在這種規模下優勢很明顯——批量出圖效率比NBP快了不少。

分鏡只是第一步。Lovart上還集成了一堆主流的圖生視頻模型——Kling 3.0、Veo 3.1、Sora 2 Pro、Seedance 1.5 Pro、Hailuo 2.3——全在同一個平臺里。

NB2批量出完分鏡之后，不用切平臺，直接在Lovart里選個視頻模型，把分鏡圖一張張轉成視頻片段，串起來就是一個完整的短劇。從角色設計到分鏡生成到圖生視頻到成片，全在一個地方。

做短劇、視覺小說的人應該會比較喜歡這個工作流。NB2負責快速出大量分鏡，Lovart負責編輯和視頻轉換。365天閑時0積分無限生成，「先大量出圖再篩選」的模式下試錯成本幾乎為零。

案例5：中文商業海報

最后測一個最日常的場景——做一張中文商業海報。也是測NB2中文渲染最直接的方法。

設計一張豎版手機海報（9:16）。主題：獨立開發者線下分享會。
風格：日系清新插畫，水彩質感筆觸，暖色調。

畫面內容：一個小型分享會場景，幾位年輕人圍坐在長桌旁，
桌上散落著筆記本電腦和咖啡杯，背景是大窗戶透進的午后陽光。
分享的主持人請參考我提供的帶著漁夫帽的照片人物形象。

文字內容（必須精準渲染）：
主標題：「獨立開發者的周末下午」
副標題：聊聊一個人做產品的那些事
時間：2026年3月15日 14:00
地點：深圳南山·萬象天地 3F

中文海報有個容易忽略的技巧：文字要單獨標注層級。不是在場景描述里隨口提「上面寫著XX」，而是把文字單獨拎出來，標清「主標題」「副標題」「正文信息」——AI才知道哪些字大、哪些字小。另外風格描述加筆觸質感（「水彩質感筆觸」）比只寫「日系風格」有效得多，筆觸直接決定畫面手感。

中文渲染是NB2比NBP提升最明顯的地方。這張海報上有主標題、副標題、時間地點——4段不同層級的中文，NB2基本都渲染對了。NBP做同樣的事情，大概率有一兩個字出問題。

當然，在海報場景下，你很可能遇到的問題是，你同一張海報可能想在不同的場景下使用。或者，你的甲方突然喊你該需求了，比如要修改海報中提供的活動地點，通常情況下你在Gemini或者AI Studio里也能改，但是往往你要求只是改文字，但是模型能給你改一堆細節。

比如我想把活動地點從「深圳南山·萬象天地」改成「北京西城區·西單大悅城」，日期從3月15日改成3月16日——在Lovart里用Text Edit直接點進去改。它會自動識別圖片里的所有文字段落，你逐個調整就行。改完字體風格、大小、排版位置都不變，連水彩筆觸的質感都保持住了。

測試中我碰到一個小問題：原圖尺寸比較大的話，編輯文字之后圖片分辨率會變小。不過Lovart也有「放大」功能，點一下就能把圖片恢復高清。生成→編輯→放大，三步走完就是一張可以直接用的海報。最后的這兩張圖除了我要求修改的活動地點和時間外，其他細節都完美保持了一致。

5個案例跑完，說說真實感受

先說NB2。

速度和價格確實是這次最直接的體感。5個案例跑下來，NB2比NBP快了一大截，批量生成時差距尤其明顯。畫質日常使用分不出差別，中文渲染實打實好了很多。

再說Lovart。

我去年12月寫過一篇Lovart的文章，當時說它是「設計界的Cursor」——不只是接了個API，而是提供了生成之后的完整編輯工作流。這次用下來，這個判斷還是成立的。

5個案例里我用到了Text Edit改文字、Command+點擊改細節、移除背景去透明底、還有放大恢復高清——這些在純生圖工具里都做不了，以前得丟進PS。

回到開頭的兩個問題。對上篇PPT文章的讀者來說：國內直接在Lovart上用NB2，不用折騰API和網絡；生成的圖片用Text Edit直接改文字，不再燒死在圖里。

其實這次測下來我有一個比較明確的感受：NB2這個級別的模型，單純的「生成」已經不是瓶頸了。真正卡效率的是生成之后——改文字、調細節、去背景、貼場景。Lovart把這些都做進了同一個平臺，NB2負責又快又好地出圖，Lovart負責讓出圖變成能用的成品。

Pro會員365天閑時0積分無限用NB2和NBP，對做電商、短劇、PPT、社交媒體的人來說，這個組合挺值得試的：https://www.lovart.ai/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.