![]()
在美國紅點創投的播客Unsupervised Learning最新一期節目中,紅點創投合伙人Jacob Effron對話了負責Nano Banana的兩位Google研究員Nicole Brichtova和Oliver Wang。討論認為,Nano Banana的流行,歸功于這款模型實現了前所未有的“角色一致性”。
Nano Banana在8月26日“匿名”發布,后來證明這款模型就是谷歌的Gemini 2.5 Flash Image模型。Nano Banana的成功也使得谷歌的Gemini APP的下載量飆升。
據應用數據分析公司Appfigures提供的最新數據,這款應用已經攀升至全球應用商店排行榜的榜首,并且在九月份下載量環比增長了45%。雖然九月份才過了一半,Gemini應用本月已經獲得了1260萬次下載,遠高于八月份的870萬次。在此之前,Gemini僅在2025年1月28日達到過美國App Store的第三名。谷歌母公司Alphabet(GOOG.US)在8月26日至9月17日收盤的股價漲幅為19.56%。
![]()
Gemini下載量數據(來源:Appfigures、TechCrunch)
在產品之外,這期播客訪談內容涵蓋了模型如何融入創意工作流程,為什么盡管當前AI圖像能力已經讓人感覺很強大但“仍處于AI圖像發展的早期階段”,以及圖像與視頻生成如何正趨向統一。
在訪談中,Nicole Brichtova和Oliver Wang分還享了當前模型的局限性、安全策略,以及為什么“從提示一步到生成可直接用于生產的內容”這一期待其實被嚴重高估了。
以下為「明亮公司」編譯的訪談正文(有刪節):
![]()
Nicole(左)、Oliver(中),主持人Jacob(右)
![]()
Nano Banana的成功歸功于角色的一致性
Jacob:Nicole和Oliver,非常感謝你們來到節目。我一直很期待這次對話。感覺你們已經占據了我整個Twitter動態、還有我所有的空閑時間,都是Nano Banana。
今天我們會深入探討很多話題。也許我們可以先從這個問題開始——你們在產品和模型發布前就已經接觸并體驗了它,我記得最初可能是匿名發布的。但你們是最早一批玩轉它的人,我很好奇,你們最初認為哪些用例會最流行或讓你們最興奮?而現在發布后,實際情況又如何?
Nicole:Oliver已經見過很多我臉部的各種迭代圖片。對我來說,最激動人心的是角色一致性,以及能在新場景中看到自己——所以我真的有一堆幻燈片,都是我的臉,比如通緝海報、考古學家,還有我童年夢想的職業。
基本上,我們現在創建了一個包含我的臉和團隊其他成員的評估數據集,每當我們開發新模型時都會用來測試。
Jacob:在AI領域,這簡直是最高榮譽了。
Nicole:我真的很興奮。所以我非常看重角色一致性,因為它給了人們一種全新的方式去想象自己,以前很難做到。這也是大家最終非常激動的原因之一。我們看到很多人把自己變成了手辦,這是非常受歡迎的用例之一。還有一個讓我感到驚喜但其實也合理的用法——人們為老照片上色,這是非常有情感價值的用例。比如:現在我能看到自己小時候真實的樣子,或者能看到父母從黑白照片中還原出來的真實模樣。
Jacob:這真的很有趣。我相信看到大家的各種用法也是你們擁有熱門產品的樂趣之一。我在Twitter上也見過,你們一定收到無數功能請求吧?每個人都希望模型能做這或那。最常見的需求有哪些?你們如何看待這些產品和模型的下一個里程碑或發展的方向?
Nicole:Twitter上最多的需求是更高分辨率。目前很多專業用戶都在請求1K分辨率以上的圖像。還有很多請求希望支持透明背景,這是專業用戶很常見的需求。這兩點是我見到最多的,還有更好的文本渲染。
Jacob:角色一致性曾經是很難解決的大問題,你們在這方面做得非常棒。你們認為圖像模型改進的下一個前沿是什么?
Oliver:對我來說,這個模型最令人興奮的一點是它可以開始接受更難的問題。以前你必須定義你想要的圖像的每個細節,現在你可以像問語言模型一樣尋求幫助。例如,有人用它來重新裝修房間,但自己沒有主意,讓模型給出建議。模型能根據配色方案等給出合理建議。
我認為最有趣的是結合語言模型的世界知識,讓圖像模型真正幫助用戶,甚至展示他們沒想到的東西。比如信息檢索請求——我想知道某個東西是如何工作的,模型能生成解釋圖片。我覺得這是未來很重要的用例。
Jacob:在這方面進展如何?
Oliver:審美方面始終比較棘手,因為需要深度個性化才能給出有用的信息。我認為個性化是技術側還在不斷改進的領域。我們還需要一段時間才能真正理解用戶的需求,但如果能和模型對話,不斷澄清和細化,我覺得很令人期待。比如可以在對話線程中反復溝通,直到生成你想要的圖片。
Jacob:你覺得個性化會只發生在提示層面嗎?就是通過足夠的描述,給模型足夠的上下文來實現個性化?還是大家會有不同的美學模型?
Oliver:我認為會更多發生在提示層面。比如用戶告訴你的信息,可以讓我們做出更明智的決策。希望能這樣,畢竟每個人都有自己的模型并分別服務,聽起來很復雜,但也許未來就是這樣。
Nicole:但我確實認為美學會有很大差異。我覺得在某種程度上,個性化必須在那個層面實現。你在Google購物標簽頁就能看到,比如你在找毛衣,系統會給你推薦一堆,但你其實希望聚焦于自己的美學,甚至能從你的衣柜中選出搭配。我希望這些都能在模型的上下文窗口里實現。我們應該能把你衣柜里的圖片喂給模型,然后幫你找出合適的搭配。我對此很期待,希望能做到。也許還需要更高級的美學控制,但我覺得那可能更多發生在專業用戶層面。
在語言模型領域,甚至在圖像領域,很多決定其實都取決于預訓練時用的數據,這直接影響了模型的最終能力和美學風格。所以我也很好奇,未來會不會有一個萬能模型,通過提示就能覆蓋所有圖像用例?還是會有各種風格的模型?
Nicole:我們一直對現成模型能支持的用例范圍感到驚訝。你說得很對,很多面向消費者的用例,比如你只是想畫出房間的效果圖,這些都可以。但一旦進入更高級的功能,就需要集成其他工具來讓它成為最終產品,在營銷或設計等工作流程中發揮作用。
Jacob:大家肯定很好奇,這些模型為什么會變得這么好?
Nicole:有很多特別的原因。
Oliver:其實沒有某個單一因素,而是把所有細節都做好了,真正調試好配方,還要有一個長期專注于這個問題的團隊。我們其實也被模型的成功程度嚇了一跳。我們知道模型很酷,很期待發布。但當我們在LM Arena上線后,不僅Elo分數很高,這當然很好。分數高是模型有用的好跡象,但對我來說,真正的指標是有大量用戶涌入LM Arena使用模型。我們不得不不斷增加每秒查詢量,完全沒預料到。這是第一次意識到,這確實是非常有用的東西。有很多人都需要這樣的模型。
![]()
上線后Nano Banana的Elo分數明顯領先(來源:LM Arena網站)
Jacob:我覺得這是這個生態系統最有趣的部分。你們自己構建模型時有些預期,但只有真正發布到用戶手中,才能發現它的強大和影響力,這次顯然引發了巨大反響。
顯然,模型的推理能力很大程度上受益于語言模型本身的進步。你能否介紹一下圖像模型從語言模型進步中獲得了多少好處?你認為這種趨勢會隨著LLM發展繼續嗎?
Oliver:當然受益,幾乎100%依賴語言模型的世界知識。比如Gemini 2.5 Flash Image(就是這個模型的名字)。
Jacob:名字有趣一點就好了。
Nicole:(Nano Banana)確實更容易讀。
Oliver:我有點好奇我們的成功是不是因為大家喜歡說Nano Banana這個名字。但它確實是Gemini模型的一部分,你可以像和Gemini對話一樣和它交流,它懂Gemini懂的所有東西。這是這些模型邁向實用性的關鍵一步,就是和語言模型整合。
Nicole:你可能還記得,兩三年前你必須非常具體地描述需求。比如“桌子上的貓,背景是什么,這些顏色”,現在不用那么詳細了。很大原因就是語言模型變得更強了。
Jacob:不再是后臺魔法提示轉換了。以前你輸入一句話,系統會自動擴展成十句話的詳細提示,現在模型本身就足夠聰明,能理解你的意圖,這真的很讓人興奮。
![]()
如何打磨產品、多模態和語音AI的潛力
Jacob:從產品角度看,你們有各種不同類型的用戶。有些是專家,一上線就去LM Arena玩模型,他們很懂怎么用;還有很多普通Gemini用戶,面對“空白畫布”完全不知道該做什么。你們是怎么考慮為這兩類用戶打造產品的?
Nicole:我們還有很多可以做的。你說得對,LM Arena的用戶和開發者都很專業,能用這些工具創造我們沒想到的新用例。比如有人在照片里把物體變成全息影像,我們根本沒訓練過這種場景,但模型表現得很好。對于普通消費者來說,易用性極其重要。現在你進入Gemini應用,會發現到處都是香蕉表情。我們這么做是因為大家聽說Nano Banana后去找,但應用里沒有明顯入口。
我們做了很多工作,比如和創作者合作預置一些用例,放出直接鏈接到Gemini應用的示例,提示會自動填充。我覺得“零狀態”問題還有很大改進空間,比如用視覺引導用戶。未來還可以讓手勢成為編輯圖片的方式,不只是靠文字提示。
有時你想要很具體的效果,還是需要很長的提示,但這對大多數用戶來說并不自然。所以我會用“父母測試法”——如果我父母能用,那就合格了,現在還沒做到,所以還有很長路要走。
很多問題其實就是要“展示而不是講述”,給用戶易于復制的示例,讓分享變得簡單。沒有一個魔法答案,需要多方面共同努力。
Oliver:我們還發現社交分享在解決“空白畫布”問題上很重要。用戶看到別人做的東西,因為模型默認就能個性化,可以用自己的照片、朋友、寵物嘗試,非常容易就能模仿,這也是模型傳播的重要方式。
Jacob:現在大家都是用文本和模型互動,你們對未來還有什么新型設計界面感到興奮嗎?
Nicole:我覺得我們才剛剛開始探索可能性。最終我希望各種模態能融合在一起,界面能根據任務自動切換最合適的方式。現在大模型不僅能輸出文本,還能輸出圖片和視覺解釋,滿足用戶需求。
我覺得語音很有潛力,是很自然的交互方式,但還沒人真正做出很棒的語音界面。現在我們還是在輸入文字,所以未來可能結合暫停、手勢等,比如你想擦除圖片中的物體,應該能像在草稿本上一樣操作。如何在不同模態間無縫切換,是我非常期待的方向,還有很多空間去探索實際形態。
Jacob:你覺得語音的限制是什么?我完全能想象和圖片對話。
Nicole:有些問題是優先級的,我們還在推進模型能力,語音這兩年也進步很大。我覺得很快會有人嘗試,也許我們也會做一些相關工作。
問題在于如何檢測用戶意圖,然后根據意圖切換不同模式,因為并不明顯。你可能又回到“空白畫布”問題,怎么向用戶展示功能?我們發現用戶進來后對聊天機器人期望很高,覺得它什么都能做,實際上很難解釋限制,也很難展示所有功能,尤其工具能力越來越強時。所以要想辦法劃定范圍,在UI里展示可能性,幫助用戶完成任務。
Jacob:而且你教會用戶某個時刻機器人能做什么,三個月后又得重新教,因為功能已經變了,這也是很有意思的產品挑戰。
很多產品都有評估機制,你們有自己的評估數據集,比如Nicole自己的照片。圖像模型的評估通常是什么樣?除了放到LM Arena讓用戶體驗外,你們在追蹤模型進步方面有哪些經驗?
Oliver:語言模型和視覺語言模型進步的一個好處是能形成反饋環,用語言模型的智能來評估自己生成的內容。這形成了良性循環,可以同時提升兩個維度。
但最終,用戶才是他們想要圖片的裁判。所以像LM Arena這種用戶自己輸入提示的場景,是評估模型的最佳方式。
Nicole:品味也很重要。Oliver不會夸自己,其實他在團隊里很擅長判斷圖片效果,能發現問題和缺陷。我們團隊有幾個人專門做這種“眼球評估”,就是技術性地看模型輸出效果,這在初期仍然很重要。我們也會收集用戶反饋,包括X(推特)上的意見,看看哪些地方有效,哪些地方需要改進,然后調整評估標準,既保證已有功能不退步,也推動社區關心的方向。歡迎大家持續反饋。
Jacob:感覺這比語言模型難多了,比如法律用例有標準答案,模型偏離時有純粹的評估數據集。但圖片很主觀,很難明確爬坡方向。比如角色一致性能量化,但主觀性確實讓優化變得很難。對了,Nano Banana這個名字有什么故事?
Nicole:我們團隊有個PM叫Nana,她凌晨兩點半在準備發布時想出了這個名字,然后大家覺得很有趣就用上了,現在甚至成了半官方名字。畢竟Gemini 2.5 flash image太難念了。
Jacob:確實很成功,連Google CEO都在發香蕉表情,名字的影響力很大。
![]()
Alphabet CEO Pichai在模型發布后的社交媒體信息(來源:X.com)
Nicole:品牌建議就是名字最好有合適的表情符號,這樣更容易傳播。
Jacob:感覺Hugging Face是AI界最早用表情做品牌的,現在我們離公司股票代碼都是表情的時代也不遠了。
![]()
專業用戶的潛在應用場景
Jacob:回到剛才的話題,你們有很多專業用戶,也有很多面對空白屏幕不知道做什么的普通用戶。你們見過最專業的用戶有哪些用法?
Oliver:我最喜歡的高級用例是視頻相關的。我大部分職業生涯都在做視頻工具,發現Nano Banana在AI生成視頻方面非常有用。比如結合視頻模型(VO3)可以更快地構思、規劃鏡頭,這其實也是電影制作的流程,先做分鏡,再拍攝。現在大家用它構建更連貫、更長的視頻內容。
Nicole:我對大家用它在建筑設計流程中的表現印象很深。可以從藍圖到類似三維模型,再到設計圖,快速迭代,節省了繁瑣的流程,讓人專注于創意和樂趣。這種效果出乎我的意料,模型開箱即用就能做到。
Jacob:感覺是各種“五分鐘編碼”圖像用例,幫你快速搭建基礎內容。
Nicole:還有網站設計,以前從提示直接生成網站代碼,總覺得中間少了一個步驟,現在可以先快速迭代設計,滿意后再編碼。
Jacob:你覺得這會成為未來的工作流嗎?確實很合理,為什么要先消耗算力生成代碼,如果審美完全不滿意,還得重來?
Nicole:而且這樣更有趣。以前大家就在現有流程里用技術,現在大模型發展太快,能直接從提示到網站,非常驚人。但我覺得大家還是很喜歡在中間環節迭代,確保風格符合自己需求。
Jacob:你們既有模型也有API,未來會有各種接口和用例。你們如何區分哪些功能適合放在Gemini聊天工具里,哪些適合通過其他產品實現?
Nicole:體驗很不同。我們看到大家會用Gemini做快速迭代,比如團隊成員在重新設計花園時,會用Gemini想象效果圖。然后再和景觀設計師合作,把想法進一步完善。這是創意過程的第一步,很少是最終成品。而專業開發者會用更復雜的工具,串聯多個模型,工作流更復雜。聊天機器人適合啟發、靈感和分享,專業用戶還是更需要視覺化的UI。
Jacob:編輯流程會如何融合進來?你們的API已經集成到Adobe等工具了,傳統編輯流程會變得很不一樣嗎?還是最后從95%到100%完成度,還是需要傳統編輯工具?
Oliver:很大程度上取決于用戶。有些人對細節要求極高,像素級控制,這種場景必須和現有工具深度集成,比如Adobe產品。有些用戶只是找靈感,要求沒那么嚴格,聊天機器人快速生成想法就夠了。所以兩者都是模型的重要應用。
Nicole:像素級控制讓我最近學到一個新點,比如做廣告時,不同品牌對模特視線的位置有嚴格要求,因為視線影響廣告傳達的信息。這種控制很難用聊天機器人實現,所以專業用戶還是需要專門的精確工具。
Oliver:歸根結底,看能否用語言描述。如果只是高層次想法,語言很合適,但如果要左移三像素,語言就不太優雅了。兩種方式都有存在意義。
Jacob:看真正的藝術家或創作者的完整流程,他們很難用語言精確描述自己的操作,很多時候是憑感覺。Google內部也有很多團隊對圖像模型感興趣,你們最期待它在Google各產品中的應用有哪些?
Nicole:創意方面,比如在Google Photos做照片編輯很有前景,畢竟你的圖庫就在那兒。比如把家庭照片直接變成生日卡片,我每年都用得上。如果能直接在Photos里做很棒。
還有像一開始說的“事實性”用例也很有趣,比如讓模型用適合五歲孩子的方式解釋光合作用,并生成視覺化內容,這在網上可能都找不到。這樣能為用戶開啟個性化、視覺化的學習體驗。
Oliver:還有Workspace,比如PowerPoint和Google Slides。讓大家能做出更有吸引力的演示文稿,不再千篇一律。
Jacob:作為前咨詢行業人士,如果能實現就太棒了,大家都花太多時間在排版上了。
Nicole:以前都是先在白板上畫出幻燈片結構,寫好標題。比如左側放某個數據集的圖表,然后把這些信息交給大模型,讓它幫你完成很多工作,我對此非常期待。
![]()
圖像模型的未來:小團隊有機會,但調用世界知識需要大模型支持
Jacob:回顧近幾年圖像模型的發展,從Stable Diffusion到Mid Journey,Oliver你怎么看這幾年的主要里程碑?整個路徑和變化你怎么總結?
Oliver:這幾年發展簡直像火箭一樣。我早期做這方面時,GAN(生成對抗網絡)是主流方法,我們對GAN能做的事很驚訝,但它只能生成很窄分布的圖片。
比如可以生成看起來不錯的人臉,但只能是正面照。后來出現能泛化、完全由文本控制的模型,雖然起步時很小很模糊,但很多人都覺得這會改變一切,于是大家都全力投入,但沒人能預料到進步速度如此之快。
我認為這得益于很多頂尖團隊的良性競爭。大家看到其他團隊出色的模型,比如Mid Journey一度遙遙領先,效果驚人,大家都很受激勵,想知道他們怎么做到的。
尤其Stable Diffusion開源后,展示了開發者社區的規模,很多人愿意在這些模型上構建產品,這是另一個重要節點。從那以后,整個領域發展非常快,雖然有時壓力很大,因為不僅模型變強了,用戶期望也越來越高。現在大家會抱怨一些小問題,但一年前我們還在為不真實的圖片感到驚訝。人類對新技術的適應力真的很強。
Jacob:確實,如果2017年有人告訴我們會有如此強大的技術,我們肯定會震驚,但現在大家總是抱怨不足。這也是人性有趣的地方。你怎么看Mid Journey當初能領先一步的原因?他們一度是行業標桿,所有人都盯著它。
Oliver:Mid Journey比其他團隊更早掌握了后訓練技巧,尤其是讓模型生成風格化、藝術化圖像。他們一直專注于風格控制,確保生成的圖片都很漂亮。剛開始時,聚焦于高質量圖片的小領域是很好的策略。后來所有模型,包括Midjourney和Flux等,都擴展到更廣泛的類別,同時保持高質量。
Jacob:是什么讓模型能生成更廣泛的圖片,不再只挑選完美作品?
Oliver:有很多原因,大家都不斷完善細節,尤其是數據質量。同時,模型規模自然擴大,算力提升,很多以前做不到的事現在都能實現了。
Jacob:你剛才也提到,我們在圖像模型上取得了巨大進步,我很難判斷還剩多少提升空間。你怎么看未來三年?我們會不會回頭覺得現在的模型其實還很一般?
Oliver:我完全支持后者觀點。僅就圖像質量而言,還有很大提升空間。未來的改進點在于模型的表達能力。現在我們能完美生成一些常見內容,完全無法分辨是生成的還是現實的。但只要超出常規場景,質量就會迅速下降,尤其是需要更多想象力、組合多概念的提示。這類場景模型很快就崩潰了。
未來模型最好的圖片可能和現在一樣好,但最差的圖片會大幅提升,模型會更有用、適用范圍更廣。我們發現模型越泛化,可支持的用例越多,價值也越大。
Jacob:你怎么看圖像模型領域的未來格局?相比大模型領域,主要是你們、OpenAI、Anthropic等大玩家,圖像模型會類似嗎?
Oliver:這是個好問題。到目前為止,圖像領域小團隊也能做出頂級模型。我們看到一些小實驗室的作品非常驚艷。我希望這種情況能持續,因為我喜歡小團隊的創新。
但模型的世界知識、實用性很需要規模,尤其是語言模型的規模。所以我猜未來還是大型團隊能同時訓練強大的語言和圖像模型。我們看到中國的大型實驗室也在推出很棒的模型,和語言模型一樣,所以未來他們也會成為圖像領域的重要玩家。
Jacob:如果用最好的開源模型而不是閉源模型,會有很大劣勢嗎?
Oliver:這很難說,取決于開源模型的未來,變化很快。一年前可能覺得開源很安全,現在不一定。但開源確實有可能支撐很多小團隊繼續創新。好模型肯定可以。
Jacob:Oliver,想問你一個問題。你之前做視頻很多年,我一直想弄明白圖像模型和視頻模型的關系。你們團隊在視頻方面也有很大突破。兩者是獨立的嗎?還是互相借鑒?現在圖像和視頻領域是怎樣互動的?
Oliver:非常密切相關。未來大家都在向“全能模型”發展,就是能做所有事情的模型。這些模型有很多優勢,可能最終會勝出。
我覺得我們在圖像生成領域學到的很多技術都應用到了視頻生成模型,反之亦然。這也是視頻生成能迅速發展的原因之一,因為整個社區都在學習如何解決這些問題。所以我覺得兩者是非常親密的“朋友”,很多技術共享,未來可能會完全融合。
Jacob:你說的技術,就是很多底層方法在不同模型間都很相似吧?
Nicole:連工作流也很像。很多用戶會把這些模型結合使用。比如電影制作,最初的構思在大模型領域,然后在圖片或幀空間迭代,因為更快更便宜,最后才進入視頻階段。所以從工作流和可用性角度看,圖像和視頻模型之間有很多互補性。很多用例和問題都是共通的,比如角色、物體、場景一致性,圖像和視頻都有,只是視頻更復雜。
Jacob:你覺得視頻領域下一個要解決的難題是什么?
Oliver:我覺得在視頻領域獲得和最新圖像模型一樣的控制力,會非常有影響力,這是值得關注的方向。視頻團隊也在提升分辨率和時間一致性,當然還有跨場景角色一致性,大家最關心的就是這個。未來肯定會朝著更長、更連貫的內容發展。
Jacob:這些問題可以在圖像領域先解決,很多方法都能遷移到視頻領域,這很酷。今天聊得很精彩,我們最后有一組快問快答。
首先,你們認為目前AI領域有什么被高估,什么被低估?
Nicole:我覺得被高估的是“一個簡短提示就能生成可用于生產的成果”。其實還需要很多迭代。即使是社交媒體上大家分享的內容,背后也有很多工作。所以這個有點被過度宣傳了。被低估的是未來的融合,我們已經聊過了,就是如何讓大家更容易使用這些模型,展示可能性,并針對具體工作流提供幫助。
Jacob:你見過哪些產品,在UI設計上有新穎的想法?
Nicole:我還在等,暫時沒看到。
Oliver:我喜歡節點式界面,但這不是大眾化的設計。
Jacob:未來每個人都能有自己的UI,也許會進入個性化時代。你覺得明年圖像模型的進步會比今年更快,還是差不多?
Nicole:希望更快。
Oliver:有更多聰明人投入,更多資源,肯定會加速進步。
Jacob:你們已經讓Nano Banana火遍全網,還有哪些AI圖像領域的趨勢是你們關注的,但大家沒有足夠重視?
Nicole:我覺得是“事實性”維度。比如大家用Nano Banana做信息圖或給尼亞加拉瀑布標注,雖然演示效果不錯,但仔細看文字還是有點混亂,不夠準確,會重復信息。所以這是下一個前沿,大家還沒太關注。
Oliver:這和文本語言模型很像。GPT-1和2剛出來時,大家覺得很酷,可以寫俳句、做創意任務,答案范圍很廣。現在大家都用語言模型做信息檢索、對話、陪伴等。所以我覺得圖像領域也會有類似變化,從創意工具到信息檢索工具,未來甚至會有人和視頻模型對話,這很有可能出現。
Nicole:模型也應該更主動,現在都是用戶主動請求圖片。如果查詢本身適合用圖片回答,模型應該主動生成。我們在搜索中已經習慣了,有時返回文本,有時返回圖片,有時兩者都有。所以我也期待模型能更主動、更智能地根據需求選擇模態。
Jacob:我很喜歡這種無縫切換的未來。正如你說的,可靠性是關鍵。早期語言模型偶爾很驚艷,但遠不夠穩定,工作場景用不了。圖像模型也會經歷類似的進化。
最重要的問題:你們最喜歡用Nano Banana生成的內容是什么?
Oliver:我最喜歡的是和孩子一起玩模型,把他們放到各種有趣場景里,讓他們的玩偶“活”起來。這些內容非常個人化,孩子們很喜歡,對我來說最有價值。
作者:MD
出品:明亮公司
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.