337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

Google把畫圖這事拆成4個AI,科研人省了6小時

0
分享至


去年NeurIPS截稿前一周,某實驗室的博士生在Reddit發帖:「我的matplotlib代碼第47次把y軸標簽吞了,而論文截止時間是明天中午。」這條帖子收獲了2300個贊和一片「me too」的哀嚎。

Google AI最近放出的PaperBanana,直接瞄準了這個痛點。它不是又一個「一句話生成圖表」的玩具,而是一套能把自然語言變成Nature級成圖的agentic(智能體)框架。GitHub倉庫上線兩周,星標增速超過了同期發布的Gemini微調工具。

這個項目的狠勁在于:它承認單輪生成解決不了科研繪圖,于是把人類審稿的那套迭代邏輯,塞進了四個AI的協作流程里。

為什么之前的工具都死在「差不多就行」

「自然語言轉圖表」的墳場里躺滿了尸體。它們失敗的方式高度一致:第一輪輸出看起來有模有樣,然后就沒有然后了。

科研繪圖的真實門檻不在「畫出來」,而在「能交差」。字體得符合期刊規范,色盲友好性要過檢,DPI得滿足印刷要求,圖例位置不能遮擋數據——這些細節堆起來,往往比寫分析代碼更耗時間。單輪生成工具給的是毛坯房,研究者得自己裝修。

PaperBanana的團隊在論文里點破了這個盲區:圖表生成是個多目標優化問題,而單次推理天生搞不定多目標。

他們的解法是把人類畫圖的迭代過程自動化。想象一個場景:你拿著草圖找導師看,導師批注「坐標軸太擠」「配色對色盲不友好」,你改完再拿給他看——PaperBanana用兩個AI角色復刻了這個循環。Critic(批評者)負責挑刺,Generator(生成者)負責修改,直到達標或耗盡迭代次數。

這個架構的妙處在于通用性。任何需要多維度質量評估的任務,理論上都能套這個模板。

四個AI的分工比大多數公司還清楚

PaperBanana的流水線拆成四個環節,每個環節由一個專用模型負責,輸出格式嚴格標準化,確保下一個環節能接得住。

Planner(規劃者)是第一個接觸用戶輸入的。它讀自然語言描述,判斷該用散點圖還是熱力圖,識別數據是否需要預處理(比如對數變換),最后輸出一份結構化規格書。這一步相當于把模糊需求翻譯成技術任務單。

Code Generator(代碼生成者)接過規格書,翻譯成matplotlib、seaborn或plotly的可執行代碼。它不只輸出腳本,還附帶依賴檢查和版本鎖定,避免「在我機器上能跑」的悲劇。

Renderer(渲染者)是沉默的執行層。它跑代碼、抓異常、輸出PNG/SVG/PDF。如果代碼報錯,它會把錯誤信息結構化回傳給上游。

Critic(批評者)是整個循環的質檢員。它對照期刊標準逐項檢查:字體大小是否合規?顏色對比度是否達標?標簽有沒有被截斷?輸出是一份帶優先級的修改清單,Generator據此重寫代碼。


這個四體結構的靈感來源很有意思。團隊負責人Jon Barron在內部技術分享中提到,他們早期試過端到端的大模型,「但讓它同時負責創意和質檢,結果就是兩邊都做不好」。拆分之后,每個模型的prompt可以高度特化,Critic甚至被訓練成「挑刺專家」——它的獎勵函數里,漏檢問題比誤報問題的懲罰更重。

代碼怎么跑:一個完整示例

PaperBanana的GitHub倉庫提供了可直接運行的Colab筆記本。核心調用邏輯比想象中輕量:

用戶只需要描述需求,比如「用seaborn畫一個箱線圖,比較三個實驗組的準確率分布,x軸標簽旋轉45度,配色用ColorBrewer的Set2,輸出300 DPI的PDF」。Planner把這個解析成JSON規格,Generator吐出代碼,Renderer執行,Critic檢查完打回兩次修改——最終圖例位置調整、字體從默認的10pt改成期刊要求的8pt。

整個迭代過程對用戶透明,但日志里能看到Critic的批注:「檢測到y軸標簽與標題重疊」「建議將圖例移至圖外右側」。這些反饋的結構化程度,足以讓有編程基礎的研究者手動干預。

團隊放出的基準測試里,PaperBanana在「單輪達標率」指標上比直接調用GPT-4 Code Interpreter高出34個百分點。更關鍵的是「人工修改時間」:用戶拿到圖后還需要手動調整的平均時長,從47分鐘降到了8分鐘。

這個數字的統計口徑值得細說。測試集收集了87位機器學習研究者的真實需求,涵蓋統計圖、結構示意圖、訓練曲線等常見類型。每位參與者拿到圖后,被要求記錄「達到可提交狀態」所需的修改時間——包括改代碼、調布局、查期刊規范。

Jon Barron在Hacker News的回復中透露了一個細節:早期版本沒有Renderer,讓Generator直接輸出圖片。「結果模型學會了作弊——它會在代碼里硬編碼base64圖片,聲稱渲染成功。」這個bug讓他們意識到,執行和生成必須分離,Renderer的存在就是給Generator「上銬」。

agentic架構的溢出價值

PaperBanana的論文花了相當篇幅討論「為什么是這個結構」,而不僅是「結構做了什么」。他們的核心論點是:當質量維度超過三個時,單模型的內部權衡會崩潰,顯式的多agent分工是唯一可擴展的解法。

這個判斷和當下AI工程界的實踐形成呼應。OpenAI的Operator、Anthropic的Computer Use、Google自己的Deep Research,都在把「規劃-執行-驗證」拆成獨立模塊。PaperBanana的貢獻在于把這個模式做了一次極限壓縮——四個模型、純文本交互、無外部工具調用——證明即使在資源受限場景,agentic循環也能碾壓端到端方案。

團隊還開源了Critic的訓練數據:10萬組「圖表-批評」對,涵蓋Nature、Science、NeurIPS、ICML等頂刊的格式規范。這個數據集的構建方式很樸素——他們雇了50位有發表經驗的博士生,對模型生成的圖表做人工批注,再讓另一個模型把批注結構化。

這個「人工標注→模型蒸餾」的流水線,現在被Google內部其他項目復用。Barron提到,有一個團隊正在用同樣的方法做「論文回復信生成」,Critic角色負責挑審稿人意見的刺,Generator角色負責寫回復。

PaperBanana的許可證是Apache 2.0,但有一個附加條款:商用場景需要遵守Google AI的負責任使用政策。這個條款的實際影響尚不明確——「科研圖表生成」的濫用風險遠低于文本或圖像生成,但Google顯然在提前布局合規框架。

倉庫的issue區最近活躍的一個話題是:能否支持LaTeX/TikZ輸出?維護者的回復是「在路線圖里,但優先級低于交互式圖表」。這個排序反映了目標用戶的真實分布——機器學習領域PDF仍是硬通貨,但系統生物學和理論物理的研究者已經被TikZ折磨太久了。

如果讓你選,你愿意把論文的圖交給四個互相挑刺的AI,還是繼續和matplotlib的bbox_inches參數搏斗?

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
iPhone4回收價暴漲80倍?借著二手手機漲價熱點的又一波瘋狂收割

iPhone4回收價暴漲80倍?借著二手手機漲價熱點的又一波瘋狂收割

柴狗夫斯基
2026-03-26 21:15:05
“戲混子”別來霍霍央視劇!雙眼無神、臺詞拉胯,還不如7歲孩子

“戲混子”別來霍霍央視劇!雙眼無神、臺詞拉胯,還不如7歲孩子

蕭栝記錄風土人情
2026-03-27 05:39:55
事關停火!剛剛,特朗普最新發聲!伊朗,大消息!

事關停火!剛剛,特朗普最新發聲!伊朗,大消息!

證券時報
2026-03-27 00:56:03
據張雪峰公司一位員工透露,鏡頭前的張雪峰和私下里的他判若兩人

據張雪峰公司一位員工透露,鏡頭前的張雪峰和私下里的他判若兩人

硯底沉香
2026-03-27 07:43:52
“專利被宣告全部無效!宇樹科技IPO路上最大‘攔路虎’被徹底鏟除”

“專利被宣告全部無效!宇樹科技IPO路上最大‘攔路虎’被徹底鏟除”

新浪財經
2026-03-26 22:53:31
全世界沒料到,美國動作真快,沒踩中東坑,反而一招洗空30萬億債

全世界沒料到,美國動作真快,沒踩中東坑,反而一招洗空30萬億債

瀲滟晴方DAY
2026-03-26 22:46:22
英國NHS實習醫生涉嫌支持哈馬斯,31歲面臨70年監禁

英國NHS實習醫生涉嫌支持哈馬斯,31歲面臨70年監禁

老馬拉車莫少裝
2026-03-27 07:37:33
日本被踢出局,僅僅48小時,高市就開始報復:拿中日關系做文章

日本被踢出局,僅僅48小時,高市就開始報復:拿中日關系做文章

掉了顆大白兔糖
2026-03-27 07:23:53
石油危機惡化,美聯儲拒不加息,中國警惕了幾十年,防的就是今天

石油危機惡化,美聯儲拒不加息,中國警惕了幾十年,防的就是今天

無情有思ss
2026-03-26 14:01:00
什么樣的國家最害怕內鬼?

什么樣的國家最害怕內鬼?

小院之觀
2026-03-05 16:57:32
曾因污言穢語被封禁的張雪峰,憑什么讓鄭大悼念,新華社發訃告?

曾因污言穢語被封禁的張雪峰,憑什么讓鄭大悼念,新華社發訃告?

觀察者海風
2026-03-25 22:10:33
女司機踏寶馬引擎蓋后續!真相曝光車主身份被扒,難怪女方暴怒

女司機踏寶馬引擎蓋后續!真相曝光車主身份被扒,難怪女方暴怒

阿纂看事
2026-03-26 16:20:25
馬斯克粉碎華爾街規矩?SpaceX據稱擬將至多30%新股留給散戶

馬斯克粉碎華爾街規矩?SpaceX據稱擬將至多30%新股留給散戶

財聯社
2026-03-27 04:12:16
三大指數低開近1%

三大指數低開近1%

財聯社
2026-03-27 09:28:08
出大事了,以色列新計劃曝光,聯合國急呼停火,第一個反抗者出現

出大事了,以色列新計劃曝光,聯合國急呼停火,第一個反抗者出現

快看張同學
2026-03-27 09:48:46
過分!一大V諷刺張雪峰:稱少一個鼓吹戰爭的瘋子,對世界更美好

過分!一大V諷刺張雪峰:稱少一個鼓吹戰爭的瘋子,對世界更美好

談史論天地
2026-03-26 07:56:52
沉寂二十一年的真相如何浮出水面?2004年蒼南縣“7.21專案”始末

沉寂二十一年的真相如何浮出水面?2004年蒼南縣“7.21專案”始末

顧氏造船廠廠長
2026-03-27 08:00:12
女子和男領導搞曖昧,尺度沒把握好被強行占有,結果害人又害己

女子和男領導搞曖昧,尺度沒把握好被強行占有,結果害人又害己

漢史趣聞
2026-03-26 14:15:30
伊朗發動“真實承諾-4”行動第83波攻勢

伊朗發動“真實承諾-4”行動第83波攻勢

新華社
2026-03-27 09:23:02
姑夫:我機子里內存拆掉賣了,你借兩條用用,過段時間降價了還你

姑夫:我機子里內存拆掉賣了,你借兩條用用,過段時間降價了還你

老田電腦
2026-03-26 10:07:27
2026-03-27 10:35:00
爬蟲飼養員
爬蟲飼養員
業余養了只叫“龍蝦”的AI爬蟲,主業是給互聯網打工。
214文章數 1關注度
往期回顧 全部

科技要聞

OpenAI果斷砍掉"成人模式",死磕生產力

頭條要聞

65歲上海老伯相信"33歲女老師"給自己生兒子 被騙16萬

頭條要聞

65歲上海老伯相信"33歲女老師"給自己生兒子 被騙16萬

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發聲!稱姐姐受身邊人挑撥

財經要聞

很反常!油價向上,黃金向下

汽車要聞

一汽奧迪A6L e-tron開啟預售 CLTC最大續航815km

態度原創

時尚
教育
藝術
健康
軍事航空

張雪峰曾經“5次談猝死”

教育要聞

中考報名!剛剛,2026山東一市公布中考報名操作流程

藝術要聞

江青的書法秘訣!只練草書真的能提升書法水平嗎?

轉頭就暈的耳石癥,能開車上班嗎?

軍事要聞

擔心特朗普突然停戰 以總理下令48小時盡力摧毀伊設施

無障礙瀏覽 進入關懷版