網易首頁 > 網易號 > 正文申請入駐

上海交通大學團隊揭秘：AI為什么總是在數學題上"看錯圖"？

2026-03-20 19:34:27　來源: 至頂AI實驗室

北京舉報

分享至

當我們看到一道幾何題或物理圖表時，通常能迅速理解其中的關鍵信息。但你有沒有想過，那些號稱"智能"的AI模型在面對同樣的STEM（科學、技術、工程、數學）圖像時，為什么經常會犯一些看似低級的錯誤？

這項由上海交通大學、阿里巴巴達摩院Qwen團隊等多家機構聯合開展的研究，發表于2025年3月的arXiv預印本平臺（論文編號：arXiv:2603.10757v1），首次系統性地回答了這個問題。研究團隊通過大規模實驗發現了一個令人意外的結論：AI在STEM領域的失誤，主要不是因為"不會推理"，而是因為"看不清楚"。

這個發現顛覆了許多人的直覺。長期以來，研究人員一直認為AI在數學和科學問題上的困難主要來自邏輯推理能力不足，因此大量精力都投入到增強AI的推理訓練上。然而，上海交通大學的研究團隊通過巧妙的實驗設計，將視覺理解和推理過程分離開來，意外地發現視覺感知才是真正的瓶頸。

為了驗證這一發現并提出解決方案，研究團隊創新性地提出了"代碼驅動感知"的概念。他們認為，既然自然語言描述在處理復雜的STEM圖像時存在天然的局限性，那么為什么不讓AI用更精確的編程代碼來"看懂"圖像呢？這就像是給AI配備了一副特殊的眼鏡，讓它能夠用數學語言而非模糊的文字來理解看到的內容。

基于這一洞察，研究團隊開發了一個名為CodePercept的創新框架，并構建了包含100萬個圖像-文字-代碼三元組的大規模數據集ICC-1M。更重要的是，他們還創建了一個全新的評測標準STEM2Code-Eval，這個標準要求AI不僅要"看懂"STEM圖像，還要能夠生成可執行的Python代碼來完美重現圖像，從而提供了一個更加嚴格和可驗證的評估方式。

一、AI的"視力"問題比我們想象的更嚴重

要理解這項研究的重要性，我們不妨用一個簡單的比喻。假設你是一位醫生，面對兩種可能的病因：病人可能是因為眼睛看不清楚而無法正確診斷，或者是因為醫學知識不夠而無法正確診斷。要找出真正的問題所在，你需要設計一個巧妙的實驗。

研究團隊正是用這種思路來診斷AI的問題。他們設計了一個兩階段的實驗：第一階段讓AI描述圖像內容（相當于測試"視力"），第二階段基于這些描述進行問題求解（相當于測試"推理能力"）。通過獨立地增強這兩個階段的能力，他們發現了一個令人震驚的結果。

當研究團隊將AI模型的規模從40億參數擴展到320億參數時，他們分別測試了只增強感知能力和只增強推理能力的效果。結果顯示，無論在哪種配置下，增強感知能力帶來的性能提升都遠遠超過了增強推理能力。這就像是給近視的醫生配眼鏡比給他更多醫學書籍更有效一樣。

這個發現在多個數學視覺推理數據集上都得到了驗證，包括MathVision、MathVista、MathVerse等權威測試集。在這些測試中，感知能力的提升始終表現出更大的邊際效益，這意味著AI在STEM領域的困難確實主要來源于"看不清楚"而非"想不明白"。

更具體地說，當前的多模態大語言模型在處理STEM圖像時面臨著一個根本性的挑戰：自然語言本身就不夠精確。當我們試圖用文字描述一個復雜的幾何圖形、化學分子結構或物理實驗裝置時，很多關鍵的數值關系、空間位置和精確的量化信息很容易丟失或被模糊化。這就像用詩歌來描述工程圖紙一樣，雖然能傳達大概的意思，但精確性必然受損。

這種"描述性失語癥"在STEM圖像中尤為明顯。比如，當面對一個包含多個幾何體的復雜立體圖形時，用自然語言準確描述每個幾何體的相對位置、大小比例和相互關系是極其困難的。即便是人類專家，也很難用純文字完美還原這樣的圖像，更不用說AI了。

二、用編程語言讓AI"看得更清楚"

面對這個挑戰，研究團隊提出了一個創新的解決思路：既然自然語言不夠精確，那么為什么不讓AI用編程語言來理解和描述圖像呢？

這個想法聽起來可能有些抽象，但其實很好理解。當一個程序員想要繪制一個復雜的圖形時，他會用Python代碼精確地指定每個點的坐標、每條線的方向、每種顏色的數值。這些代碼不僅能夠完美地重現原始圖形，還包含了所有必要的數值信息和空間關系。

基于這個洞察，研究團隊開發了CodePercept框架。這個框架的核心思想是訓練AI不僅能夠用自然語言描述圖像，還能夠生成相應的Python代碼來重現圖像。這樣的訓練過程就像是教AI用兩種不同的語言來"思考"同一個視覺概念。

CodePercept的工作流程可以比作一個技藝高超的臨摹畫家的訓練過程。首先，這個畫家需要學會觀察原畫的每一個細節（圖像感知），然后用自己的話描述看到的內容（自然語言描述），最后還要能夠按照嚴格的技術規范重新繪制出一模一樣的作品（代碼生成）。只有當所有這些能力都達到很高水平時，我們才能說這個畫家真正"看懂"了原畫。

為了實現這個目標，研究團隊構建了一個名為ICC-1M的大規模數據集。這個數據集包含了100萬個圖像-描述-代碼的三元組，每個三元組都確保了三種表示方式的完全一致性。這就像是為AI準備了一本巨大的"字典"，其中每個"詞條"都包含了視覺圖像、文字說明和代碼實現三種形式的定義。

ICC-1M數據集的構建過程本身就是一個工程奇跡。研究團隊設計了三條并行的數據生成流水線：第一條從現有STEM圖像出發，生成對應的Python代碼；第二條通過概念抽象和重新實例化來創造多樣化的圖像變體；第三條專門處理立體幾何圖像，因為這類圖像的代碼生成對當前AI來說特別困難。

在數據質量控制方面，研究團隊采用了嚴格的三階段驗證機制。每個生成的圖像-代碼對都需要通過代碼質量檢查、圖像質量檢查和圖像-代碼一致性檢查。這個過程就像食品安全檢測一樣嚴格，確保進入最終數據集的每個樣本都達到高質量標準。

三、兩種創新的訓練方法讓AI更聰明地"看圖"

有了高質量的數據集，研究團隊設計了兩種創新的訓練任務來增強AI的視覺感知能力。這兩種方法可以比作教授藝術史的兩種不同途徑：一種是讓學生既學會欣賞藝術作品又掌握創作技法，另一種是直接訓練學生成為能夠復制大師作品的高手。

第一種方法叫做"代碼驅動的字幕生成"。傳統的圖像描述生成往往依賴于其他AI模型的輸出，這就像是讓一個可能患有"色盲"的人來教另一個人辨認顏色。這種方法的問題在于，如果教師模型本身就存在感知偏差或幻覺，這些錯誤就會傳遞給學生模型。

為了解決這個問題，研究團隊讓AI首先學會生成能夠重現圖像的Python代碼，然后基于這個"絕對準確"的代碼來生成自然語言描述。這個過程就像是先讓學生掌握了繪畫的精確技法，然后再讓他們用文字來描述自己的作品。由于代碼是可執行的，它提供了一個客觀的"真理標準"，從而避免了傳統方法中的幻覺問題。

具體來說，這種方法分為三個步驟：首先生成一個自然但可能不夠準確的初始描述，然后從對應的代碼中提取精確的視覺信息，最后將兩者結合生成既自然又準確的最終描述。這就像是先畫一個草圖，再用精密儀器測量，最后融合兩種信息得到完美的技術圖紙。

第二種方法叫做"STEM圖像到代碼翻譯"。這種方法直接訓練AI將視覺圖像轉換為能夠重現該圖像的Python代碼。這個任務比傳統的圖像描述任務更具挑戰性，因為代碼需要在語法上正確、邏輯上清晰，并且能夠在計算機上成功運行。

這種訓練方法的巧妙之處在于，它為AI提供了一個明確且可驗證的學習目標。與模糊的"描述準確性"不同，代碼要么能夠運行并生成正確圖像，要么不能。這種二元的成功標準消除了評估中的主觀性，讓AI能夠獲得更精確的學習反饋。

為了進一步提升代碼生成的質量，研究團隊還引入了強化學習機制。他們設計了一個綜合的獎勵系統，不僅考慮代碼的可執行性，還評估生成圖像與原始圖像的視覺相似度，以及代碼本身的質量和可讀性。這就像是給AI配備了一個嚴格但公正的導師，能夠從多個維度指導其不斷改進。

四、革命性的評測標準：讓AI"重畫"圖像來證明理解力

傳統的AI評測方法存在一個根本問題：它們通常只關注最終的問題解答正確率，而忽略了AI是否真正"看懂"了圖像。這就像是通過考試成績來判斷學生是否理解了教材，但實際上學生可能只是死記硬背了答案。

為了更直接地評估AI的視覺理解能力，研究團隊創建了STEM2Code-Eval基準測試。這個測試的核心理念非常直觀：如果AI真的理解了一個STEM圖像，那么它應該能夠生成代碼來完美重現這個圖像。這種評測方式就像是要求學生不僅要說出蒙娜麗莎的特點，還要能夠畫出一幅一模一樣的蒙娜麗莎。

STEM2Code-Eval包含了1000個精心篩選的圖像-代碼對，涵蓋數學、物理、化學和電子工程等多個STEM領域。每個圖像都經過了嚴格的質量控制流程，確保對應的Python代碼能夠完美重現原始圖像。

這個基準測試的構建過程可以比作制作一套高質量的標準化考卷。首先，研究團隊從六個知名的STEM數據集中收集圖像。然后，他們使用最先進的AI模型生成初始的圖像描述和對應代碼。接下來是一個迭代優化過程：代碼被執行以生成圖像，生成的圖像與原始圖像進行比較，如果相似度不夠高，就會觸發代碼修正流程。

在候選篩選階段，研究團隊根據重建質量和任務難度對所有圖像-代碼對進行排序，選擇既高質量又有適當挑戰性的樣本。最后，十位專家評審員對候選樣本進行五分制評分，從風格、內容和功能三個維度進行綜合評估。只有平均分最高的1000個樣本最終入選基準測試，確保了測試的權威性和挑戰性。

STEM2Code-Eval使用三個指標來全面評估AI的表現：圖像評分衡量生成圖像與原始圖像的視覺相似度，代碼評分評估生成代碼的質量、結構和正確性，執行成功率則測量代碼能否正常運行。這三個指標就像是從三個不同角度審視同一件藝術品，確保評估的全面性和公正性。

五、實驗結果：代碼訓練確實讓AI更聰明了

研究團隊在多個維度上驗證了CodePercept方法的有效性。實驗結果就像是一份詳細的體檢報告，從各個角度證明了這種新方法的優越性。

在傳統的STEM推理任務上，經過CodePercept訓練的模型顯示出了顯著的性能提升。以4B參數的模型為例，在六個主流STEM數據集上的平均性能提升了2.8個百分點。當模型規模增加到8B參數時，性能提升進一步擴大到3.0個百分點。這種提升看似不大，但在AI領域，即使1個百分點的改進也往往需要大量的工程努力。

更令人印象深刻的是，經過CodePercept訓練的8B參數模型甚至超越了一些參數量遠大于它的模型。比如，CodePercept-8B的表現超過了參數量為720億的Qwen2.5-VL模型6.2個百分點。這就像是一個經過專業訓練的輕量級拳手擊敗了一個天賦異稟但訓練不足的重量級選手。

在專門的視覺感知測試STEM2Code-Eval上，CodePercept的優勢更加明顯。4B參數的模型相比基線版本提升了15.3個百分點，8B參數的模型提升了17.2個百分點。這些大幅度的改進清楚地表明，代碼驅動的訓練方法確實能夠顯著增強AI的視覺理解能力。

特別值得注意的是強化學習階段的貢獻。在監督學習的基礎上，進一步的強化學習訓練為4B和8B模型分別帶來了額外的6.5和4.0個百分點的提升。這證明了精心設計的獎勵機制能夠進一步推動AI的性能邊界。

研究團隊還進行了詳細的對比實驗來驗證不同組件的貢獻。他們發現，三種數據生成策略（圖像重現、圖像多樣化和立體幾何合成）都對最終性能有積極影響，其中圖像多樣化策略的貢獻最為顯著。這說明了多樣性在AI訓練中的重要作用，就像人類學習也需要接觸各種不同的例子才能真正掌握某個概念。

代碼驅動的字幕生成方法相比傳統的直接字幕生成方法帶來了2.0個百分點的顯著提升。這個結果證實了使用可執行代碼作為"真理錨點"的價值，驗證了研究團隊的核心假設。

六、立體幾何：AI視覺理解的最后堡壘

在所有的STEM視覺任務中，立體幾何圖像的處理一直是AI面臨的最大挑戰之一。這類圖像需要AI理解復雜的三維空間關系、透視變換和多個幾何體之間的相互作用，其困難程度就像是要求一個從未離開過平面世界的生物理解三維空間的概念。

為了解決這個特殊的挑戰，研究團隊專門設計了立體幾何合成流水線。他們創建了一系列參數化的代碼模板，涵蓋了立體幾何教學中的典型場景：立體展開與折疊序列、正交三視圖投影與重建、立體截面分析、立體堆疊配置、各種幾何體的組合、多面體構造、空間曲線可視化以及曲面積分表示。

這些模板的設計哲學類似于建筑師的標準圖紙。每個模板定義了特定類型幾何圖形的生成邏輯，通過調整參數空間中的不同數值，可以生成無數種變體。比如，一個立體展開模板可以通過修改邊長、角度和展開方式參數，生成從簡單正方體到復雜多面體的各種展開圖。

這種方法的優勢在于確保了幾何正確性。由于模板是基于嚴格的數學原理構建的，生成的所有圖像都保證在幾何學上是準確和一致的。這解決了當前AI模型在生成立體幾何代碼時經常出現的幾何錯誤問題。

在實驗驗證中，立體幾何合成確實為整體性能帶來了額外的提升。雖然這個提升相對較小，但考慮到立體幾何任務的特殊困難性，任何改進都是有價值的。更重要的是，這個專門的模塊為處理更復雜的三維視覺推理任務奠定了基礎。

七、訓練過程的精妙設計

CodePercept的訓練過程采用了兩階段的策略，這種設計就像是培養一個全能型人才的教育規劃：先讓學生掌握扎實的基礎知識，再通過實踐鍛煉來提升技能的精準度。

第一階段是監督學習，使用Qwen3-VL系列作為基礎架構。訓練過程聯合優化兩個任務：圖像字幕生成和圖像到代碼翻譯。這種聯合訓練的設計理念是讓AI同時學會用自然語言和編程語言來理解視覺內容，兩種表示方式相互補強。

訓練使用了ICC-1M數據集中的完整圖像-字幕-代碼三元組。自然語言字幕幫助模型理解圖像的語義含義，而代碼則提供了精確的結構和量化信息。這種互補性使得模型能夠建立更豐富、更準確的視覺表示。

第二階段引入了強化學習，專門針對代碼生成任務進行優化。研究團隊使用了群體相對策略優化（GRPO）算法，這是一種專門為代碼生成任務設計的強化學習方法。

強化學習階段的獎勵設計特別值得關注。研究團隊構建了一個復合獎勵函數，包括格式獎勵、內容獎勵和執行獎勵三個組成部分。格式獎勵確保生成的代碼符合標準的Python語法規范；內容獎勵評估代碼的語義正確性和與真實標準的相似度；執行獎勵則驗證代碼能否成功運行并生成預期的圖像。

這種多維度的獎勵機制就像是一個嚴格的導師團隊，從不同角度指導AI的學習過程。每個維度都提供獨特的學習信號，確保模型在語法正確性、語義準確性和實用性方面都能得到持續改進。

訓練過程中的技術細節也體現了研究團隊的深思熟慮。他們使用了混合精度訓練、梯度累積和Flash Attention等先進技術來提高訓練效率。同時，采用余弦學習率調度和適當的權重衰減來確保訓練的穩定性和收斂性。

八、對比實驗揭示的深層洞察

為了全面驗證CodePercept方法的有效性，研究團隊設計了一系列精心控制的對比實驗。這些實驗就像是科學研究中的對照組，幫助分離出每個組件的具體貢獻。

在數據生成策略的對比中，研究團隊分別測試了單獨使用圖像重現、圖像多樣化和立體幾何合成的效果。結果顯示，這三種策略都對最終性能有積極貢獻，但圖像多樣化策略的效果最為顯著。這個發現強調了數據多樣性在AI訓練中的重要性。

更有趣的是代碼驅動字幕生成與傳統字幕生成方法的對比。傳統方法直接使用先進的多模態模型來生成圖像描述，而代碼驅動方法則使用可執行代碼作為中間表示來確保描述的準確性。對比結果顯示，代碼驅動方法帶來了顯著的性能提升，驗證了"代碼作為真理錨點"這一核心理念。

在STEM圖像到代碼翻譯任務的驗證中，研究團隊發現這種直接的視覺到代碼映射為整體性能帶來了額外的提升。這說明代碼不僅可以作為生成準確字幕的中間步驟，本身也是一種有價值的視覺表示形式。

強化學習階段的貢獻分析揭示了不同獎勵組件的相對重要性。執行獎勵的貢獻最為顯著，這表明代碼的可執行性是一個強有力的學習信號。代碼相似度獎勵和圖像相似度獎勵則提供了更細粒度的指導，幫助模型生成更高質量的代碼。

研究團隊還比較了直接圖像到代碼生成與描述增強的圖像到代碼生成兩種方法。結果表明，先生成詳細的圖像描述再生成代碼的兩步法顯著優于直接生成代碼的一步法。這個發現支持了"分步驟處理復雜任務"的設計理念，說明即使對于AI來說，將復雜任務分解成更小的子任務也是有益的。

九、實際應用中的性能表現

在實際應用場景中，CodePercept展現出了令人鼓舞的性能表現。研究團隊在多個真實世界的STEM數據集上進行了測試，這些數據集涵蓋了從中學數學到大學物理的各種難度級別。

在MathVision數據集上，CodePercept-4B模型相比基線模型提升了3.4個百分點，達到了57.63%的準確率。考慮到這個數據集包含了許多需要復雜幾何推理的題目，這種提升是相當顯著的。隨著模型規模的增長，性能提升變得更加明顯。CodePercept-32B在同一數據集上達到了62.27%的準確率，相比基線版本提升了3.7個百分點。

在MathVista數據集上的表現同樣令人印象深刻。這個數據集特別強調視覺理解能力，因為其中的許多問題都需要精確理解圖形中的數值關系和幾何結構。CodePercept在這個挑戰性數據集上的穩定提升證明了其視覺感知增強的有效性。

LogicVista數據集測試了模型在邏輯推理方面的能力，需要AI理解復雜的邏輯圖表和關系網絡。在這個數據集上，CodePercept的提升尤為顯著，4B、8B和32B模型分別獲得了6.3、4.7和3.1個百分點的提升。這些結果表明，即使在主要考查邏輯推理的任務中，更好的視覺理解仍然能夠帶來實質性的性能改進。

特別值得注意的是，CodePercept模型在跨規模比較中表現出了優異的效率。經過CodePercept訓練的8B參數模型在多個數據集上的表現超越了參數量為其九倍的某些大型模型。這種效率上的優勢對于實際部署具有重要意義，因為它意味著可以用更小的計算資源達到更好的性能。

在專門的視覺感知測試STEM2Code-Eval上，CodePercept的優勢更加明顯。不僅在圖像重建質量上有顯著提升，在代碼質量和執行成功率方面也都表現出色。這種全方位的改進證明了代碼驅動訓練方法的全面有效性。

十、方法論的深層價值與未來展望

CodePercept的價值不僅僅在于其在特定任務上的性能提升，更在于它為AI視覺理解提供了一個全新的方法論框架。這種框架的核心思想是使用更精確的符號表示來增強自然語言的表達能力，這個理念具有廣泛的應用潛力。

從認知科學的角度來看，CodePercept的成功驗證了多模態表示學習的價值。人類在理解復雜視覺信息時，往往會同時使用直覺性的整體印象和分析性的細節描述。CodePercept通過結合自然語言的語義表達能力和程序代碼的精確性，為AI提供了類似的多重表示能力。

這種方法論還為解決AI的幻覺問題提供了新的思路。在傳統的視覺語言模型中，生成的文本描述很難驗證其準確性，這為幻覺的產生留下了空間。而CodePercept通過引入可執行代碼這一客觀標準，建立了一個可驗證的真理錨點，從根本上減少了幻覺現象。

從技術發展的角度來看，CodePercept為構建更可靠的AI系統指出了方向。在安全關鍵的應用場景中，AI系統的輸出需要具有可驗證性。CodePercept展示了如何通過設計可驗證的中間表示來增強AI系統的可信度。

這項研究還為AI教育應用開辟了新的可能性。傳統的AI教學輔助系統往往只能提供最終答案，而無法展示解題過程。CodePercept生成的代碼實際上提供了一種新型的"解題步驟"表示，這種表示既精確又可執行，為構建更智能的教學系統提供了基礎。

在未來的發展方向上，這種代碼驅動的方法有望擴展到更多領域。除了STEM教育，在科學研究、工程設計、數據分析等需要精確性的領域，類似的方法都可能發揮重要作用。特別是在科學可視化和工程制圖領域，AI系統如果能夠理解并生成精確的技術圖形，將大大提升專業工作的效率。

CodePercept的另一個重要貢獻在于它為評估AI能力提供了新的標準。傳統的評估方法往往依賴于主觀判斷或間接指標，而STEM2Code-Eval提供了一種客觀、可驗證的評估方式。這種"重現即理解"的評估哲學可能會影響未來AI能力評測的設計思路。

從數據科學的角度來看，ICC-1M數據集的構建方法也具有參考價值。通過多管道數據生成、嚴格質量控制和多維度驗證，這項工作為構建高質量AI訓練數據集提供了方法論指導。特別是在需要精確性的領域，這種數據構建范式值得借鑒。

研究團隊在論文中也坦誠地討論了當前方法的局限性。代碼生成的復雜性使得這種方法在計算資源需求上相比傳統方法有所增加。同時，對于某些藝術性或抽象性較強的圖像，程序代碼可能無法完全捕捉其視覺精髓。這些局限性為未來的改進指明了方向。

說到底，這項研究最大的價值在于它改變了我們思考AI視覺理解的方式。它告訴我們，有時候問題的解決方案并不在于更復雜的算法或更大的模型，而在于重新審視問題的本質。當我們意識到AI在STEM視覺任務上的困難主要來自感知而非推理時，解決方案就變得清晰了：給AI更好的"眼鏡"，而不是更多的"書本"。

這種洞察不僅對AI研究具有指導意義，對教育和認知科學也有啟發價值。它提醒我們，在任何學習過程中，準確的感知都是有效推理的前提。無論是人類學習還是機器學習，"看得清楚"永遠是"想得明白"的基礎。

CodePercept的成功證明了跨學科思維的價值。通過將編程概念引入視覺理解任務，研究團隊創造性地解決了一個看似復雜的問題。這提醒我們，在面對技術挑戰時，有時候答案就藏在相鄰領域的成熟方法中，關鍵是要有足夠的開放心態去發現和應用這些方法。

Q&A

Q1：CodePercept是什么，它解決了什么問題？

A：CodePercept是上海交通大學團隊開發的一種新型AI訓練框架，專門用來提升AI在數學、物理等STEM圖像理解方面的能力。它解決的核心問題是AI在處理科學圖像時經常"看不清楚"的問題。傳統AI主要用自然語言來描述圖像，但對于復雜的幾何圖形、化學分子結構等，文字描述往往不夠精確。CodePercept讓AI學會用編程代碼來理解圖像，就像給AI配了一副更精確的"眼鏡"。

Q2：為什么用代碼比用文字描述圖像更有效？

A：這主要是因為代碼具有文字無法比擬的精確性。當你用文字描述一個復雜的幾何圖形時，很難準確表達每個點的坐標、每條線的角度、每種顏色的具體數值。但用Python代碼就不同了，它能精確指定圖像的每一個細節，而且這些代碼是可以執行的，能夠完美重現原始圖像。這就像用工程圖紙和詩歌描述同一座建筑的區別——工程圖紙雖然不那么優美，但絕對準確。

Q3：普通人能用到CodePercept技術嗎？

A：雖然CodePercept目前主要是研究階段的技術，但它的應用前景很廣闊。未來可能會集成到在線教育平臺中，幫助學生更好地理解數學和科學概念；也可能用于智能作業批改系統，讓AI更準確地理解學生畫的圖形和解題步驟；甚至可能應用到智能設計軟件中，幫助工程師和設計師更高效地處理技術圖紙。隨著技術成熟，這種"看圖生代碼"的能力可能會成為未來AI助手的標配功能。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.