網易首頁 > 網易號 > 正文申請入駐

IBM團隊讓AI看圖只花三分之一的"眼力"就能答對問題

2026-03-31 16:37:53　來源: 科技行者

天津舉報

分享至

這項由IBM研究院聯合特拉維夫大學、以色列理工學院和本古里安大學共同開展的研究，發表于2026年3月14日的計算機視覺領域頂級會議論文集中，論文編號為arXiv:2603.16932v1。對于那些想要深入了解技術細節的讀者，可以通過這個編號查詢到完整的研究論文。

當我們看一張照片時，通常不需要放大鏡般仔細觀察每個角落，而是會把注意力集中在最重要的部分。比如看一張菜譜圖片時，我們的眼睛會自動聚焦到關鍵的配料清單或烹飪步驟上，而不會浪費時間去仔細觀察背景的廚房裝飾。現在，IBM的研究團隊讓人工智能也學會了這種"聰明看圖"的本領。

傳統的視覺語言模型就像一個過分認真的學生，面對任何圖片都要用"高清放大鏡"仔細觀察每個像素，這雖然能保證不錯過任何細節，但也帶來了巨大的計算負擔。就好比你想知道一道菜的主要食材，卻要先用顯微鏡檢查整個廚房的每個角落一樣效率低下。這種方法在處理高分辨率圖片時尤其耗費資源，讓AI系統運行緩慢，成本高昂。

IBM研究團隊開發的AwaRes系統采用了一種全新的策略。它首先用"普通視力"瀏覽整張圖片，獲得大致印象，然后根據用戶提出的具體問題，智能地選擇需要"放大觀察"的區域。這就像一個經驗豐富的醫生看X光片，先整體瀏覽全圖，然后根據癥狀描述重點檢查可能有問題的部位。

更令人驚喜的是，這套系統在保持幾乎相同準確率的情況下，只使用了傳統方法36%的視覺處理資源。這意味著同樣的硬件設備可以處理更多圖片，或者同樣的處理速度下成本大幅降低。在某些特定任務上，比如圖表問答和文檔理解，AwaRes的表現甚至超過了傳統的全圖高清處理方法。

一、智能裁剪的工作原理

AwaRes的工作過程就像一個熟練的攝影師在拍照。當你請攝影師拍一張突出主角的照片時，他不會把整個場景都拍成超高清，而是會先用普通模式拍攝全景，了解整體構圖，然后根據需要對重要部分進行特寫拍攝。

系統的運作分為兩個步驟。首先，AI會接收一張被縮小到四分之一分辨率的"預覽圖"，就像我們在網頁上看到的縮略圖一樣。同時，系統還會收到用戶的具體問題，比如"這個圖表中哪個數值最大？"或者"文檔中的總金額是多少？"

接下來就是關鍵的決策時刻。系統會判斷這個問題是否可以僅從低分辨率圖片中得到答案。如果可以，它就直接給出回答，就像你在遠處就能認出朋友的臉一樣，不需要走近仔細觀看。但如果問題涉及細節信息，比如需要讀取小號字體或辨識復雜圖形，系統就會發出"工具調用"，請求獲取特定區域的高清版本。

這個工具調用非常精確，它不會盲目地要求整張圖片的高清版本，而是會指定需要放大的具體區域。就像你在地圖上圈出需要詳細了解的街區，而不是要求整個城市的衛星高清圖。系統可以從九個預設區域中選擇，包括圖片的四個角落、中心區域、上下左右四個邊緣區域，以及整張圖片。

當獲得了所需區域的高清圖像后，系統會結合之前的低分辨率全局視圖和新獲得的高清局部視圖來回答問題。這種做法確保既保留了整體信息的完整性，又獲得了關鍵細節的清晰度。整個過程都是自動化的，用戶完全感覺不到背后復雜的處理流程。

二、讓AI學會"看重點"的訓練過程

教會AI智能選擇觀看區域并非易事，就像教一個孩子學會在密集的文字中找到關鍵信息一樣需要耐心和技巧。IBM研究團隊設計了一套巧妙的自動化訓練方法，不需要人工去標注每張圖片中的重要區域。

訓練的第一步是制造"對比實驗"。研究團隊讓同一個AI模型分別處理同一張圖片的低分辨率版本和高分辨率版本，然后比較兩個答案的準確性。他們請來了一個"AI評委"（使用LLaMA-3.3-70B模型）來判斷哪個答案更準確。如果低分辨率版本的答案已經足夠好，這張圖片就被標記為"無需放大"；反之則標記為"需要放大"。

對于那些被判定"需要放大"的圖片，系統需要進一步確定具體應該放大哪個區域。這時候，研究團隊啟用了一個"定位專家"（Qwen3-VL-A235B-A22B模型），它的任務就像一個經驗豐富的圖書管理員，能夠快速找到書中包含特定信息的頁面和段落。這個定位專家會在圖片上標出包含答案的精確區域，然后系統將這個區域映射到預設的九個裁剪選項中。

通過這種方法，研究團隊創建了兩種類型的訓練樣本。一種是"直接回答"樣本，AI看到低分辨率圖片后直接給出答案；另一種是"工具使用"樣本，AI先發出裁剪請求，獲得高清區域后再給出最終答案。這就像訓練一個學生既要學會快速瀏覽找答案，也要學會在需要時使用放大鏡仔細查看細節。

整個訓練過程分為兩個階段。第一階段是"冷啟動"監督學習，讓AI掌握基本的工具使用協議，學會何時應該請求高清圖像以及應該請求哪個區域。第二階段是強化學習優化，通過獎勵機制進一步調整AI的決策策略，讓它在準確性和效率之間找到最佳平衡點。

三、性能表現和實際效果

AwaRes系統在六個不同的測試基準上展現出了令人印象深刻的性能表現。這些測試就像給AI學生出的六套不同難度和類型的考試題，涵蓋了從圖表理解、文檔問答到自然圖像識別的各個方面。

在圖表問答任務中，AwaRes的表現特別出色，準確率達到80.64%，甚至略微超過了傳統全圖高清處理的79.80%準確率，而使用的計算資源卻只有后者的32%。這就好比一個聰明的學生在數學考試中不僅答題更快，準確率還更高。類似的優異表現也出現在文檔理解和文字識別任務中。

更重要的是處理速度的提升。在圖表問答任務中，傳統方法平均需要4.3秒才能給出答案，而AwaRes只需要0.6秒，速度提升了超過7倍。這種速度優勢主要來源于兩個方面：一是減少了需要處理的視覺信息量，二是避免了冗長的推理過程。

傳統系統在決定是否需要高分辨率圖像時，往往會生成大量的中間推理文本，就像一個話癆學生做題時要寫一大堆草稿。而AwaRes采用了簡潔的結構化工具調用，直接表明需要哪個區域的高清圖像，避免了不必要的"自言自語"。

在實際應用場景中，這種效率提升意味著相同的服務器可以同時處理更多用戶請求，或者在處理相同數量請求時顯著降低電力和硬件成本。對于需要大規模部署AI視覺服務的公司來說，這種效率改善可以帶來可觀的經濟效益。

四、技術創新的獨特之處

AwaRes的創新性不僅體現在最終效果上，更在于其獨特的設計理念和實現方式。與其他試圖提高效率的方法相比，AwaRes采用了一種更加自然和智能的策略。

傳統的效率優化方法主要分為兩類。第一類是"削減式"方法，就像用橡皮擦隨機擦除部分視覺信息，雖然能減少計算量，但往往會意外刪除重要信息。第二類是"升級式"方法，當發現需要更多細節時就調用整張高清圖片，雖然保證了信息完整性，但在計算資源使用上缺乏精確性。

AwaRes則開創了第三條道路："精確定位式"方法。它既保留了全局信息的完整性，又實現了局部細節的精確獲取。這就像一個經驗豐富的醫生使用聽診器檢查病人，不需要對每個部位都進行CT掃描，而是根據癥狀和初步檢查結果，有針對性地選擇需要詳細檢查的部位。

另一個技術亮點是系統的"耦合決策策略"。傳統方法通常將"是否需要高清圖像"和"需要哪個區域的高清圖像"視為兩個獨立的決策問題。AwaRes將這兩個決策融合為一個統一的選擇過程，就像一個熟練的攝影師在按下快門的瞬間，同時確定拍攝角度、焦點位置和曝光設置。

這種融合策略的優勢在于它能夠考慮到兩個決策之間的相互影響。例如，如果AI判斷某個特定區域的高清圖像對回答問題非常有價值，它更傾向于發出裁剪請求；反之，如果預期的高清區域對問題幫助不大，系統可能會選擇僅基于低分辨率圖像給出答案。

五、廣泛的應用前景

AwaRes技術的應用前景遠遠超出了學術研究的范疇，它有望在多個實際應用領域帶來顯著改善。在在線教育平臺中，當學生上傳習題照片求助時，系統可以快速識別題目類型，然后精確放大關鍵的數學公式或圖表部分，既節省了處理時間，又確保了答案的準確性。

在醫療影像分析領域，AwaRes的思路同樣具有重要價值。醫生在查看X光片或CT掃描時，通常會先整體瀏覽，然后根據癥狀重點觀察特定區域。AI系統如果也能采用這種策略，不僅可以提高處理速度，還能減少對高性能計算設備的依賴，讓先進的醫療AI技術更容易在資源有限的醫院得到應用。

電商和零售行業也能從這項技術中受益。當消費者上傳商品照片詢問價格或尋找相似商品時，AI可以智能地識別圖片中的關鍵商品區域，忽略背景和無關物品，提供更精準的搜索結果。這種精確性不僅提升了用戶體驗，也降低了服務提供商的計算成本。

在自動駕駛和機器人視覺領域，AwaRes的理念也具有重要意義。自動駕駛汽車不需要時時刻刻以最高分辨率處理整個視野范圍，而可以根據駕駛狀況動態調整對不同區域的關注程度。比如在高速公路上主要關注前方道路，而在路口則重點觀察左右來車和行人。

六、面臨的挑戰和未來發展

盡管AwaRes展現出了巨大的潛力，但作為一項新興技術，它也面臨著一些挑戰和限制。目前系統使用的是預設的九個裁剪區域，這就像只能從九個固定的觀察窗口中選擇，有時可能無法完美覆蓋所需的區域。

研究團隊也觀察到了一些"學習過度"的現象。在初期訓練階段，AI系統傾向于過度使用裁剪工具，即使在不必要的情況下也會請求高清圖像，就像一個剛學會使用放大鏡的孩子，什么都想放大看看。雖然后續的強化學習訓練能夠糾正這種行為，但這個過程需要精心調節，找到準確性和效率之間的最佳平衡點。

另一個挑戰來自于不同類型圖像的差異性。系統在處理圖表和文檔時表現優異，但在復雜的自然場景圖像中，重要信息可能分散在多個不相鄰的區域，這時候預設的裁剪選項可能就顯得不夠靈活。

未來的發展方向包括從固定區域選擇擴展到連續的邊界框預測，讓系統能夠更精確地定位所需區域。研究團隊還計劃將這種空間上的"按需處理"理念擴展到時間維度，應用于視頻理解任務。在視頻分析中，系統可以根據問題的性質，選擇性地以高分辨率處理某些關鍵幀，而對其他幀采用較低的分辨率。

此外，結合更先進的多模態大型語言模型，AwaRes有望實現更加智能的區域選擇策略。系統不僅能夠基于視覺特征做決策，還能結合語言理解能力，更準確地預測哪些區域對回答特定問題最有價值。

說到底，AwaRes代表了AI視覺處理領域的一個重要進步方向：讓機器學會像人類一樣智能地分配注意力。正如我們在日常生活中不會用顯微鏡觀察每一個細節，AI系統也應該學會在保證任務完成質量的前提下，最有效地利用計算資源。這項研究不僅在技術上實現了突破，更重要的是為AI系統的設計提供了新的思路：智能不僅體現在處理信息的能力上，更體現在知道何時、何地需要更多信息的判斷能力上。

隨著這項技術的不斷完善和推廣應用，我們有理由期待AI系統在保持高準確性的同時變得更加高效和實用，為更多領域的實際應用鋪平道路。

Q&A

Q1：AwaRes技術是如何工作的？

A：AwaRes的工作原理就像一個聰明的攝影師。它首先用低分辨率"預覽"整張圖片，然后根據用戶的具體問題判斷是否需要高清細節。如果需要，它會精確選擇需要放大的區域，而不是處理整張高清圖片，從而大大節省計算資源。

Q2：使用AwaRes技術能節省多少計算資源？

A：AwaRes在保持幾乎相同準確率的情況下，只使用傳統方法36%的視覺處理資源。在處理速度上提升更明顯，比如圖表問答任務的處理時間從4.3秒縮短到0.6秒，速度提升超過7倍。

Q3：AwaRes技術可以應用在哪些場景？

A：AwaRes技術應用前景廣泛，包括在線教育平臺的習題識別、醫療影像的重點區域分析、電商平臺的商品圖片搜索、自動駕駛中的場景理解等。任何需要處理大量圖像并要求快速響應的場景都能從這項技術中受益。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.