網易首頁 > 網易號 > 正文申請入駐

全球第一，13個SOTA！我們找到了龍蝦界掌管GUI的神

2026-04-13 14:12:11　來源: 機器之心Pro

北京舉報

分享至

編輯｜冷貓

有沒有想過讓「龍蝦」替你打麻將？

自從龍蝦熱以來，大家慢慢接受了 AI 智能體能夠在電腦上執行操作的特性。

既然龍蝦具備一定的控制能力，那讓它替我去掙歡樂豆不過分吧。

遺憾的是，現在的龍蝦，稱之為「Claw」是有道理的，笨拙的龍蝦爪的確很難進行復雜操作。讓它打開瀏覽器逛逛電商平臺比價，都要尋找各種對應的 Skills，而且執行的吭哧癟肚的，這的確讓人很難放心地將正經工作流交給龍蝦。

時隔半年有余，那個能夠直接操作圖形界面的，曾經取得雙榜 SOTA 的通用 GUI 智能體模型 Mano 再一次產生了飛躍。不僅解決了自動操作工作流的痛點，甚至連「替我打麻將」的夢想都實現了：

這次，明略科技帶著自研全新進化的面向端側設備的 GUI-VLA 智能體模型 Mano-P 1.0亮相。這一模型能夠不依賴傳統 API 對接，也不局限于瀏覽器場景，能夠直接理解并操作桌面軟件、網頁界面，完成更復雜的圖形化工作流，徹底引領龍蝦從「爪」向「手」的跨越式進化

簡而言之，Mano-P 1.0 模型是一個純視覺 GUI 操作模型，不依賴任何插件，打通全部兼容性瓶頸。與其他 GUI 操作模型不同，Mano-P 1.0 能夠完全實現本地運行，數據零上云開箱即用，三種形態，覆蓋全部開發者群體。

開源鏈接：https://github.com/Mininglamp-AI/Mano-P/tree/main

Mano-P，一臺 M4 Mac，兩行命令，一個能在你電腦上自主操作界面的 AI。

相比之前的 Mano 模型，Mano-P 產生了質的飛躍。讓我們非常好奇的一點是，新模型名字中的「P」，到底是什么含義？

全球第一，斷檔領先

我們猜測，P for Power

讓我們來看看硬成績。雙榜 SOTA 遠遠不是 Mano 模型的上限。這次，Mano-P 1.0 模型給了我們巨大的震撼。

Mano-P 在全球 13 個多模態基準榜單上達到 SOTA，覆蓋 GUI Grounding、CUA、感知認知、視頻理解、上下文學習等多個維度，呈現出「屠榜式」的斷崖領先。

ScreenSpot-V2 上拿到93.5分，MMBench 上87.5分，UI-Vision 上46.6分，幾乎全面碾壓同量級競品。

在 GUI Agent 領域最具權威性的基準測試 OSWorld 上，Mano-P 1.0-72B 取得了58.2%的成功率，在所有專用 GUI 智能體模型中排名全球第一，領先第二名 opencua-72b（45.0%）整整13.2個百分點。

放到全模型榜單上看，排在前四位的都是千億級參數的通用大模型 ——Claude Sonnet 4.6（72.1%）、Gemini 2.5 Pro（66.9%）等。而 Mano-P 以 72B 參數量躋身第五位，作為一款專用模型打入通用模型的俱樂部，這本身就已經說明了很多。

另一個值得關注的戰場是 WebRetriever Protocol I：Mano-P 拿到了 41.7 NavEval 分數，超越了 Gemini 2.5 Pro Computer Use（40.9）和 Claude 4.5 Computer Use（31.3）。

以上硬核成績，完全能夠說明 Mano-P 1.0 模型能夠摘得全球第一的桂冠。

GUI 是數字世界最真實的入口，而 Mano-P 正在把這個入口交給智能體。

在官方演示中，Mano-P 完成了一套從視頻生成、上傳、分析、剪輯到二次評測的全流程自動化，其中同時涉及網頁操作和專業剪輯軟件的混合使用 —— 這對依賴瀏覽器協議的方案來說是不可能完成的任務。

核心優勢：「完全不上云」

當我們提起操作 GUI 的智能體，就能想到的一個極具代表性的應用是「豆包手機助手」。軟硬件深度結合的豆包，理論上能夠實現任何手機上的操作。

當前主流的 Computer Use 方案，包括豆包手機助手在內，本質上都遵循同一個模式：截屏或讀取屏幕信息 → 上傳云端 → 云端推理 → 返回操作指令 → 本地執行。

這意味著每一次操作，你的屏幕內容都在被傳輸到外部服務器。在個人用戶的隱私保護，以及對數據安全有硬性要求的場景來說，這是一個無法忽視的風險。這也是豆包手機助手曇花一現的核心原因之一。

Mano-P 走了一條完全不同的路，支持本地運行，數據完全不上云

或許，P for Private

它支持在 Apple M4 芯片 + 32GB 內存的 Mac mini 或 MacBook 上直接進行本地推理。所有截圖和任務數據完全不出設備，不需要配置任何 API 密鑰，不需要聯網，不需要向任何外部服務器發送一比特的數據。

性能數據也足夠亮眼：其 4B 量化模型（w4a16）在 Apple M4 Pro 上可實現 476 tokens/s 預填充速度和 76 tokens/s 解碼速度，峰值內存僅占 4.3GB—— 一臺標配 M4 Mac mini 就能流暢運行。

明顯的，端側不是云端能力的「縮水版」，是 Agent 落地的另一條路徑 —— 一條更適合高安全需求、高隱私要求、以及希望對 AI 能力擁有完整控制權的用戶的路徑。

Mano-P 通過與眾不同的私有化策略，重構了「純視覺理解」與「本地執行」的底層邏輯，讓你的「龍蝦」真正屬于你。

這種架構擁有「物理隔離」的安全感，更憑借其零門檻、開箱即用的部署特性，大幅降低了構建 GUI Agent 工作流的工程成本。

這標志著 AI 智能體私有化，個人化的開始。

小龍蝦們引發了一場 Mac mini 搶購熱潮，眼看 Mano-P 在 M4 Pro 芯片的亮眼成績，下一波斷貨還遠嗎？

開源的三步棋

開源一個強大的模型需要強大的魄力。便是如 Meta 這樣的巨頭，也逐步向閉源模型方向轉變。

Yann LeCun 就曾表示「獲勝的平臺將是開放的平臺」。可能，P for Public

Mano-P 是一個全開源的模型。它的開源策略很有意思 —— 分三個階段逐步釋放能力。

開源鏈接：https://github.com/Mininglamp-AI/Mano-P/tree/main

Skill 先行，開箱即用

這一階段的核心目標是：現在就能用起來。

Mano-CUA Skill 已經開源。此階段的目標用戶是 Agent 愛好者，例如 OpenClaw 或 Claude Code 的用戶，使他們能夠利用 Mano-CUA 技能的功能構建更智能的 CUA 任務工作流程，擺脫人工干預帶來的瓶頸。

團隊提供了三種接入形態，分別對應不同類型的用戶：

mano-cua（CLI 命令行工具）—— 面向開發者和高級用戶。通過 Homebrew 一行安裝，之后在終端里直接用自然語言驅動 GUI 操作，腳本集成、批處理、自動化流水線都能直接嵌入。
mano-skill（Agent Skill 插件）—— 面向 Claude Code 和 OpenClaw 用戶。安裝后，當你向 AI Agent 提出需要 GUI 操作的需求時，Agent 會自主調用這個技能完成操作，無需人工介入。這打通了一個關鍵痛點：當前 Agent 工作流中，凡是涉及 GUI 操作的環節都需要人來「搭一手」，Mano-Skill 讓這個環節也可以由 AI 自主閉環。
mano-client（Python SDK）—— 即將發布，面向需要在 Python 項目中深度集成 GUI 自動化能力的開發者。支持異步調用、回調函數、可編程的任務流控制。

三種形態，同一套核心能力。無論你是想快速體驗、深度集成、還是讓 Agent 自己去調度，都有對應的入口。

模型開放，能力下沉

第二階段，明略將開源 Mano-CUA 的本地模型和 SDK 組件

此階段的目標用戶是具有高安全性要求的開發者，使他們能夠直接使用可在 Mac 本地運行推理的 GUI-VLA 模型來構建自定義技能、工具等。重要的是，所有 CUA 操作都將在本地 Mac 上執行，而不會上傳到外部服務器。

這是整個開源計劃中最關鍵的一步。

72B 完整模型：證明技術上限，OSWorld 58.2% 成績的締造者。
4B 量化模型（w4a16）：交付端側體驗，M4 Mac 上 476 tokens/s 預填充、76 tokens/s 解碼，峰值內存僅 4.3GB。

大模型證明了 Mano-P 模型的能力上限，小模型專注于用戶的端側體驗。兩者互補，覆蓋從研究驗證到生產落地的完整鏈路。

方法公開，生態共建

最后一階段，團隊計劃開源的是訓練方法本身，包括 Mano-P 模型所使用的訓練方法、剪枝和量化技術。

Mano-Action 雙向自增強學習框架是整個項目的核心技術底座。與傳統單向預測方法不同，它采用 Text ? Action 循環一致性學習 —— 模型同時掌握兩個方向的能力：

Text → Action：根據自然語言描述，定位并操作界面元素
Action → Text：給定界面元素，準確描述其位置和功能

雙向互相增強，讓模型對 GUI 的理解更加魯棒。

訓練過程分為三個遞進階段：

1. SFT（監督微調）：建立基礎的 GUI 理解與操作能力。

2. 離線強化學習（Offline RL）：在歷史數據上進行策略優化，探索更優的操作序列。

3. 在線強化學習（Online RL）：通過與真實環境的實時交互持續提升，實現自我進化。

配合「思考 - 行動 - 驗證」循環推理機制，每一步操作后都會驗證結果，發現偏差時自動糾錯調整。

端側優化方面，GSPruning 視覺 Token 剪枝是一項值得關注的技術創新。該方法通過保留全局空間錨點來維持網頁結構骨架，同時識別語義異常值以捕獲關鍵 UI 元素，將視覺 Token 保留率壓縮至 12.57% 的同時仍保持較高任務成功率，吞吐量提升 2-3 倍。

開源完全體

從 Skill 到模型再到方法論，三步棋走完，開發者獲得的是一整套可以從使用到定制到研發的完整技術棧

Mano-P 的整個項目采用 Apache 2.0 協議開源，完整客戶端代碼公開可審計，支持商業使用與二次開發。

目前市面上的 GUI 自動化方案大致分三類：

傳統 RPA：基于坐標定位或元素選擇器，界面一變就失效，維護成本極高。
瀏覽器型 CUA（如 OpenClaw）：依賴 CDP（Chrome DevTools Protocol），能力強但被限制在瀏覽器生態內。
云端 Computer Use（如 Claude Computer Use / Manus）：能力最強，但依賴云端 API，且主要面向 Web 場景。

Mano-P 與傳統方案 CUA 對比

Mano-P 獨屬于第四類 ——純視覺 GUI Agent。它做的事情和人一樣：看著屏幕，理解界面，然后決定輸入，帶來了無限制的跨平臺通用性。總的來說，完全開源的 Mano-P 有四大核心競爭力：

極致端側性能：憑借 M4 芯片優化與算力棒擴展，Mano-P 支持模型本地開箱即用，徹底擺脫了云端 API 束縛。
全場景視覺理解：采用純視覺 GUI 交互方案打破瀏覽器局限，實現了跨桌面軟件與復雜工具的全場景感知適配。
離線規劃能力：依托完全離線的自主規劃與糾錯閉環，在無網環境下亦能確保業務邏輯的高效安全執行。
軟硬一體方案：通過即插即用的模型硬件一體化部署，消除了復雜的底層環境配置，顯著降低了 Agent 的落地門檻。

專訪：兩個時代的十字路口

我們知道，「Mano」一詞來源于西班牙語，意為「手」，生動地體現了模型在數字世界中「靈巧手」的核心能力。

而為了知道 Mano-P 模型中的「P」的真正含義，機器之心與明略集團副總裁，多模態首席科學家趙晨旭老師進行了一次專訪。

于是我們得到了明略科技官方的答復。「Mano-P 這個科研項目里面最核心的一個概念 ——P 的含義代表的是 personal（個人）或者 party（組織）。

Personalized AI 的開端

趙晨旭老師認為：「我們已經斷定現在正處在兩個時代的交界點上，可能好多人或者是一些開發者，或者是一些業內的人還沒有意識到。是哪兩個時代呢？就是AGI 的時代和 Personalized AI的時代。」

AGI 的敘事已經深入人心：打造一個無所不能的通用智能體。趙晨旭老師解釋了其中的邏輯：以 DeepSeek、GPT o1 為代表的路線，核心是基于事實性基礎進行推理。對于有確定解或唯一解的問題，這種推理方式確實「無敵」。但現實世界中，大部分問題恰恰是無解的或有多種解的。

「其實我們要找的是在這些解里面，對于個人或者對于某個組織、某個集體而言價值最大的那個解。」

每個組織和個人都有自己沉淀的經驗和特有的品味，按照這些「私有資產」去做推理，才能拿到最優解。「所以我們區別于 AGI，我們管這個叫做 Personalized AI。」

要說到底什么是 Personalized AI，文章開頭展示的打麻將，正是其最生動的例子。

如果你拿一個 AGI 的模型去幫你打麻將的話，因為他看過很多種麻將打法，他會實時判斷一下，然后直接去選，無論哪一步他走的都是最優解，看上去特別像一個機器人。
但是你如果跟他說用您的方式去打這個麻將，AI 應該是按照您的習慣，您經常怎么樣去胡牌，或者怎么樣去記牌，怎么樣去開杠不開杠、吃牌不吃牌，然后用您的方式去打。這個就是通用 AI 和 Personalized AI 的區別。

這個比喻恰似乎和當前的熱門話題，把同事，名人，甚至是前任「蒸餾」成 skill，在理念上有些相仿。當我們提出這個話題時，趙晨旭老師說：「這個其實就是你在打造你自己的 Personalized AI 的過程，只不過這些現在是以一種記憶或者文件的方式存儲的，它并沒有直接作用在 AI 的大腦里，沒有給它形成參數化。但這已經是個性化 AI 的開始了。」

模型的技術歷程

從操作瀏覽器，到一步步把 Personalized AI 做成，其中的技術難度不言而喻。我們也請趙晨旭老師為大家介紹了現在走向 Personalized AI 的模型的三大技術突破。

去年首次在 Mind2Web 和 OSWorld 刷榜時，團隊攻克的核心難題是在線強化學習。

「之前的那些強化學習的路徑都是在一個虛擬的上下文里面去做強化…… 但是對于那種一步操作可能會直接影響整個周圍的真實環境的這種情況，可能就不是那么合適了。」

團隊引入了在線強化學習后，模型能力大幅提升，在 OSWorld 上拿下專有模型第一名，至今仍保持第一名

今年年初，團隊發現了另一種新的訓練范式 —— 雙向強化。傳統訓練方式只有單向映射：自然語言 → 動作（action）。

「大部分時候只有正向的，就是通過自然語言推測 action，但是沒有從 action 去推理自然語言的。比如說我按了一下這個按鈕，背后應該對應哪些自然語言？其實沒有人在做這項工作。」

團隊提出的方案是同時訓練兩個方向：自然語言→動作，以及動作→自然語言，兩者相輔相成。這種方法借鑒了視覺領域 GAN 的思想，效果出奇地好 ——

「我們就拿一套訓練集訓練一個模型，就直接刷新了 10 個榜單的紀錄。」

「這也是我們為什么能短時間內突破這么多榜單，因為我們沒有在這些任何一個榜單專門針對任何一個榜單去做優化微調，只是用一套訓練數據通過這個訓練方法訓練一個模型，就在 10 個榜單上達到了算法結果。」

第三個突破指向了一個更實際的約束：算力。如果要讓 Personalized AI 真正落地到每個人的設備上，模型必須在有限算力下完成推理甚至訓練。

視覺剪枝的方法是說，我們在做 GUI 任務的時候，屏幕截圖分辨率很高，可能都是 1080P 的分辨率，然后把圖像給它序列化變成一個個 token。這個 token 其實中間有好多是不必要的，在做任務時不需要關注這些 token。比如一個網頁里面有好多留白的空間，這些都是廢的 token。

通過識別并剔除這些冗余 token，模型的計算量得到顯著優化，使得 Mono-P 能夠直接在 Mac 等端側設備上獨立運行。

讓更多的人用起來

當我們談及在榜單之外如何判斷模型是否成功，趙晨旭老師坦言標準正在發生遷移。

「在上個階段或者去年，我們主要以榜單為主。坦率地講，榜單大家可能理解得都比較直白。但是現在對于我們來說標準確實發生了一些變化，我們現在更希望的是我們自己的模型能夠被更多的人用起來。」

這也解釋了開源策略背后的考量 —— 如果不開源，用戶無法在本地優化自己的場景，Personalized AI 的愿景就無法真正落地。

我們知道，要想讓更多人用起來，自然需要一個好用的場景，一個令人眼饞的落地實踐：

「我們設想的一個場景就是可以通過 GUI 去代替人進行測試。Claude Code 寫完搭建完應用之后會有一個 PRD，然后模型參考這個 PRD 去訪問網站測試，看有沒有錯誤、有沒有 bug。這樣就把人類進行測試的瓶頸給取消掉了。軟件可以 Claude Code 寫完代碼馬上就測試，測試完給反饋結果，有沒有 bug，功能有沒有實現，然后再改。改完之后再測試，整個流程中的人類瓶頸就消失了。這是我們構想的場景。」

這就是 Mano-afk 全自動應用構建場景，用戶輸入一句自然語言需求，系統自動完成需求澄清 → 技術架構設計 → 代碼生成 → 本地部署 → API 接口測試 → 頁面視覺檢測 → 端到端 GUI 自動化測試。測試失敗時自動定位、修復代碼、重新驗證，循環迭代直到全部通過。全程無人干預。

從 AGI 到 Personalized AI，從追求通用到擁抱個性，在這兩個時代的交界，我們的確該思考下一步的 AI 演進方向。

「我們相信，個體和組織都能夠創造屬于自己的個性化 AI。」

文中視頻鏈接：https://mp.weixin.qq.com/s/DQ2HLD29jNN_i4jZWjkaAQ

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.