![]()
Agent 大戰(zhàn),誰(shuí)也等不起。
作者|樺林舞王
編輯|靖宇
2025 年底,一個(gè)奧地利開發(fā)者 Peter Steinberger 用一個(gè)小時(shí)寫了個(gè) Agent 工具,最初叫 Clawdbot,名字蹭了 Claude 的邊。Anthropic 發(fā)律師函威脅法律行動(dòng),Steinberger 被迫改名,先改成 Moltbot,后來(lái)又改成 OpenClaw。
這本來(lái)是一件小事。
但 OpenClaw 隨后爆了。GitHub 上狂飆到 17 萬(wàn)星,單周訪問量破 200 萬(wàn),成了有史以來(lái)增長(zhǎng)最快的開源 Agent 項(xiàng)目之一。更關(guān)鍵的是,它默認(rèn)推薦用 Claude 模型跑任務(wù)——某種程度上,它是 Anthropic 最大的免費(fèi)流量入口之一。
然后 Anthropic 做了一件蠢事:開始封禁那些把 Claude API 接入 OpenClaw 的用戶賬號(hào)。
社區(qū)炸了。
![]()
Vercept 的產(chǎn)品讓 AI 可以讓 AI 控制電腦|圖片來(lái)源:Vercept
「用自己花錢買的 API 做自動(dòng)化,被封號(hào)」,這個(gè)操作讓 AI 圈對(duì) Anthropic 的輿論在一夜之間翻轉(zhuǎn)。Steinberger 本人也徹底涼了對(duì) Anthropic 的心。
2026 年 2 月 15 日,Sam Altman 宣布:Peter Steinberger 加入 OpenAI,負(fù)責(zé)下一代個(gè)人 Agent。
11 天后,Anthropic 宣布收購(gòu) Vercept。
媒體的第一反應(yīng)大多是:「又一家創(chuàng)業(yè)公司被大廠收購(gòu)了。」
但這兩件事放在一起看,說的是同一件事:AI 的戰(zhàn)場(chǎng)正在發(fā)生一次非常具體的遷移——從「誰(shuí)的模型更聰明」,到「誰(shuí)能讓 AI 真正控制一臺(tái)電腦」。
而在這場(chǎng)遷移里,Anthropic 目前處于被動(dòng)追趕的位置,部分原因是它自己造成的。
01
屏幕,真正的「最后一公里」
過去幾年,AI 的能力突破大多發(fā)生在對(duì)話框里——你打字,它回答,精準(zhǔn)、流暢、越來(lái)越快。但有一件事始終沒變:你依然得親自打開軟件、點(diǎn)擊按鈕、復(fù)制粘貼,然后再回來(lái)問 AI 下一步怎么做。
這就是 Agent 要解決的問題。
Agent 不是讓 AI 更聰明地回答你,而是讓 AI 直接替你干活:幫你打開 Excel、填好表格、切換到郵件客戶端、把數(shù)據(jù)發(fā)出去,然后關(guān)掉窗口。整個(gè)過程,你只需要說一句話。
問題在于,要做到這一步,AI 必須先「看懂」你的屏幕——識(shí)別出每一個(gè)按鈕、輸入框、菜單,然后像人一樣去點(diǎn)它。
這件事聽起來(lái)簡(jiǎn)單,實(shí)際上極難。
一個(gè)有意思的現(xiàn)象是,在 AI 寫代碼、做分析、生成報(bào)告這些領(lǐng)域,各家的差距已經(jīng)越來(lái)越小。但在「看屏幕、控電腦」這件事上,差距依然是代差級(jí)別的。
OpenAI 自己的 Operator,在 OSWorld(模擬真實(shí)電腦操作任務(wù)的基準(zhǔn)測(cè)試)上得分是 38.1%。Anthropic 的 Computer Use,只有 22%。而人類平均水平是 72.4%——對(duì),AI 做這件事,目前還遠(yuǎn)不如普通人順手。
02
Vercept 為什么值得?
這就是 Vercept 被盯上的原因。
Vercept 的創(chuàng)始團(tuán)隊(duì)來(lái)自 Allen 人工智能研究所(Ai2),幾個(gè)人在機(jī)器人感知、計(jì)算機(jī)視覺、強(qiáng)化學(xué)習(xí)領(lǐng)域都有深厚積累。
Vercept 團(tuán)隊(duì)做的 Vy,走的是一條和 OpenAI 完全不同的技術(shù)路線。
Operator 的邏輯是「讀代碼」:通過解析網(wǎng)頁(yè)底層 DOM 結(jié)構(gòu)(文檔對(duì)象模型),理解界面有哪些元素可以交互。這種方式速度快、穩(wěn)定性好,但有一個(gè)硬傷——它只對(duì)有結(jié)構(gòu)的 web 界面有效。碰到本地軟件、老系統(tǒng)、沒有 API 的企業(yè)應(yīng)用,它就完全沒轍。
Vy 的邏輯是「看像素」:不斷截圖,用視覺模型理解屏幕上的所有內(nèi)容,再模擬鼠標(biāo)鍵盤操作。覆蓋范圍是任何有屏幕的軟件——不管是 Excel、本地 ERP,還是一個(gè) 20 年前開發(fā)的企業(yè)內(nèi)網(wǎng)系統(tǒng)。
Vercept 介紹視頻|視頻來(lái)源:Vercept
Vercept 公布過一組數(shù)據(jù):在 UI 元素識(shí)別基準(zhǔn)測(cè)試 ScreenSpot v1 上,他們自研的 VyUI 模型準(zhǔn)確率是 92%,OpenAI 同類模型是 18.3%。ScreenSpot v2 上是 94.7% 對(duì) 87.9%。
這個(gè)差距不是「我們優(yōu)化得更好」,而是底層技術(shù)路線帶來(lái)的系統(tǒng)性優(yōu)勢(shì)。
正是這個(gè)東西,補(bǔ)了 Anthropic 的短板。
Claude 的 Computer Use 能用,但一直不夠驚艷。吸收 Vercept 的模型和團(tuán)隊(duì),是 Anthropic 在「看屏幕」這件事上最快的提速方式。
03
OpenAI 在搶的,
是另一個(gè)入口
OpenAI 合并的 OpenClaw 是另一回事,但同樣關(guān)鍵。
Peter Steinberger 做的 OpenClaw,不是桌面 Agent,而是把 AI 操控能力接入 WhatsApp、Telegram 這類消息平臺(tái)——你在手機(jī)上發(fā)一條消息,它幫你在電腦上完成一個(gè)任務(wù)。
這條路解決的不是「AI 怎么看屏幕」,而是「用戶從哪里發(fā)指令」。
這個(gè)細(xì)節(jié)很重要。大多數(shù)人不會(huì)專門打開一個(gè) Agent 界面來(lái)操作電腦,但每天都在用消息 App。把指令入口放進(jìn)消息 App,是讓 Agent 真正融入日常使用習(xí)慣的關(guān)鍵一步。
OpenAI 收人而不是收公司,搶的就是這個(gè)方向的工程能力和產(chǎn)品直覺。
所以這兩筆「收購(gòu)」,針對(duì)的是 Agent 版圖的不同層次:Anthropic 在補(bǔ)「屏幕感知」的技術(shù)短板,OpenAI 在布局「指令入口」的場(chǎng)景卡位。
一個(gè)是基礎(chǔ)設(shè)施,一個(gè)是用戶習(xí)慣,缺哪個(gè)都不行。
更大的背景是,這場(chǎng)戰(zhàn)爭(zhēng)等不起。
Google、Microsoft 早就在布局,UiPath 這類 RPA(機(jī)器人流程自動(dòng)化)公司的股價(jià)在 Anthropic 收購(gòu) Vercept 的消息發(fā)出后下跌了 3.6%——市場(chǎng)已經(jīng)嗅到了威脅。
Agent 時(shí)代的競(jìng)爭(zhēng),本質(zhì)上是一場(chǎng)基礎(chǔ)設(shè)施的搶占。誰(shuí)先把「AI 控制電腦」這件事做到足夠好用,誰(shuí)就在未來(lái)幾年的企業(yè)和個(gè)人市場(chǎng)里握有真正的籌碼。
Vercept 聯(lián)合創(chuàng)始人兼早期投資者 Oren Etzioni 說了一句挺直白的話:「我們基本上還是認(rèn)輸了。」
但認(rèn)輸?shù)脑颍皇羌夹g(shù)不好——他們的技術(shù)在某些維度上領(lǐng)先全場(chǎng)。認(rèn)輸?shù)脑颍?strong>是這場(chǎng)戰(zhàn)爭(zhēng)燒的錢和資源,不是一家 20 人的初創(chuàng)公司能撐起來(lái)的。
這大概也是 AI Agent 這個(gè)賽道最無(wú)情的地方:
好技術(shù)不夠,還得有足夠大的容器來(lái)裝它。
*頭圖來(lái)源:ProductHunt
本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請(qǐng)聯(lián)系極客君微信 geekparkGO
極客一問
你認(rèn)為 Vercept 的技術(shù),
和豆包手機(jī)有什么區(qū)別?
![]()
蘋果宣布 Mac mini,首度實(shí)現(xiàn)美國(guó)本土化生產(chǎn)。
點(diǎn)贊關(guān)注極客公園視頻號(hào),
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.