![]()
一個(gè)70億參數(shù)的模型,在網(wǎng)頁任務(wù)上跑贏了700億的對手。這不是實(shí)驗(yàn)室里的數(shù)字游戲,是西雅圖那家叫Ai2的機(jī)構(gòu)剛?cè)映鰜淼拈_源炸彈。
他們把這個(gè)東西叫MolmoWeb。名字聽著像某種化學(xué)試劑,實(shí)際是個(gè)能自己操作瀏覽器的AI代理——點(diǎn)按鈕、填表單、抓數(shù)據(jù),全程不用人類盯著。更狠的是,整套代碼和權(quán)重全開源,連訓(xùn)練數(shù)據(jù)都攤在桌上。
開源社區(qū)的"掀桌"時(shí)刻
網(wǎng)頁代理(Web Agent)這個(gè)賽道,過去兩年被閉源模型壟斷得死死的。OpenAI的Operator、Anthropic的Computer Use,哪個(gè)不是會(huì)員專屬?Ai2這次直接把桌子掀了。
MolmoWeb的核心架構(gòu)叫"視覺-語言-動(dòng)作"(VLA),簡單說就是讓模型既能看懂網(wǎng)頁截圖,又能理解自然語言指令,最后輸出可執(zhí)行的操作代碼。傳統(tǒng)做法需要三步走:先截圖給視覺模型看,再轉(zhuǎn)文字給語言模型想,最后調(diào)工具執(zhí)行。Ai2把這三層揉成了一個(gè)端到端的神經(jīng)網(wǎng)絡(luò)。
訓(xùn)練數(shù)據(jù)是另一個(gè)狠招。他們沒像某些公司那樣偷偷爬用戶隱私,而是用了公開可用的網(wǎng)頁任務(wù)數(shù)據(jù)集,加上自己合成的交互軌跡。具體數(shù)字沒公布,但Ai2的研究負(fù)責(zé)人強(qiáng)調(diào):"每一行訓(xùn)練代碼都能被審計(jì)。"
Benchmark成績出來那天,社區(qū)炸了。WebArena基準(zhǔn)測試——這個(gè)被業(yè)內(nèi)當(dāng)作網(wǎng)頁代理高考的標(biāo)準(zhǔn)——MolmoWeb 7B版本拿了63.4%的成功率。什么概念?GPT-4o的網(wǎng)頁代理版本是61.2%,而Claude 3.5 Sonnet的Computer Use大概在58%左右。更諷刺的是,某些700億參數(shù)的閉源模型,在這個(gè)測試上還沒過60%。
![]()
小模型憑什么逆襲
參數(shù)差10倍,性能卻反超。Ai2的人把秘訣歸結(jié)為"任務(wù)專用化"。
大模型什么都學(xué),網(wǎng)頁操作只是它無數(shù)技能中的一個(gè)。MolmoWeb從出生就只干一件事:理解網(wǎng)頁結(jié)構(gòu),執(zhí)行瀏覽器操作。用他們技術(shù)報(bào)告里的說法,這叫"認(rèn)知卸載"——把通用知識砍掉,給任務(wù)技能騰地方。
具體技術(shù)細(xì)節(jié)很產(chǎn)品經(jīng)理友好。模型輸入是一張網(wǎng)頁截圖加一句自然語言指令,輸出的是瀏覽器自動(dòng)化框架Playwright能直接執(zhí)行的代碼。截圖被切成網(wǎng)格,每個(gè)網(wǎng)格對應(yīng)可能的點(diǎn)擊區(qū)域;模型要同時(shí)預(yù)測操作類型(點(diǎn)擊/輸入/滾動(dòng))和具體坐標(biāo)。
這種設(shè)計(jì)讓推理速度快到離譜。在標(biāo)準(zhǔn)測試機(jī)上,MolmoWeb處理一個(gè)復(fù)雜表單填寫任務(wù)平均只要2.3秒。某些云端大模型光網(wǎng)絡(luò)往返就要這個(gè)時(shí)間的三倍。
開源策略更是精準(zhǔn)打擊。Ai2不是第一次這么干——他們?nèi)ツ臧l(fā)布的Molmo多模態(tài)模型就在學(xué)術(shù)圈攢了口碑。這次把網(wǎng)頁代理這個(gè)商業(yè)場景最肥的肉扔出來,直接戳中了開發(fā)者的痛點(diǎn):誰愿意把自己的核心工作流綁在別人的API上?
誰最慌?誰最爽?
![]()
閉源廠商的定價(jià)表可能要重寫了。按當(dāng)前市場價(jià),GPT-4o級別的網(wǎng)頁代理調(diào)用一次動(dòng)輒幾美分,復(fù)雜任務(wù)鏈跑下來賬單能嚇?biāo)廊恕olmoWeb本地部署,成本壓到接近電費(fèi)。
但最坐不住的可能是RPA(機(jī)器人流程自動(dòng)化)那幫老牌廠商。UiPath、Automation Anywhere賣了十幾年 license,核心賣點(diǎn)就是"讓軟件自動(dòng)操作軟件"。現(xiàn)在一個(gè)7B模型開源了,中小企業(yè)誰還買你那套重型基礎(chǔ)設(shè)施?
開發(fā)者這邊已經(jīng)開香檳。Hacker News上最高贊評論是個(gè)類比:"這感覺像當(dāng)年MySQL出來時(shí)的數(shù)據(jù)庫市場——Oracle還在賣天價(jià)license,年輕人已經(jīng)開始用免費(fèi)工具搭互聯(lián)網(wǎng)了。"
當(dāng)然也有冷靜的聲音。網(wǎng)頁代理的噩夢場景是"幻覺操作"——模型看錯(cuò)一個(gè)按鈕,把"提交訂單"點(diǎn)成"清空購物車"。MolmoWeb在WebArena的誤操作率是12.7%,比GPT-4o的9.3%略高。Ai2團(tuán)隊(duì)在發(fā)布博客里坦承:"高風(fēng)險(xiǎn)場景建議保留人類確認(rèn)環(huán)節(jié)。"
技術(shù)報(bào)告里埋了個(gè)細(xì)節(jié)挺有意思。他們在訓(xùn)練時(shí)故意加入了"惡意網(wǎng)頁"樣本——釣魚網(wǎng)站的仿冒按鈕、隱藏條款的勾選框、自動(dòng)勾選的隱私協(xié)議。模型學(xué)會(huì)的第一反應(yīng)不是執(zhí)行,而是標(biāo)記風(fēng)險(xiǎn)。這個(gè)設(shè)計(jì)沒有寫在官方宣傳里,但代碼里確實(shí)留了接口。
開源社區(qū)的分支已經(jīng)開始瘋長。GitHub上已經(jīng)有開發(fā)者把MolmoWeb接進(jìn)了Selenium、Puppeteer,還有人嘗試讓它操作桌面應(yīng)用。Ai2的許可證是Apache 2.0,商用無限制。換句話說,明天出現(xiàn)個(gè)"基于MolmoWeb的自動(dòng)化客服SaaS"也不奇怪。
最后一個(gè)數(shù)據(jù)點(diǎn):發(fā)布72小時(shí)內(nèi),Hugging Face上的模型下載量破了4萬。對比之下,某些大廠同期發(fā)布的開源模型,同期數(shù)據(jù)通常在5千到8千之間。
瀏覽器自動(dòng)化的舊秩序,這次是真被撬松了。但有個(gè)問題Ai2沒回答——當(dāng)每個(gè)開發(fā)者都能低成本部署網(wǎng)頁代理,那些靠"人工審核"吃飯的眾包平臺,接下來幾個(gè)月會(huì)怎么轉(zhuǎn)型?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.