337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

人類一離座AI就進(jìn)化!伯克利開源MetaClaw,靜態(tài)Agent慌了

0
分享至


新智元報(bào)道

編輯:元宇

【新智元導(dǎo)讀】你開會(huì)時(shí),AI竟在偷偷升級(jí)?伯克利等四校開源MetaClaw,讓Agent趁你開會(huì)、離席、睡覺時(shí)持續(xù)進(jìn)化,直接打破「上線即凍結(jié)」這條行業(yè)鐵律。

又到了每周例會(huì)時(shí)間。

你的電腦桌面日歷上寫著「周會(huì)14:00-15:30」,屏幕鎖定。

與此同時(shí),一個(gè)后臺(tái)AI進(jìn)程確認(rèn)你暫時(shí)不會(huì)回來,便自動(dòng)啟動(dòng)了訓(xùn)練窗口:

上午剛犯過的錯(cuò)誤被拆解成規(guī)則注入系統(tǒng)提示詞,隨后云端LoRA微調(diào)開始接管。

90分鐘后,等你散會(huì)回到工位,面前的Agent已經(jīng)完成了一次自我迭代。

這就是開源MetaClaw框架所實(shí)現(xiàn)的功能:

讓一個(gè)已經(jīng)在線服務(wù)的Agent,在不中斷服務(wù)的前提下持續(xù)從失敗中進(jìn)化

這項(xiàng)研究打破了「上線即凍結(jié)」這條Agent行業(yè)默認(rèn)規(guī)則。

MetaClaw框架由北卡羅來納大學(xué)教堂山分校、卡內(nèi)基梅隆大學(xué)、加州大學(xué)圣克魯茲分校與加州大學(xué)伯克利分校聯(lián)合推出。


https://arxiv.org/pdf/2603.17187

開源即登頂。


MetaClaw剛剛發(fā)布便霸榜HuggingFace,它所代表的「Agent持續(xù)進(jìn)化」理念,已經(jīng)引起了全球AI研究者和開發(fā)者的高度關(guān)注。

最能體現(xiàn)其工具鏈成熟度的,是它極具破壞性的部署門檻。

官方倉庫展示的控制臺(tái)操作顯示,其龐大的「快慢雙循環(huán)」機(jī)制與OMLS調(diào)度器已經(jīng)被粗暴地簡(jiǎn)化為了兩條命令。



開發(fā)者只需輸入「metaclaw setup」完成一次性配置,接著輸入「metaclaw start --daemon」,系統(tǒng)就會(huì)作為一個(gè)后臺(tái)守護(hù)進(jìn)程靜默拉起。

這種開箱即用的封裝,徹底粉碎了學(xué)術(shù)模型與實(shí)際落地之間的壁壘。

打破Agent「上線即凍結(jié)」的結(jié)構(gòu)性困境

當(dāng)前絕大多數(shù)Agent在能力迭代上面臨這樣一個(gè)殘酷現(xiàn)狀:訓(xùn)練一次、部署上線、長(zhǎng)期不變。

但現(xiàn)實(shí)世界卻是在不斷變化的:任務(wù)需求在漂移,工作流程在修改,工具鏈與組織規(guī)則也在不斷更新

在OpenClaw這類平臺(tái)上,一個(gè)Agent可能需要同時(shí)連接20多個(gè)消息渠道。

任務(wù)分布每小時(shí)都在變化,但Agent的能力卻仍停留在出廠時(shí)刻。

表面上看,行業(yè)內(nèi)已有不少修補(bǔ)方案,例如記錄軌跡、構(gòu)建靜態(tài)技能庫或進(jìn)行在線強(qiáng)化學(xué)習(xí)。

但這些方案往往只解決了部分問題:

只存儲(chǔ)原始軌跡而不提煉可遷移知識(shí),會(huì)導(dǎo)致信息冗長(zhǎng)且碎片化;

靜態(tài)技能庫與權(quán)重優(yōu)化彼此脫節(jié);

重新訓(xùn)練Agent通常意味著必須停機(jī),導(dǎo)致在線服務(wù)與持續(xù)進(jìn)化無法兼得。

這正是「靜態(tài)Agent」所面臨的現(xiàn)實(shí)矛盾:它必須24小時(shí)在線,但面對(duì)的世界卻在不斷變化。

無法適應(yīng)新任務(wù)分布的Agent,哪怕初始能力再強(qiáng),也容易在長(zhǎng)期的實(shí)際應(yīng)用中顯得刻板。

兩條腿走路

快適配與慢進(jìn)化

為了打破「不停機(jī)與持續(xù)進(jìn)化」之間的沖突,MetaClaw將更新機(jī)制拆分為兩條時(shí)間尺度完全不同的回路。


MetaClaw的系統(tǒng)架構(gòu)圖中展示了MetaClaw的「快慢雙循環(huán)」學(xué)習(xí)機(jī)制。左側(cè)顯示OMLS調(diào)度器如何監(jiān)控用戶的Google Calendar和鍵鼠閑置狀態(tài),右側(cè)展示系統(tǒng)如何分離支持集與查詢集,進(jìn)行技能提取(快適配)與LoRA權(quán)重微調(diào)(慢進(jìn)化)。

第一條路徑,是技能驅(qū)動(dòng)的快速適配(Skill-driven fast adaptation)。

當(dāng)Agent在任務(wù)中失敗時(shí),系統(tǒng)會(huì)將失敗軌跡交給另一個(gè)大模型進(jìn)行分析,提煉出可復(fù)用的行為規(guī)則,并立刻將其注入系統(tǒng)提示詞。

這個(gè)過程不修改模型權(quán)重,不中斷服務(wù),且能立即生效。

論文中列舉了典型的高頻規(guī)則:統(tǒng)一時(shí)間格式、執(zhí)行高風(fēng)險(xiǎn)文件操作前先備份、嚴(yán)格遵循命名規(guī)范。

更重要的是,這些規(guī)則并非綁定于單一任務(wù)的補(bǔ)丁,而是跨任務(wù)的可遷移知識(shí)。

一次關(guān)于時(shí)間格式的糾錯(cuò),能夠提升后續(xù)所有涉及時(shí)間處理任務(wù)的穩(wěn)定性。

第二條路徑,是機(jī)會(huì)式策略優(yōu)化(Opportunistic policy optimization)。

在用戶處于不活躍狀態(tài)時(shí),系統(tǒng)會(huì)結(jié)合過程獎(jiǎng)勵(lì)模型(PRM)和LoRA進(jìn)行基于梯度的強(qiáng)化學(xué)習(xí)(RL)權(quán)重更新。

前者如同戰(zhàn)術(shù)上的快速止血,后者則是戰(zhàn)略上的能力固化。

為了將這兩者有機(jī)結(jié)合,MetaClaw引入了一個(gè)核心設(shè)計(jì):支持集與查詢集分離,以及嚴(yán)格的技能版本控制。

如果某條失敗樣本已經(jīng)被新提取的規(guī)則修復(fù),系統(tǒng)在強(qiáng)化學(xué)習(xí)階段繼續(xù)使用該樣本就會(huì)導(dǎo)致「陳舊獎(jiǎng)勵(lì)污染」(stale reward contamination):模型會(huì)為一個(gè)已經(jīng)解決的問題繼續(xù)受罰。

MetaClaw的做法是為軌跡打上技能版本號(hào),技能庫升級(jí)后便清理舊版本的無效樣本,只保留新技能生效后的數(shù)據(jù)進(jìn)入RL訓(xùn)練。

這在本質(zhì)上實(shí)現(xiàn)了「記憶」與「進(jìn)化」的真正統(tǒng)一。

利用碎片時(shí)間訓(xùn)練

OMLS調(diào)度器

模型訓(xùn)練需要時(shí)間與算力,那么MetaClaw如何做到讓用戶幾乎無感?

答案在于其設(shè)計(jì)的機(jī)會(huì)式元學(xué)習(xí)調(diào)度器(OMLS)。

OMLS專門監(jiān)控三類信號(hào):預(yù)設(shè)的睡眠時(shí)段、系統(tǒng)層面的鍵盤鼠標(biāo)閑置狀態(tài)、以及Google Calendar的日程占用情況。

只要觸發(fā)任何一個(gè)表明用戶暫時(shí)離開的信號(hào),訓(xùn)練窗口就會(huì)自動(dòng)打開。

訓(xùn)練器支持隨時(shí)暫停與繼續(xù),這意味著即便是用戶離開幾分鐘的零碎時(shí)間,也能被轉(zhuǎn)化為AI持續(xù)訓(xùn)練的時(shí)間窗口。

過去,AI的升級(jí)往往是一次集中式的工程,需要停服、重訓(xùn)、切換版本再重新上線。

MetaClaw則將人類碎片化的空閑時(shí)間,變成了AI持續(xù)進(jìn)化的微型車間。

此外,該框架采用代理架構(gòu)與云端訓(xùn)練接口,不強(qiáng)制要求昂貴的本地GPU計(jì)算資源,可以直接對(duì)接現(xiàn)有的個(gè)人Agent和多種模型平臺(tái),支持一鍵部署與持續(xù)元學(xué)習(xí)。

補(bǔ)齊過程性知識(shí)

弱模型的數(shù)據(jù)躍升

這套框架的實(shí)際效果在測(cè)試數(shù)據(jù)中得到了直接驗(yàn)證。

論文團(tuán)隊(duì)構(gòu)建了MetaClaw-Bench基準(zhǔn)測(cè)試,包含934道題目,模擬了44個(gè)工作日的任務(wù)流,專門評(píng)估Agent在連續(xù)任務(wù)流中能否越用越強(qiáng)。

測(cè)試結(jié)果顯示,在僅進(jìn)行行為規(guī)則注入的情況下,被評(píng)測(cè)模型的相對(duì)準(zhǔn)確率最高提升可達(dá)32.2%。

在體現(xiàn)真實(shí)執(zhí)行力的端到端任務(wù)完成率上,被評(píng)測(cè)模型從2.0%提升至16.5%,實(shí)現(xiàn)了8.25倍的增長(zhǎng)。


在另一項(xiàng)包含23個(gè)階段的AutoResearchClaw自主研究流水線(涵蓋文獻(xiàn)綜述、實(shí)驗(yàn)設(shè)計(jì)、代碼生成、結(jié)果分析至論文寫作)中,即便不進(jìn)行權(quán)重訓(xùn)練而僅依賴技能注入,系統(tǒng)的綜合魯棒性也提升了18.3%,階段重試率下降24.8%,迭代優(yōu)化輪次減少了40%。

測(cè)試數(shù)據(jù)揭示了一個(gè)更關(guān)鍵的現(xiàn)象:MetaClaw首先是一個(gè)Agent持續(xù)進(jìn)化框架,而且對(duì)弱底模驅(qū)動(dòng)的Agent增益尤其明顯

論文分析指出,較弱模型更缺少的是隱式的過程性知識(shí):也就是那些具體的操作規(guī)則、執(zhí)行習(xí)慣和格式紀(jì)律,而技能庫恰恰把這些知識(shí)顯式寫了出來,因此僅靠skill注入,就能帶來更大的準(zhǔn)確率提升。

相比之下,GPT-5.2由于起點(diǎn)更高,可提升空間更小,更容易出現(xiàn)天花板效應(yīng)。

但論文也強(qiáng)調(diào),skills注入主要提升的是規(guī)則遵循和部分執(zhí)行質(zhì)量,不足以穩(wěn)定解鎖高強(qiáng)度任務(wù)中的端到端完成率。

真正讓被評(píng)測(cè)模型實(shí)現(xiàn)了8.25倍增長(zhǎng)的,是skills與權(quán)重級(jí)策略優(yōu)化結(jié)合后的完整MetaClaw框架。

Agent進(jìn)化時(shí)代的范式轉(zhuǎn)移

當(dāng)然,MetaClaw仍存在一定邊界。

論文團(tuán)隊(duì)指出,目前的基準(zhǔn)測(cè)試在模擬環(huán)境中進(jìn)行,并不完全等同于復(fù)雜的生產(chǎn)環(huán)境;空閑窗口的檢測(cè)也依賴于特定的用戶系統(tǒng)配置。

但MetaClaw明確指向了一個(gè)范式轉(zhuǎn)移的方向:Agent的生命周期正在從「訓(xùn)練完成后交付」向「交付之后繼續(xù)生長(zhǎng)」演進(jìn)。

其GitHub倉庫的持續(xù)更新(包括代理式接入、多客戶端支持、跨會(huì)話記憶等工程化進(jìn)展)表明,這套理念正在向可用的工具鏈快速轉(zhuǎn)化。

把它放回行業(yè)坐標(biāo)里看,意味就更大了。

對(duì)比近期普林斯頓團(tuán)隊(duì)提出的OpenClaw-RL(傾向于將所有交互信號(hào)直接用于訓(xùn)練),MetaClaw選擇了「快規(guī)則加慢權(quán)重」的分層策略。

前者追求立即糾偏,后者追求長(zhǎng)期固化,兩者代表了對(duì)下一代Agent演進(jìn)路徑的不同工程思考。

決定未來模型能力上限的,將不再僅僅是出廠時(shí)的參數(shù)規(guī)模,更是其在真實(shí)使用場(chǎng)景中持續(xù)轉(zhuǎn)化經(jīng)驗(yàn)并自我迭代的閉環(huán)機(jī)制。

你的日歷、你的鍵鼠狀態(tài)、你的每一次離座,都有可能成為AI下一次能力升級(jí)的契機(jī)。

真正的智能演化,才剛剛在工作現(xiàn)場(chǎng)拉開序幕。

參考資料:

https://arxiv.org/abs/2603.17187

https://github.com/aiming-lab/MetaClaw

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
女人愛聽這些兩性關(guān)系中的“下流話”,尤其是過了中年的女人

女人愛聽這些兩性關(guān)系中的“下流話”,尤其是過了中年的女人

i書與房
2026-03-25 16:30:22
科威特一電力和海水淡化設(shè)施遭襲受損

科威特一電力和海水淡化設(shè)施遭襲受損

財(cái)聯(lián)社
2026-03-30 15:25:11
杉杉集團(tuán)家族內(nèi)斗失控

杉杉集團(tuán)家族內(nèi)斗失控

地產(chǎn)微資訊
2026-03-27 10:10:55
山西一兒媳住院公公陪床,趁護(hù)士換藥塞紙條,護(hù)士看后直接報(bào)警

山西一兒媳住院公公陪床,趁護(hù)士換藥塞紙條,護(hù)士看后直接報(bào)警

五元講堂
2024-10-24 10:54:37
今日最慘股,上一分鐘還是一字漲停狀態(tài),下一分鐘就在跌停板上了

今日最慘股,上一分鐘還是一字漲停狀態(tài),下一分鐘就在跌停板上了

丁丁鯉史紀(jì)
2026-03-30 16:49:15
西安轎車出租車相撞后續(xù)!知情人曝現(xiàn)場(chǎng)細(xì)節(jié),1死2傷真相藏在路口

西安轎車出租車相撞后續(xù)!知情人曝現(xiàn)場(chǎng)細(xì)節(jié),1死2傷真相藏在路口

千言娛樂記
2026-03-30 23:46:37
伊朗的頭號(hào)強(qiáng)援到了,部隊(duì)進(jìn)入德黑蘭!特朗普的總統(tǒng)替代人選出爐

伊朗的頭號(hào)強(qiáng)援到了,部隊(duì)進(jìn)入德黑蘭!特朗普的總統(tǒng)替代人選出爐

夢(mèng)的微塵
2026-03-31 00:11:18
海航最美空姐撿的是水,打的是所有航司官媒的臉

海航最美空姐撿的是水,打的是所有航司官媒的臉

民航大腦殼
2026-03-30 08:05:54
探店尚界Z7:人氣不輸新小米SU7

探店尚界Z7:人氣不輸新小米SU7

駕仕派
2026-03-30 12:57:33
魯山舅舅娶亡姐大結(jié)局!新華社通報(bào)調(diào)查結(jié)果,這次終于真相大白了

魯山舅舅娶亡姐大結(jié)局!新華社通報(bào)調(diào)查結(jié)果,這次終于真相大白了

離離言幾許
2026-03-30 22:39:30
這六類人將直接成為公務(wù)員,無需考試晉升還快!

這六類人將直接成為公務(wù)員,無需考試晉升還快!

深度報(bào)
2026-02-15 23:18:45
兩年獵殺1400伊高層,以色列何為“斬首”如探囊取物?

兩年獵殺1400伊高層,以色列何為“斬首”如探囊取物?

高博新視野
2026-03-28 08:00:22
何潔自曝養(yǎng)家艱難,40歲斷崖式衰老?明明一手好牌,為何被打爛

何潔自曝養(yǎng)家艱難,40歲斷崖式衰老?明明一手好牌,為何被打爛

扒點(diǎn)半吃瓜
2026-03-10 07:00:13
突變!特朗普最新發(fā)聲,黃金、白銀V形拉升!原油回落!

突變!特朗普最新發(fā)聲,黃金、白銀V形拉升!原油回落!

證券時(shí)報(bào)e公司
2026-03-30 12:21:25
北京世紀(jì)金源購物中心新變化!“這幾天很多店排大隊(duì)”

北京世紀(jì)金源購物中心新變化!“這幾天很多店排大隊(duì)”

北京商報(bào)
2026-03-30 14:13:59
馬筱梅首度回應(yīng)與張?zhí)m關(guān)系:婆婆說的才算數(shù),小玥兒姐弟待遇曝光

馬筱梅首度回應(yīng)與張?zhí)m關(guān)系:婆婆說的才算數(shù),小玥兒姐弟待遇曝光

青杉依舊啊啊
2026-03-29 22:14:18
以色列海法煉油廠在導(dǎo)彈襲擊中起火

以色列海法煉油廠在導(dǎo)彈襲擊中起火

環(huán)球網(wǎng)資訊
2026-03-30 18:16:36
朝鮮經(jīng)濟(jì)落后吃不飽飯,卻能養(yǎng)得起百萬大軍,到底如何做到的?

朝鮮經(jīng)濟(jì)落后吃不飽飯,卻能養(yǎng)得起百萬大軍,到底如何做到的?

世界圈
2026-03-29 02:20:03
2020年女子當(dāng)眾扇兒子耳光,兒子直接跳樓,如今女子已自殺身亡

2020年女子當(dāng)眾扇兒子耳光,兒子直接跳樓,如今女子已自殺身亡

觀察鑒娛
2026-03-18 09:09:10
日本警察廳就自衛(wèi)隊(duì)員強(qiáng)闖中國(guó)使館事件召開會(huì)議

日本警察廳就自衛(wèi)隊(duì)員強(qiáng)闖中國(guó)使館事件召開會(huì)議

極目新聞
2026-03-30 14:08:22
2026-03-31 02:36:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14853文章數(shù) 66724關(guān)注度
往期回顧 全部

科技要聞

一句謊言引發(fā)的硅谷血案

頭條要聞

特朗普:對(duì)伊朗襲擊以煉油廠的回應(yīng)“很快到來”

頭條要聞

特朗普:對(duì)伊朗襲擊以煉油廠的回應(yīng)“很快到來”

體育要聞

想進(jìn)世界杯,意大利還要過他這一關(guān)

娛樂要聞

全紅嬋聊到體重哭了,每天只吃一頓飯

財(cái)經(jīng)要聞

本輪地緣沖突,A股憑什么走出獨(dú)立行情

汽車要聞

限時(shí)12.58萬起 銀河星耀8遠(yuǎn)航家系列上市

態(tài)度原創(chuàng)

教育
游戲
時(shí)尚
房產(chǎn)
軍事航空

教育要聞

靜待花開:一位母親與青春期兒子的“破冰”之旅——林亭亭家教好故事

《紅色沙漠》Steam熱更新上線 修復(fù)光線重建問題

“小白鞋”今年春夏又火了!這5雙怎么搭都好看

房產(chǎn)要聞

重磅!番禺20宗涉宅地亮相,萬博CBD宅地將上新!

軍事要聞

第三艘航母出動(dòng)數(shù)千名士兵抵達(dá) 美軍大舉增兵中東戰(zhàn)場(chǎng)

無障礙瀏覽 進(jìn)入關(guān)懷版