337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

UCL團隊教AI自己培養技能:讓機器學習像人類學徒一樣成長

0
分享至


來自倫敦大學學院(University College London)的研究團隊在2026年3月發表了一項突破性研究,該研究于arXiv平臺發布,編號為arXiv:2603.18743v1,專門探討如何讓AI智能體像人類學徒一樣,通過實際經驗自主學習和積累技能。這項名為"Memento-Skills"的研究為我們展示了一個全新的AI學習范式:不再需要重新訓練大型語言模型,而是讓AI通過外部技能庫不斷進化。

想象一下傳統工匠培養學徒的過程:師傅不會每次都重新塑造學徒的大腦,而是讓學徒通過一次次實踐,在工具箱中積累越來越多的技能。每當遇到新任務時,學徒會從自己的經驗庫中選擇最合適的技能來應對。如果失敗了,學徒會反思問題所在,改進技能或學習新技能。UCL的研究團隊正是受到這種學習方式的啟發,開發了一套讓AI智能體自主成長的系統。

這項研究的核心創新在于將技能本身作為AI的"外部記憶"。與傳統方法需要消耗大量計算資源重新訓練模型不同,Memento-Skills系統讓AI保持"凍結"狀態,所有的學習和進化都發生在外部技能庫中。就像一個手藝人的工具箱會隨著經驗增長而變得更加豐富和精細,AI的技能庫也會在每次任務執行后得到更新和優化。

研究團隊設計了一個"讀寫反思學習"機制,這個過程可以比作一位經驗豐富的圖書管理員的工作流程。當有讀者來咨詢問題時,圖書管理員首先從龐大的藏書中找出最相關的資料(讀取階段),然后根據這些資料為讀者提供答案。如果答案不夠準確,圖書管理員會反思原因,可能是選錯了參考書,也可能是某本書的內容需要更新。于是,圖書管理員會重新整理相關資料,甚至添加新的藏書(寫入階段),確保下次遇到類似問題時能提供更好的服務。

整個系統從五個基礎技能開始,就像新手工匠的基本工具包,包括網頁搜索和終端操作等基本功能。隨著處理任務的增多,系統會自動生成新技能或改進現有技能。研究團隊在兩個重要基準測試上驗證了這套方法的有效性:通用AI助手基準(GAIA)和人類最后考試基準(HLE)。

在GAIA測試中,這套系統的表現令人印象深刻。該基準包含165個需要多步推理、多媒體處理、網頁瀏覽和工具使用的現實問題。研究團隊將這些問題分為100個訓練樣本和65個測試樣本。經過三輪反思學習,系統在訓練集上的成功率從最初的65.1%提升到91.6%。更重要的是,在從未見過的測試集上,完整的Memento-Skills系統達到了66.0%的準確率,相比于不具備技能優化功能的簡化版本,提升了13.7個百分點。

HLE基準測試更是展現了系統跨領域學習的強大能力。這個基準涵蓋數學、人文、自然科學等八個學術領域的2500個專家級問題。研究團隊從中抽取了788個訓練樣本和342個測試樣本。經過四輪學習,系統的整體成功率從30.8%穩步提升到54.5%。其中,生物學和人文學科的提升最為顯著,分別達到60.7%和66.7%的準確率。在測試集上,該系統達到38.7%的準確率,相比基礎版本幾乎翻了一番,提升幅度超過20個百分點。

這種學習方式的一個重要特點是技能的可復用性。在HLE測試中,系統學會了針對不同學科的專門技能,比如處理化學問題的技能可能包含分子結構分析的特殊步驟,而數學技能則專注于公式推導和計算驗證。當系統遇到新的化學問題時,它能夠識別并調用之前優化過的化學技能,而不是從頭開始。這種技能遷移在結構化的學科分類中表現得特別明顯,這也解釋了為什么HLE基準上的跨任務遷移效果比GAIA更好。

系統的技能路由機制是另一個技術亮點。傳統的相似度匹配方法往往只關注表面的語義相似性,就像僅憑書名來選擇參考書一樣不夠準確。研究團隊開發了一種"行為對齊"的技能選擇機制,這種方法不僅考慮問題和技能在描述上的相似性,更重要的是預測執行特定技能是否能成功解決當前問題。

為了訓練這個智能路由系統,研究團隊構建了一個包含約8000個技能的數據庫,并合成了大量模擬用戶查詢。他們使用一種叫作InfoNCE的對比學習方法,這種方法的基本思想是讓系統學會區分"好的配對"和"壞的配對"。好的配對是指問題和能夠成功解決它的技能之間的組合,壞的配對則是看似相關但實際無用的組合。通過大量這樣的訓練,路由系統學會了更準確的技能選擇策略。

實驗結果顯示,這種行為對齊的路由方法在離線評估中顯著優于傳統方法。在合成查詢測試中,新方法的召回率在不同排名位置都有顯著提升,特別是在最重要的首位推薦上,準確率從傳統方法的32%(BM25)和54%(語義嵌入)提升到60%。更重要的是,在真實任務執行中,新路由方法將任務成功率從79%提升到80%,同時顯著提高了技能選擇的準確性。

系統的技能進化過程展現了有機成長的特征。研究團隊通過可視化技能庫的嵌入空間發現了一個有趣現象:學習后的技能會自然聚集成語義相關的群組。在GAIA學習后,41個技能形成了相對緊湊的分布,而在HLE學習后,235個技能擴散到更廣闊的空間,形成了諸如"搜索網絡"、"量子物理"、"數學化學"、"代碼文本"等專業化技能群組。這種自組織現象表明系統確實在自主發現和構建有用的技能分類體系。

從理論角度來看,這項研究建立在"狀態反思決策過程"的數學框架之上。研究團隊證明了隨著技能庫規模的增長,系統的性能會逐漸收斂到理論最優值。這種收斂行為不是巧合,而是有嚴格數學保證的。性能提升的邊際效應會隨著學習輪次增加而遞減,這正反映了學習曲線中常見的"先快后慢"現象。當技能庫覆蓋了大部分任務空間后,繼續添加技能的收益會變小,系統達到相對穩定的狀態。

理論分析還揭示了影響系統性能的三個獨立因素:語言模型的基礎能力、訓練輪次的數量,以及技能嵌入的質量。這三個因素相互獨立,意味著可以通過升級語言模型、增加訓練數據或改進嵌入算法來單獨提升系統性能,而無需同時優化所有組件。這種模塊化特性為實際部署提供了很大的靈活性。

技能寫入機制是整個系統最復雜的部分。當任務執行失敗時,系統首先進行失敗歸因分析,識別導致錯誤的具體技能。然后,一個專門的技能重寫器會基于執行軌跡和評判反饋,對相關技能進行針對性修改。這些修改可能包括添加安全檢查、調整執行步驟或引入替代策略。如果某個技能的成功率持續下降,系統會啟動技能發現機制,要么重構現有技能,要么創建全新技能。

為了確保技能修改不會引入新問題,系統設置了自動化單元測試機制。每當技能被修改后,系統會生成合成測試案例來驗證修改的有效性。只有通過測試的修改才會被正式采用,否則系統會回滾到之前的版本。這種安全機制保證了技能庫的穩定性和可靠性。

整個系統的架構設計體現了工程實踐的最佳原則。不同于早期原型中將所有功能集中在單一文件的做法,正式版本采用了清晰的模塊化架構。核心代理負責統籌協調,技能系統管理技能的存儲和演化,檢索引擎處理技能匹配,執行引擎負責任務運行,而反思模塊則處理學習和優化。這種分離關注點的設計不僅提高了系統的可維護性,也便于針對特定組件進行性能優化。

從更廣闊的視角來看,這項研究代表了人工智能學習范式的重要轉變。傳統的深度學習方法主要依靠大規模數據和計算資源來訓練模型參數,而Memento-Skills展示了另一種可能性:將學習能力外化為可持續演進的知識結構。這種方法不僅在計算效率上更具優勢,也更符合人類學習的認知模式。

研究團隊在論文中特別強調了這種方法的實用價值。部署后的AI系統無需回收重新訓練,就能在實際使用過程中不斷改進。每一次用戶交互都是學習機會,每一個失敗案例都能轉化為技能優化的動力。這種"永遠在線學習"的特性對于實際應用場景具有重要意義,特別是在需要處理多樣化任務的通用AI助手系統中。

系統的性能提升曲線也驗證了理論預測的準確性。在兩個基準測試中,學習曲線都呈現出典型的"對數增長"模式:初期提升顯著,后期趨于平緩。這種模式反映了技能空間逐漸飽和的過程。早期輪次中,系統發現和填補了大量技能空白,因此性能快速提升。隨著技能庫日趨完善,新增技能的邊際價值遞減,性能提升趨向穩定。

實驗數據還顯示了跨域技能遷移的重要性。在GAIA測試中,由于問題類型高度多樣化且缺乏明確的領域邊界,訓練期間優化的技能很少在測試中被重復使用,因此跨任務遷移效果有限。相比之下,HLE基準的結構化學科分類為技能復用提供了天然框架,生物學技能可以在不同生物問題間遷移,數學技能也能在各類數學題目中發揮作用。這一對比揭示了技能學習系統的一個重要特征:領域結構的清晰程度直接影響知識遷移的效果。

從技術實現的角度,研究團隊公開了完整的代碼庫和數據集,為后續研究提供了堅實基礎。系統的模塊化設計使得研究者可以輕松替換或改進特定組件,比如嘗試不同的語言模型、修改技能表示方法或優化路由算法。這種開放性為該領域的持續發展創造了良好條件。

技能庫的增長模式也體現了有機學習系統的特征。從初始的5個基礎技能開始,GAIA學習產生了41個技能,而HLE學習最終形成了235個技能的龐大庫存。這些技能不是隨機分布的,而是根據任務需求自然聚集成專業化群組。搜索和網絡操作技能群組包含48個相關技能,量子物理群組有47個,數學化學群組44個,代碼處理群組38個。這種自組織結構表明系統確實在發現和利用任務空間的內在規律。

研究的理論基礎建立在馬爾可夫決策過程的擴展框架上。通過將系統狀態定義為當前任務和技能庫的組合,研究團隊證明了擴展后的系統仍然滿足馬爾可夫性質,從而保證了學習算法的理論有效性。這種嚴謹的數學處理為實際系統的可靠性提供了理論保障。

值得注意的是,系統的學習過程完全是無監督的,不需要人工標注或專家指導。系統通過任務執行的成功與否來判斷技能的有效性,通過執行軌跡來識別改進方向。這種自主學習能力使得系統能夠適應各種未預見的使用場景和任務類型。

從實際部署的角度來看,Memento-Skills系統展現了良好的可擴展性和魯棒性。系統啟動時只需要少量基礎技能,隨著使用時間的增長,技能庫會自動擴充和優化。這種漸進式成長模式特別適合實際應用環境,用戶可以立即開始使用基礎功能,而高級功能會在系統學習過程中逐步涌現。

研究團隊還特別關注了系統的安全性和穩定性。每次技能修改都經過自動化測試驗證,確保新版本不會破壞已有功能。當技能優化失敗時,系統會自動回滾到穩定版本,避免因單次失敗而影響整體性能。這種保守的更新策略雖然可能減緩學習速度,但顯著提高了系統在生產環境中的可靠性。

綜合來看,這項研究為人工智能的持續學習問題提供了一個創新且實用的解決方案。通過將技能外化為可演進的知識結構,系統能夠在不修改核心模型的前提下實現持續改進。這種方法不僅在技術上可行,也在經濟上更加高效,為構建真正智能的AI助手系統開辟了新的道路。研究成果的開源發布進一步推動了該領域的發展,為未來更多創新應用奠定了基礎。

Q&A

Q1:Memento-Skills系統如何實現AI的自主學習?

A:Memento-Skills通過"讀寫反思學習"機制讓AI自主成長。系統從外部技能庫中讀取相關技能來執行任務,如果任務失敗,就會反思原因并優化技能或創造新技能。整個過程就像工匠學徒通過實踐不斷完善工具箱一樣,AI的技能庫會隨著經驗積累而變得更加豐富和精準。

Q2:為什么這種方法比傳統的AI訓練更有優勢?

A:傳統方法需要消耗大量計算資源重新訓練整個模型,而Memento-Skills系統保持AI模型"凍結"狀態,所有學習都發生在外部技能庫中。這樣不僅節省了計算成本,還能讓AI在實際使用過程中持續改進,每次用戶交互都能轉化為學習機會,實現真正的"在線學習"。

Q3:Memento-Skills在實際測試中表現如何?

A:在兩個重要基準測試中,系統表現出色。在GAIA測試中,準確率從65.1%提升到66.0%,比基礎版本高出13.7個百分點。在HLE測試中,成功率從30.8%穩步提升到54.5%,最終測試準確率達到38.7%,相比基礎版本幾乎翻了一番。特別是在有明確學科分類的任務中,技能遷移效果更加顯著。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
只踢半場 國安18歲小將難踢主力 上張稀哲防守少1人 雙中鋒是陷阱

只踢半場 國安18歲小將難踢主力 上張稀哲防守少1人 雙中鋒是陷阱

替補席看球
2026-04-04 17:48:19
突發!OpenClaw被封殺了

突發!OpenClaw被封殺了

技術領導力
2026-04-04 11:08:33
劉強東就是因為這幾張照片淪陷的吧

劉強東就是因為這幾張照片淪陷的吧

小椰的奶奶
2026-04-04 17:49:57
美國現在已經知道,自己上了俄羅斯的當,可惜已經來不及了

美國現在已經知道,自己上了俄羅斯的當,可惜已經來不及了

無悔的燦爛人生
2026-04-04 22:12:16
“顧客嫌棄放在地上不能吃了……”敲門無人應,騎手將外賣放門口地上后離開,被投訴,扣了37元和10分服務費

“顧客嫌棄放在地上不能吃了……”敲門無人應,騎手將外賣放門口地上后離開,被投訴,扣了37元和10分服務費

都市快報橙柿互動
2026-04-04 20:36:04
女子參加喪禮被砸死,遺體已停放半年多

女子參加喪禮被砸死,遺體已停放半年多

中國新聞周刊
2026-04-03 18:57:36
這跟不穿有啥區別?內褲外露、開叉開到腰,有錢人的時尚真看不懂

這跟不穿有啥區別?內褲外露、開叉開到腰,有錢人的時尚真看不懂

潮鹿逐夢
2026-03-02 17:19:02
澳門世界杯:四強賽對陣出爐,申裕斌強勢橫掃,陳幸同對手確定

澳門世界杯:四強賽對陣出爐,申裕斌強勢橫掃,陳幸同對手確定

秋姐居
2026-04-04 10:29:27
李純才是純女天花板!清純動人,美哭了

李純才是純女天花板!清純動人,美哭了

東方不敗然多多
2026-04-04 08:27:30
淺野拓磨:日本隊雖然贏球,但場面表現和強隊差距還是很明顯

淺野拓磨:日本隊雖然贏球,但場面表現和強隊差距還是很明顯

懂球帝
2026-04-04 01:59:07
舅舅是蔣介石,1936年他踩了警察局長小老婆腳,局長打他三耳光

舅舅是蔣介石,1936年他踩了警察局長小老婆腳,局長打他三耳光

宅家伍菇涼
2025-08-20 15:52:52
3輪0勝距蓉城11分!國安球迷怒斥:5人不配上場,裁判收錢應上訴

3輪0勝距蓉城11分!國安球迷怒斥:5人不配上場,裁判收錢應上訴

我愛英超
2026-04-04 18:22:08
歐洲人在性方面有多開放?德國再創歷史!女廁所、女浴室隨便進了

歐洲人在性方面有多開放?德國再創歷史!女廁所、女浴室隨便進了

西樓知趣雜談
2026-03-24 14:38:30
降壓藥再現致癌物質?3款降壓藥被召回!國內患者需要停藥嗎?

降壓藥再現致癌物質?3款降壓藥被召回!國內患者需要停藥嗎?

路醫生健康科普
2026-04-04 09:25:03
鄭麗文徹底撕破臉:罵民進黨是“豪豬”,直言解放軍是臺灣后盾!

鄭麗文徹底撕破臉:罵民進黨是“豪豬”,直言解放軍是臺灣后盾!

達文西看世界
2026-04-04 21:33:48
吻住春風:在花開之前,先吻自己

吻住春風:在花開之前,先吻自己

疾跑的小蝸牛
2026-04-04 23:54:02
李小萌王雷豪華住宅被曝光,誰能想到王雷的煙成了最大亮點!

李小萌王雷豪華住宅被曝光,誰能想到王雷的煙成了最大亮點!

動物奇奇怪怪
2026-04-04 02:24:52
48小時紅線!中國提前全球通告:敢給戰爭開綠燈,直接一票否決

48小時紅線!中國提前全球通告:敢給戰爭開綠燈,直接一票否決

策前論
2026-04-04 17:12:15
DDR5崩盤!黃牛囤了一屋子內存!

DDR5崩盤!黃牛囤了一屋子內存!

中國半導體論壇
2026-04-03 10:23:10
內馬爾啊內馬爾,你非要親手關上通往世界杯的大門嗎

內馬爾啊內馬爾,你非要親手關上通往世界杯的大門嗎

足壇劉脂導
2026-04-04 11:29:54
2026-04-05 00:39:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業世界
7875文章數 558關注度
往期回顧 全部

科技要聞

內存一年漲四倍!國產手機廠商集體漲價

頭條要聞

特朗普發文:距離一切災難降臨在伊朗頭上僅剩48小時

頭條要聞

特朗普發文:距離一切災難降臨在伊朗頭上僅剩48小時

體育要聞

剎不住的泰格·伍茲,口袋里的兩粒藥丸

娛樂要聞

Q女士反擊,否認逼宋寧峰張婉婷離婚

財經要聞

中微董事長,給半導體潑點冷水

汽車要聞

17萬級海豹07EV 不僅續航長還有9分鐘滿電的快樂

態度原創

健康
旅游
藝術
親子
公開課

干細胞抗衰4大誤區,90%的人都中招

旅游要聞

櫻郵聯動!郵輪游客赴顧村公園賞櫻,解鎖“一票雙享”新玩法

藝術要聞

你絕對不能錯過的夢幻性感攝影作品!

親子要聞

孕婦買200元水果被丈夫罵后續:雙標到極致,家境曝光,網友勸離

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版