網易首頁 > 網易號 > 正文申請入駐

UCL團隊教AI自己培養技能：讓機器學習像人類學徒一樣成長

2026-03-30 17:41:22　來源: 科技行者

天津舉報

分享至

來自倫敦大學學院（University College London）的研究團隊在2026年3月發表了一項突破性研究，該研究于arXiv平臺發布，編號為arXiv:2603.18743v1，專門探討如何讓AI智能體像人類學徒一樣，通過實際經驗自主學習和積累技能。這項名為"Memento-Skills"的研究為我們展示了一個全新的AI學習范式：不再需要重新訓練大型語言模型，而是讓AI通過外部技能庫不斷進化。

想象一下傳統工匠培養學徒的過程：師傅不會每次都重新塑造學徒的大腦，而是讓學徒通過一次次實踐，在工具箱中積累越來越多的技能。每當遇到新任務時，學徒會從自己的經驗庫中選擇最合適的技能來應對。如果失敗了，學徒會反思問題所在，改進技能或學習新技能。UCL的研究團隊正是受到這種學習方式的啟發，開發了一套讓AI智能體自主成長的系統。

這項研究的核心創新在于將技能本身作為AI的"外部記憶"。與傳統方法需要消耗大量計算資源重新訓練模型不同，Memento-Skills系統讓AI保持"凍結"狀態，所有的學習和進化都發生在外部技能庫中。就像一個手藝人的工具箱會隨著經驗增長而變得更加豐富和精細，AI的技能庫也會在每次任務執行后得到更新和優化。

研究團隊設計了一個"讀寫反思學習"機制，這個過程可以比作一位經驗豐富的圖書管理員的工作流程。當有讀者來咨詢問題時，圖書管理員首先從龐大的藏書中找出最相關的資料（讀取階段），然后根據這些資料為讀者提供答案。如果答案不夠準確，圖書管理員會反思原因，可能是選錯了參考書，也可能是某本書的內容需要更新。于是，圖書管理員會重新整理相關資料，甚至添加新的藏書（寫入階段），確保下次遇到類似問題時能提供更好的服務。

整個系統從五個基礎技能開始，就像新手工匠的基本工具包，包括網頁搜索和終端操作等基本功能。隨著處理任務的增多，系統會自動生成新技能或改進現有技能。研究團隊在兩個重要基準測試上驗證了這套方法的有效性：通用AI助手基準（GAIA）和人類最后考試基準（HLE）。

在GAIA測試中，這套系統的表現令人印象深刻。該基準包含165個需要多步推理、多媒體處理、網頁瀏覽和工具使用的現實問題。研究團隊將這些問題分為100個訓練樣本和65個測試樣本。經過三輪反思學習，系統在訓練集上的成功率從最初的65.1%提升到91.6%。更重要的是，在從未見過的測試集上，完整的Memento-Skills系統達到了66.0%的準確率，相比于不具備技能優化功能的簡化版本，提升了13.7個百分點。

HLE基準測試更是展現了系統跨領域學習的強大能力。這個基準涵蓋數學、人文、自然科學等八個學術領域的2500個專家級問題。研究團隊從中抽取了788個訓練樣本和342個測試樣本。經過四輪學習，系統的整體成功率從30.8%穩步提升到54.5%。其中，生物學和人文學科的提升最為顯著，分別達到60.7%和66.7%的準確率。在測試集上，該系統達到38.7%的準確率，相比基礎版本幾乎翻了一番，提升幅度超過20個百分點。

這種學習方式的一個重要特點是技能的可復用性。在HLE測試中，系統學會了針對不同學科的專門技能，比如處理化學問題的技能可能包含分子結構分析的特殊步驟，而數學技能則專注于公式推導和計算驗證。當系統遇到新的化學問題時，它能夠識別并調用之前優化過的化學技能，而不是從頭開始。這種技能遷移在結構化的學科分類中表現得特別明顯，這也解釋了為什么HLE基準上的跨任務遷移效果比GAIA更好。

系統的技能路由機制是另一個技術亮點。傳統的相似度匹配方法往往只關注表面的語義相似性，就像僅憑書名來選擇參考書一樣不夠準確。研究團隊開發了一種"行為對齊"的技能選擇機制，這種方法不僅考慮問題和技能在描述上的相似性，更重要的是預測執行特定技能是否能成功解決當前問題。

為了訓練這個智能路由系統，研究團隊構建了一個包含約8000個技能的數據庫，并合成了大量模擬用戶查詢。他們使用一種叫作InfoNCE的對比學習方法，這種方法的基本思想是讓系統學會區分"好的配對"和"壞的配對"。好的配對是指問題和能夠成功解決它的技能之間的組合，壞的配對則是看似相關但實際無用的組合。通過大量這樣的訓練，路由系統學會了更準確的技能選擇策略。

實驗結果顯示，這種行為對齊的路由方法在離線評估中顯著優于傳統方法。在合成查詢測試中，新方法的召回率在不同排名位置都有顯著提升，特別是在最重要的首位推薦上，準確率從傳統方法的32%（BM25）和54%（語義嵌入）提升到60%。更重要的是，在真實任務執行中，新路由方法將任務成功率從79%提升到80%，同時顯著提高了技能選擇的準確性。

系統的技能進化過程展現了有機成長的特征。研究團隊通過可視化技能庫的嵌入空間發現了一個有趣現象：學習后的技能會自然聚集成語義相關的群組。在GAIA學習后，41個技能形成了相對緊湊的分布，而在HLE學習后，235個技能擴散到更廣闊的空間，形成了諸如"搜索網絡"、"量子物理"、"數學化學"、"代碼文本"等專業化技能群組。這種自組織現象表明系統確實在自主發現和構建有用的技能分類體系。

從理論角度來看，這項研究建立在"狀態反思決策過程"的數學框架之上。研究團隊證明了隨著技能庫規模的增長，系統的性能會逐漸收斂到理論最優值。這種收斂行為不是巧合，而是有嚴格數學保證的。性能提升的邊際效應會隨著學習輪次增加而遞減，這正反映了學習曲線中常見的"先快后慢"現象。當技能庫覆蓋了大部分任務空間后，繼續添加技能的收益會變小，系統達到相對穩定的狀態。

理論分析還揭示了影響系統性能的三個獨立因素：語言模型的基礎能力、訓練輪次的數量，以及技能嵌入的質量。這三個因素相互獨立，意味著可以通過升級語言模型、增加訓練數據或改進嵌入算法來單獨提升系統性能，而無需同時優化所有組件。這種模塊化特性為實際部署提供了很大的靈活性。

技能寫入機制是整個系統最復雜的部分。當任務執行失敗時，系統首先進行失敗歸因分析，識別導致錯誤的具體技能。然后，一個專門的技能重寫器會基于執行軌跡和評判反饋，對相關技能進行針對性修改。這些修改可能包括添加安全檢查、調整執行步驟或引入替代策略。如果某個技能的成功率持續下降，系統會啟動技能發現機制，要么重構現有技能，要么創建全新技能。

為了確保技能修改不會引入新問題，系統設置了自動化單元測試機制。每當技能被修改后，系統會生成合成測試案例來驗證修改的有效性。只有通過測試的修改才會被正式采用，否則系統會回滾到之前的版本。這種安全機制保證了技能庫的穩定性和可靠性。

整個系統的架構設計體現了工程實踐的最佳原則。不同于早期原型中將所有功能集中在單一文件的做法，正式版本采用了清晰的模塊化架構。核心代理負責統籌協調，技能系統管理技能的存儲和演化，檢索引擎處理技能匹配，執行引擎負責任務運行，而反思模塊則處理學習和優化。這種分離關注點的設計不僅提高了系統的可維護性，也便于針對特定組件進行性能優化。

從更廣闊的視角來看，這項研究代表了人工智能學習范式的重要轉變。傳統的深度學習方法主要依靠大規模數據和計算資源來訓練模型參數，而Memento-Skills展示了另一種可能性：將學習能力外化為可持續演進的知識結構。這種方法不僅在計算效率上更具優勢，也更符合人類學習的認知模式。

研究團隊在論文中特別強調了這種方法的實用價值。部署后的AI系統無需回收重新訓練，就能在實際使用過程中不斷改進。每一次用戶交互都是學習機會，每一個失敗案例都能轉化為技能優化的動力。這種"永遠在線學習"的特性對于實際應用場景具有重要意義，特別是在需要處理多樣化任務的通用AI助手系統中。

系統的性能提升曲線也驗證了理論預測的準確性。在兩個基準測試中，學習曲線都呈現出典型的"對數增長"模式：初期提升顯著，后期趨于平緩。這種模式反映了技能空間逐漸飽和的過程。早期輪次中，系統發現和填補了大量技能空白，因此性能快速提升。隨著技能庫日趨完善，新增技能的邊際價值遞減，性能提升趨向穩定。

實驗數據還顯示了跨域技能遷移的重要性。在GAIA測試中，由于問題類型高度多樣化且缺乏明確的領域邊界，訓練期間優化的技能很少在測試中被重復使用，因此跨任務遷移效果有限。相比之下，HLE基準的結構化學科分類為技能復用提供了天然框架，生物學技能可以在不同生物問題間遷移，數學技能也能在各類數學題目中發揮作用。這一對比揭示了技能學習系統的一個重要特征：領域結構的清晰程度直接影響知識遷移的效果。

從技術實現的角度，研究團隊公開了完整的代碼庫和數據集，為后續研究提供了堅實基礎。系統的模塊化設計使得研究者可以輕松替換或改進特定組件，比如嘗試不同的語言模型、修改技能表示方法或優化路由算法。這種開放性為該領域的持續發展創造了良好條件。

技能庫的增長模式也體現了有機學習系統的特征。從初始的5個基礎技能開始，GAIA學習產生了41個技能，而HLE學習最終形成了235個技能的龐大庫存。這些技能不是隨機分布的，而是根據任務需求自然聚集成專業化群組。搜索和網絡操作技能群組包含48個相關技能，量子物理群組有47個，數學化學群組44個，代碼處理群組38個。這種自組織結構表明系統確實在發現和利用任務空間的內在規律。

研究的理論基礎建立在馬爾可夫決策過程的擴展框架上。通過將系統狀態定義為當前任務和技能庫的組合，研究團隊證明了擴展后的系統仍然滿足馬爾可夫性質，從而保證了學習算法的理論有效性。這種嚴謹的數學處理為實際系統的可靠性提供了理論保障。

值得注意的是，系統的學習過程完全是無監督的，不需要人工標注或專家指導。系統通過任務執行的成功與否來判斷技能的有效性，通過執行軌跡來識別改進方向。這種自主學習能力使得系統能夠適應各種未預見的使用場景和任務類型。

從實際部署的角度來看，Memento-Skills系統展現了良好的可擴展性和魯棒性。系統啟動時只需要少量基礎技能，隨著使用時間的增長，技能庫會自動擴充和優化。這種漸進式成長模式特別適合實際應用環境，用戶可以立即開始使用基礎功能，而高級功能會在系統學習過程中逐步涌現。

研究團隊還特別關注了系統的安全性和穩定性。每次技能修改都經過自動化測試驗證，確保新版本不會破壞已有功能。當技能優化失敗時，系統會自動回滾到穩定版本，避免因單次失敗而影響整體性能。這種保守的更新策略雖然可能減緩學習速度，但顯著提高了系統在生產環境中的可靠性。

綜合來看，這項研究為人工智能的持續學習問題提供了一個創新且實用的解決方案。通過將技能外化為可演進的知識結構，系統能夠在不修改核心模型的前提下實現持續改進。這種方法不僅在技術上可行，也在經濟上更加高效，為構建真正智能的AI助手系統開辟了新的道路。研究成果的開源發布進一步推動了該領域的發展，為未來更多創新應用奠定了基礎。

Q&A

Q1：Memento-Skills系統如何實現AI的自主學習？

A：Memento-Skills通過"讀寫反思學習"機制讓AI自主成長。系統從外部技能庫中讀取相關技能來執行任務，如果任務失敗，就會反思原因并優化技能或創造新技能。整個過程就像工匠學徒通過實踐不斷完善工具箱一樣，AI的技能庫會隨著經驗積累而變得更加豐富和精準。

Q2：為什么這種方法比傳統的AI訓練更有優勢？

A：傳統方法需要消耗大量計算資源重新訓練整個模型，而Memento-Skills系統保持AI模型"凍結"狀態，所有學習都發生在外部技能庫中。這樣不僅節省了計算成本，還能讓AI在實際使用過程中持續改進，每次用戶交互都能轉化為學習機會，實現真正的"在線學習"。

Q3：Memento-Skills在實際測試中表現如何？

A：在兩個重要基準測試中，系統表現出色。在GAIA測試中，準確率從65.1%提升到66.0%，比基礎版本高出13.7個百分點。在HLE測試中，成功率從30.8%穩步提升到54.5%，最終測試準確率達到38.7%，相比基礎版本幾乎翻了一番。特別是在有明確學科分類的任務中，技能遷移效果更加顯著。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.