網易首頁 > 網易號 > 正文申請入駐

模型編輯新范式，HSE實現大規模“安全洗腦”且能力反升

2025-12-09 18:54:07　來源: wisemodel開源社區

北京舉報

分享至

始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在，歡迎加入共同成長。wisemodel推出邀請注冊獎勵活動，最高可得算力券+token包380元獎勵，歡迎參與和支持！

你是否想過，我們是如何“修正”大模型（LLM）的記憶的？這個過程叫做“模型編輯”（Model Editing）。它就像是給大模型“打補丁”或“更新記憶” ，比如告訴它一個新事實，或者糾正一個它的“幻覺”。

但一個核心問題是：你今天剛教會它“拜登是第46任總統”，明天它可能就忘了“特朗普是第45任”；你剛給它更新了最新的醫療知識，它在回答通用問題時就開始“胡言亂語”。對大模型進行持續的知識更新，是否必然導致“災難性遺忘”（catastrophic forgetting）？是不是模型一編輯，就必然“性能崩潰”（model collapse）？

來自國防科技大學 PDL的研究團隊，在發表于NeurIPS 2025 的最新論文中，從生物大腦中汲取靈感，給出了一個顛覆性的答案：給大模型裝上“海馬體”！

研究團隊受人腦海馬體處理記憶的“三突觸回路”啟發，提出了一種全新的類海馬體序列編輯（HSE）框架。該框架通過三大核心機制，徹底改變了模型編輯的“游戲規則”。當其他模型在連續編輯數百次后性能就“雪崩”至零時，HSE在連續編輯1000次后，通用能力不僅毫發無損，甚至還超越了原始模型！已上線始智AI-wisemodel開源社區，歡迎體驗。

代碼地址

https://wisemodel.cn/codes/SquareGroupsky/Hippocampal-like-Sequential-Editing

01.

揭秘HSE的“海馬體”三部曲

為什么大模型會遺忘？因為它們缺乏人腦的精妙機制。HSE框架則模擬了海馬體的三大法寶：

1.機制一：主動遺忘(Active Forgetting)

靈感來源：人腦會通過長時程抑制（LTD）機制主動忘記過時或沖突的信息。

HSE做法：引入“機器遺忘”（Machine Unlearning）策略。在學習新知識過程中，“主動忘記”那些即將過時的舊知識，為新記憶騰出“神經空間”，從根源上解決新舊沖突。

2.機制二：領域分離(Knowledge Separation)

靈感來源：海馬體的齒狀回（DG）具有“模式分離”（Pattern Separation）功能，能將相似的輸入信息映射到完全不同的神經元上，互不干擾。

HSE做法：使用“Fisher Information Matrix” （FIM）來指導參數更新。FIM能識別出對不同知識領域最重要的參數，在編輯時“精準控制”更新幅度，確保編輯“醫療知識”時，不會干擾到“藝術知識”，防止跨域干擾。

3.機制三：參數回放(Parameter Replay)

靈感來源：人腦在休息時，海馬體會“回放”（Replay）白天的經歷（SWRs），將短期記憶固化為長期記憶。

HSE做法：設計了一種高效的“參數回放”機制。它以一種輕量化的參數形式，不斷“鞏固”所有編輯過的歷史知識，最終推導出嚴謹的閉式解（closed-form solution），在數學上保證了長期記憶的穩定。

02.

為什么HSE在數學上更優？

這篇成果的亮點絕不僅在于“仿生”，更在于其堅實的理論貢獻：

1.更緊的泛化界(Tighter Generalization Bound):

研究者從數學上證明，其“主動遺忘”模塊（MAF Loss）相比傳統的交叉熵損失（CE Loss），能帶來更緊的泛化誤差上界（Corollary 1）。

2.可證明的收斂性(Provable Convergence):

研究者證明了其“參數回放”模塊（LEM）的更新范數（Frobenius norm）是收斂的。

3.AlphaEdit只是一個特例：

AlphaEdit 是模型編輯領域一個強力的基線。但HSE從理論上指出，AlphaEdit的知識正交化方法，在數學上只是HSE所提出的“參數回放”公式的一個特例。實驗也表明，HSE的效果顯著優于AlphaEdit 。

4.F-Norm洞察：

模型的“抗編輯性”論文還揭示了一個關鍵洞察：原始模型的F-Norm（Frobenius Norm）越大，模型越能“抗編輯”。Llama3和Mistral的F-Norm遠小于GPT-J ，這導致它們對編輯更敏感，也更容易“崩潰” 。而HSE的LEM模塊，正是通過約束F-Norm的增長，才成功駕馭了這些敏感模型。

03.

不僅沒遺忘，通用能力還變強了？

堅實的理論帶來了驚人的實驗效果。研究團隊在Llama3等多個主流模型上，進行了多達1000次的序列編輯實驗。驚人現象出現了：

1.終結“模型崩潰”

在評估通用能力的GLUE基準測試上，現有的方法（如MEND、MEMIT、PRUNE）在經歷幾百次編輯后，性能無一例外地急劇下降至接近零，模型徹底“崩潰” 。

而HSE框架，在經歷了1000次編輯后，性能曲線幾乎紋絲不動，甚至在使用ZsRE數據集編輯后，平均性能還提升了1.67%！這意味著HSE不僅修復了知識，還順便提升了模型的通用理解能力。

2.編輯性能遙遙領先

在CounterFact和ZsRE兩個標準的模型編輯基準上，HSE的編輯效果也全面占優。與最佳基線相比，HSE在泛化性上平均提升20.6%，特異性上提升21.9%。

3.解決真實世界難題

研究者還在三大實際應用中驗證了HSE的威力：

緩解幻覺：在HalluEdit數據集上，HSE在9個不同領域均能有效緩解模型幻覺。

醫療知識注入：成功為專業醫療大模型注入新大的醫療知識，且不破壞原有專業性。

減少社會偏見：在SafeEdit數據集上，HSE能有效“遺忘”有害和歧視性內容，顯著提升模型安全性。

這項研究不再滿足于模型編輯的“小修小補”，而是從生物機制出發，首次提出了一套完整的、受海馬體啟發的序列編輯框架HSE 。

通過“主動遺忘”、“領域分離”和“參數回放”三大機制，HSE在理論上被證明具有更緊的泛化界和更穩定的收斂性，在實踐中則首次實現在大規模序列編輯后，通用能力不降反升的驚人效果。這為大模型實現“終身學習”和“持續進化”提供了一條極具潛力的技術路徑。

----- END -----

wisemodel相關：

系列模型：

關于wisemodel更多

歡迎持續關注和支持

開源社區建設需要長期堅持和投入，更需要廣大用戶的積極參與、貢獻和維護，歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果，包括模型、數據集和代碼等發布到 wisemodel.cn 社區，共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信，申請加入wisemodel社群，持續關注wisemodel.cn開源社區動態。

歡迎加盟wisemodel開源社區

始智AI wisemodel社區自2023年9月上線以來，逐漸成為影響力日益擴大的中立開放的AI開源社區，為了加快公司發展，我們長期需要技術、運營等人才加盟，技術側重在AI infra、后端開發，熟悉K8S、模型訓練和推理等技術，以及熟悉開發者生態運營的成員，歡迎感興趣的朋友加盟，可以通過添加wisemodel微信，或者將簡歷投遞到郵箱：liudaoquan@wisemodel.cn

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果，鼓勵高校實驗室、大企業研究團隊、個人等，在wisemodel平臺上分享各類優質內容，可以是AI領域最新論文解讀、最新開源成果介紹，也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn，也可以掃碼添加wisemodel微信。

關于wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立，旨在打造和建設中立開放的AI開源創新社區，將打造成“HuggingFace”之外最活躍的AI開源社區，匯聚主要AI開源模型、數據集和代碼等，歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者，以及政府部門、學會協會、聯盟、基金會等，還有投資機構、科技媒體等，共同參與建設AI開源創新生態。

向上滑動查看

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.