如果你曾看過那張著名的“達爾馬提亞狗圖”,你大概體驗過一種奇妙的瞬間。第一眼,你只看到一團混亂的黑白斑點,第二眼,當有人告訴你“這是只狗”,你的視覺系統仿佛被點亮,從此再也無法“看不見那只狗”。
科學家把這種現象稱為單次感知學習(one-shot perceptual learning)。 它的神奇之處在于只需要一次清晰圖像的呈現,就能永久改變你對退化圖像的感知方式。
在實驗室里,這種現象常用“Mooney 圖”來研究——一種極度退化、幾乎無法識別的黑白圖像。 但只要你看過一次對應的清晰原圖,再回頭看 Mooney 圖,你會驚訝地發現它突然變得“顯而易見”。
這種“頓悟式學習”與我們熟悉的“練習成就完美”完全不同。
傳統的視覺學習需要成百上千次重復訓練,像肌肉記憶一樣慢慢積累; 而 one-shot 學習更像是大腦的“閃存寫入”,一次寫入,永久生效。
然而,現代 AI 雖然在圖像識別上已經強到離譜,卻依然難以復現這種能力。 深度學習模型需要海量數據、長時間訓練、巨量算力,才能學會識別一個新類別。
相比之下,人類只需要一次體驗。
這背后到底發生了什么? 大腦是如何做到一次寫入、長期保持、不遺忘舊知識,不破壞已有視覺系統,還能在毫秒級時間內調用這些先驗?
更關鍵的是這種快速學習到底發生在大腦的哪個區域?先驗知識以什么格式存儲?是概念?是形狀?還是某種抽象的視覺模板?神經機制如何避免“災難性遺忘”,而深度學習模型卻做不到?我們能否構建一個真正具備人類式one-shot學習能力的AI?
![]()
圖1 |心理物理學實驗的范式和假設。
這些問題長期以來懸而未決。直到這篇《Neural and computational mechanisms underlying one-shot perceptual learning in humans》發表在Nature Communications的研究出現。
這項研究由紐約大學(NYU)和 Mount Sinai 醫學院的跨學科團隊聯合完成,成員橫跨認知神經科學、視覺神經科學、臨床神經外科(提供 iEEG 數據)、生物醫學工程、計算機工程、數據科學與深度學習。
團隊由 Biyu J. He與 Eric Oermann 共同領導,他們在視覺認知、神經電生理和醫學 AI 領域都處于國際前沿。
這項研究的意義在于它不僅回答了“人類如何做到 one-shot 學習”這一神經科學難題,還首次構建了一個能模擬人類單次感知學習的深度神經網絡模型,并將其與人腦的神經編碼進行對齊。
01研究設計:三條證據鏈鎖定大腦中的“先驗存儲器”
為了破解 one-shot 感知學習的神經與計算機制,研究團隊設計了一套極其嚴謹、跨層級的研究方案。 他們沒有依賴單一實驗,而是從行為、神經表征、時間動態和計算模型四個維度同時出擊,構建了一條“閉環式證據鏈”。
這套設計可以概括為一句話:從行為推斷先驗結構,從神經定位存儲區域,從時間確定激活順序,再用模型復現機制。
整個研究包含四條互補證據鏈。
首先是行為層面。研究者通過操控清晰圖像的方向、大小、位置、類別等屬性,觀察這些操控是否會破壞 one-shot 學習。 如果某種操控不影響學習,就說明大腦中的“先驗知識”對該屬性具有不變性; 反之,則說明先驗依賴該屬性。 通過這種方式,他們繪制出一張“先驗不變性地圖”,從行為層面推斷先驗可能存儲在哪個腦區。
接著是神經層面。研究者使用 7T fMRI 測量不同腦區對這些操控的神經表征差異。 如果某個腦區的神經表征不變性結構與行為不變性結構一致,就說明它可能是先驗的存儲地。 這一步是行為推斷的神經驗證。
然后是時間維度。通過對癲癇患者的顱內電記錄(iEEG),研究者測量不同腦區在學習后對 Mooney 圖的反應變化。 先驗存儲區應該是最早出現學習效應的區域。 這一步提供了時間因果證據。
最后是計算層面。 研究團隊構建了一個具備 one-shot 學習能力的深度神經網絡模型,并將模型中學到的“先驗”與人腦不同腦區的神經編碼進行對齊。 如果模型先驗與某個腦區的神經表征最相似,就進一步支持該腦區是人類先驗的存儲地。
這四條證據鏈最終指向同一個答案:高層視覺皮層(HLVC)是人類one-shot感知學習的核心存儲器。
02心理物理學:先驗知識的“不變性地圖”揭示其存儲位置
如果說 one-shot 感知學習是一種“頓悟”,那么心理物理學實驗就是在拆解這場頓悟背后的“視覺魔術”。研究團隊從最基礎的行為層面入手,試圖回答一個看似簡單卻極其關鍵的問題——大腦到底存了一個什么樣的“先驗模板”,讓我們在看過一次清晰圖像后就能永遠識別那張退化圖?
為了回答這個問題,他們設計了一套極其巧妙的實驗范式。
![]()
圖2|映射感知先驗的不變性屬性。
Mooney圖:為什么它難得離譜?
Mooney 圖是一種極端退化的黑白圖像,幾乎沒有灰度、沒有邊緣、沒有紋理,只有大片黑白塊。 對視覺系統來說,這就像把一段旋律只留下節奏、去掉音高——信息少得可憐。
所以第一次看到 Mooney 圖時,你的大腦幾乎無法從中提取任何結構。 但只要你看過一次對應的清晰原圖,再回頭看 Mooney 圖,你會突然發現:
“啊,這不就是一只狗/一個人/一輛車嗎?”
這種“瞬間開竅”的體驗,就是單次感知學習的核心。
單次呈現清晰圖像如何瞬間改變感知?
研究者讓受試者先看 Mooney 圖(通常認不出來), 然后只呈現一次對應的清晰圖像, 再讓他們看同一張Mooney 圖。
結果幾乎所有人都能立刻認出圖像內容,而且這種效果能持續數月。
這說明大腦在一次呈現中就寫入了某種“先驗知識”。 但這個先驗到底是什么? 是形狀?是輪廓?是空間布局?還是某種抽象的視覺模板?
為了回答這個問題,研究團隊開始“折磨”清晰圖像。
操控清晰圖像:方向、大小、位置,一項項試過去
研究者的邏輯非常直接,如果改變某個屬性后學習效果不變,說明大腦的先驗對這個屬性“不敏感”。反之,則說明先驗依賴這個屬性。
這就像在測試一個鎖的密碼: 你改動某一位數字,鎖還能打開,那這一位就不是關鍵位。
于是他們對清晰圖像做了三類操控。
方向變化:翻轉、旋轉——學習變弱但不會消失
當清晰圖像被左右翻轉或旋轉 90°后,受試者的學習效果明顯下降,但并沒有完全消失。
這意味著大腦的先驗對方向部分不變,但方向仍然是先驗的一部分。
這種“部分不變性”非常像高層視覺皮層(HLVC)的編碼特征: 它對方向有一定不變性,但不是完全不變。
大小變化:6°、12°、24°——完全不影響學習
這是最關鍵的發現之一。
無論清晰圖像縮小一半還是放大一倍,學習效果都幾乎不變。
這直接排除了早期視覺皮層(V1–V4)作為先驗存儲區的可能性,因為這些區域對大小極其敏感,圖像大小變化會徹底改變它們的神經編碼。
而高層視覺皮層(尤其 IT 區)對大小高度不變。
這是一條非常強的證據。
位置變化:偏移 6°——學習變弱但不消失
當清晰圖像被移到左側或右側 6°時,學習效果下降,但依然存在。
這再次呈現出“部分不變性”的特征。
結合方向與大小的結果,一個清晰的模式浮現出來:
大小:完全不變
方向:部分不變
位置:部分不變
這正是高層視覺皮層(HLVC)的典型編碼特征。
概念 vs 感知:換成同類不同 exemplar → 學習直接消失
研究者做了一個非常關鍵的操控,把清晰圖像換成同一類別的另一張圖。
比如 Mooney 圖對應的是一只特定姿態的貓, 但清晰圖像換成另一只貓。
結果學習效果直接消失。
這說明大腦存儲的先驗不是“貓”這個概念,而是“這張貓圖的具體視覺結構”。
換句話說,先驗存儲在感知空間而不是概念空間。
這與 IT 區的神經編碼完全一致, IT 區雖然能區分類別,但它的編碼本質上仍是具體視覺特征的顯式表示。
M通路vs P通路:兩條通路都能誘發學習
研究者還測試了低對比度(偏向 M 通路)、紅綠等亮度(偏向 P 通路),
結果兩者都能誘發學習。
這說明先驗不依賴某一條視覺通路,但兩條通路都能投射到 IT 區,再次指向 HLVC 作為先驗存儲區。
至此,行為層面的證據已經非常清晰,先驗的“不變性結構”與高層視覺皮層的編碼特性高度一致。
03HLVC的神經表征與行為先驗完全一致
行為實驗告訴我們先驗長什么樣, 但 fMRI 能告訴我們大腦哪里真的以這種方式編碼圖像。
研究團隊使用 7T 超高場 fMRI,對每張圖像在不同操控條件下的神經表征進行建模。
構建神經 RDM:70×70的圖像-條件矩陣
他們選取了 10 張圖像 × 7 種操控條件, 構建了一個 70×70 的神經表征距離矩陣(RDM)。
每個元素代表:
“圖 A 在條件 X 與圖 B 在條件 Y 的神經表征差異有多大?”
這是表征相似性分析(RSA)的核心。
![]()
圖3 |基于模型的RSA結果(n=10名受試者)。
哪些腦區具有“操控不變性”?
研究者把不同腦區的神經 RDM拿來對比,結果非常有意思。
HLVC(LO1、LO2、FC): 對方向、大小、位置操控表現出顯著不變性 與行為結果高度一致。
V4:有部分不變性,但不完全匹配。
EVC(V1–V3):完全不匹配(對大小極其敏感)。
FPN、DMN: 雖然任務中活躍,但不具備這種不變性結構。
只有 HLVC 的神經表征與行為推斷的“先驗結構”一致。
模型 RDM vs 神經RDM:最終對齊
研究者基于行為實驗構建了一個“先驗模型 RDM”,包含三種距離等級:
大小變化:低距離。
方向/位置變化:中距離。
不同 exemplar:高距離。
然后與各腦區的神經 RDM 進行相關分析。
結果只有一個腦區顯著相關:HLVC(尤其LO2和FC)
這意味著HLVC是最可能的先驗存儲部位。
04顱內電記錄(iEEG):HLVC 最早出現學習效應
如果說心理物理學告訴我們“先驗長什么樣”,fMRI 告訴我們“先驗存在哪里”,那么顱內電記錄(iEEG)則回答了一個更尖銳的問題:誰是最先被先驗點亮的腦區?
這是一個時間維度的問題,而時間,往往是因果的關鍵。
![]()
圖4|學習誘導活動變化的時間特性。
為什么時間維度重要?
在大腦中,信息流動是有順序的。 如果某個區域真的存儲了先驗,那么當你再次看到 Mooney 圖時,它應該是最早被激活的區域—— 就像一個熟悉的旋律響起,你腦海中最先浮現的那段記憶,必然是它的“源頭”。
先驗存儲區必須在視覺輸入到達后最先發生變化,而不是等別人告訴它“該怎么想”。
這就是 iEEG 的價值所在。 它不像 fMRI 那樣“慢吞吞”,而是毫秒級的神經電信號,能精確捕捉大腦中哪一塊皮層最先“覺醒”。
HLVC在~150 ms出現學習效應
研究團隊在癲癇患者中記錄了顱內電信號,比較學習前后 Mooney 圖觸發的神經反應。
結果非常干脆:
高層視覺皮層(HLVC)在大約150毫秒時就出現了顯著的學習效應。
這意味HLVC 在看到退化圖像時,會迅速調用剛剛寫入的先驗,并在極短時間內改變對圖像的解釋方式。
這不是“被動響應”,而是“主動調控”。
FPN、DMN的變化更晚出現
相比之下,前額-頂葉網絡(FPN)和默認模式網絡(DMN)雖然也會在學習后表現出變化,但時間明顯滯后。
這說明它們可能參與注意、解釋、決策等高階過程,但不是先驗的存儲者,更像是“接收來自 HLVC 的更新信息”。
這條時間因果證據與行為和 fMRI 的空間證據完美對齊:
HLVC是先驗的源頭,而不是被動接收者。
05深度神經網絡模型:構建一個能“一眼頓悟”的 AI
科學研究最迷人的地方在于它不僅解釋世界,還能啟發我們構建新的系統。
當研究團隊已經用行為、fMRI、iEEG 三條證據鏈鎖定HLVC 后,他們做了一件更大膽的事——構建一個能像人類一樣進行one-shot感知學習的深度神經網絡。
這不是“再訓練一下模型”那么簡單,而是一次對AI 學習機制的重新設計。
![]()
圖5 |模型顯示了感知學習效果并預測了人類的學習結果。
模型架構:Vision Transformer + Top-down Feedback
研究團隊以 Vision Transformer(ViT)為基礎,但加入了一個關鍵機制:自頂向下反饋(Top-down Feedback)。
這一步非常關鍵,因為人腦的視覺系統不是單向的,高層視覺區域會不斷向低層區域發送反饋,這種反饋是“先驗注入”的核心機制。
傳統的深度學習模型幾乎都是“自下而上”的,缺乏這種動態調控能力。 而加入反饋后,模型可以在一次呈現清晰圖像后,更新內部先驗,在下一次看到 Mooney 圖時,用先驗去“修正”對退化圖像的解釋。
這就是人工系統中的“頓悟”。
模型結果:AI 真的學會了“一眼頓悟”
令人驚喜的是,這個模型不僅能進行 one-shot 學習,而且表現得非常“人類”。
研究團隊發現模型成功復現了人類的整體學習幅度。
也就是說看一次清晰圖像,模型對 Mooney 圖的識別率顯著提升,幅度與人類非常接近。
更令人震驚的是模型能預測不同圖像的學習難度差異(image-specific)。
或者說哪些 Mooney 圖更容易被人類“頓悟”,哪些更難,模型都能提前預測。
這說明模型不僅學到了“先驗”,還學到了“先驗的結構”。
模型學到的“先驗”與 HLVC 神經編碼最相似
研究團隊進一步把模型內部的“先驗表征”與人腦不同區域的神經編碼進行對齊。
結果再次指向同一個答案,模型的先驗與HLVC的神經編碼最相似。
這意味著模型學到的不是“概念標簽”,而是類似 HLVC 的“結構化感知模板”,這種模板具有與人類相同的不變性結構。
這不僅驗證了模型的合理性,也驗證了人腦的機制。
計算模型與人腦在先驗格式上高度一致
四條證據鏈——行為、fMRI、iEEG、模型——最終收斂到一個令人信服的結論:
人類的one-shot感知學習依賴HLVC的快速可塑性與自頂向下反饋機制。而一個具備類似結構的深度模型,也能實現“一眼頓悟”。
這不僅是神經科學的突破,也是 AI 的啟示。
未來的快速學習模型,可能不再依賴海量數據和反復訓練,而是依賴高層表征的快速寫入,自頂向下的動態調控,感知空間的結構化先驗。
AI要想更像人類,就必須學會“用先驗看世界”。
06人類 one-shot 感知學習的神經與計算機制
當我們把心理物理學的不變性地圖、7T fMRI 的空間表征、iEEG 的時間因果證據,以及深度神經網絡的計算模擬放在一起時,一個極其清晰、幾乎無可辯駁的圖景浮現出來,人類的單次感知學習并不是魔法,而是一套高度結構化、層級分明、效率驚人的神經計算機制。
這套機制的核心,就是高層視覺皮層(HLVC)。
先驗存儲在 HLVC,而非海馬體或前額葉
長期以來,很多人以為“快速學習 = 海馬體”,因為 episodic memory(情景記憶)確實依賴海馬體,并且也是“看一次就記住”。 但這項研究用行為學和神經證據明確告訴我們:one-shot感知學習≠ episodic memory。
海馬體負責的是“你見過這張圖嗎?” HLVC 負責的是“你能看懂這張圖嗎?”
這兩者是完全不同的任務。
前額葉和頂葉網絡雖然在任務中活躍,但它們更像是“調度中心”,而不是“存儲倉庫”。 真正寫入先驗、真正發生可塑性的地方,是 HLVC。
這意味著人類的快速感知學習是皮層內學習,是視覺系統自身的快速重構,是一種“直接寫入視覺模型”的機制,而不是“寫入記憶庫再調用”。
這與現代 AI 的訓練方式形成鮮明對比。
先驗格式:部分不變、感知空間、結構化特征編碼
研究的心理物理學部分揭示了先驗的“格式”:
對大小完全不變。
對方向、位置部分不變。
對 exemplar 完全敏感。
存儲在感知空間,而非概念空間。
這說明先驗不是抽象的“類別標簽”,不是“這是貓”,而是“這張貓圖的結構化視覺模板”。
它包含邊緣、形狀、空間布局、局部特征的組合方式。
這些都是 HLVC(尤其 IT 區)最擅長編碼的內容。
先驗是一種可直接作用于視覺處理的結構化模板,而不是語言或概念層面的知識。
這也解釋了為什么一次呈現就能改變感知,你不是“學會了一個概念”,而是“更新了視覺模型本身”。
![]()
圖6 |大腦預測對比揭示了FC在學習中的強烈參與。
機制模型:HLVC → 自頂向下反饋 → 早期視覺皮層
把所有證據整合起來,我們得到一個極其優雅的機制模型,HLVC存儲先驗→再次看到Mooney圖時先驗被激活→通過反饋調節早期視覺皮層→讓退化圖像變得可識別。
這是一種“從上往下”的視覺重建過程。
第一次看到 Mooney 圖時,早期視覺皮層只能看到混亂的黑白塊; 但當 HLVC 擁有了先驗,它會在毫秒級時間內把“正確的解釋”反饋給低層視覺區域,讓它們重新組織輸入。
這就是為什么Mooney 圖第一次看不懂,第二次就“突然顯而易見”,而且這種效果能持續數月。
因為你不是記住了圖像,而是更新了視覺系統的內部結構。
07從人腦到 AI 的未來啟示
快速學習不是“微調參數”,而是“寫入先驗”
這項研究對 AI 的啟示非常深刻。
現代深度學習模型的學習方式是大量樣本、大量梯度下降、大量參數更新、訓練一次,推理一次。
但人類的 one-shot 學習不是這樣。
人類的快速學習依賴高層表征的快速寫入,自頂向下的動態調控感知,空間的結構化先驗。
這意味著未來的 AI 想要具備真正的人類式 one-shot 學習能力,必須從“訓練范式”轉向“結構范式”。
不是簡單的參數微調,而是構建一個能快速寫入高層表征、并通過反饋機制影響低層處理的系統。
AI 不應該只會“學會分類”, 而應該學會“更新自己的視覺模型”。這才是人類式學習的本質。
人類的“頓悟式學習”看似神秘,但這項研究告訴我們,它背后是一套極其高效的神經計算機制:
HLVC的快速可塑性。
感知空間的結構化先驗。
自頂向下的反饋調控。
低層視覺區域的動態重構。
這不是魔法,而是進化出的高效視覺算法。
更重要的是,這項研究不僅解釋了人類的機制,還為 AI 指出了未來的方向。
如果未來的 AI 想要擺脫“數據饑渴”和“訓練依賴”,真正做到“看一次就會”,它需要能快速寫入的高層表征、能實時調控的反饋機制,能在感知空間中構建結構化先驗。
這將是從“深度學習”邁向“深度理解”的關鍵一步。
而這項研究正是這條道路上的重要里程碑。(END)
參考資料:https://www.nature.com/articles/s41467-026-68711-x
![]()
關于波動智能——
波動智能旨在建立一個基于人類意圖與反應的真實需求洞察及滿足的價值體系,融合人工智能與意識科學,構建覆蓋情緒識別、建模與推薦的智能引擎,自主研發面向社交、電商等場景的多模態意圖識別引擎、意圖標簽系統及意圖智能推薦算法,形成從情緒采集、意圖建模到商業轉化的完整解決方案。波動智能提出“意圖是連接人、物與內容的新型接口”,其產品廣泛應用于AI社交、個性化內容推薦、虛擬陪伴、電商體驗優化等領域。波動智能正在探索“EMO-as-a-Service”技術服務架構,賦能企業實現更高效的用戶洞察與精準情緒交互,推動從功能驅動到意圖驅動的產業范式升級。
親愛的人工智能研究者,為了確保您不會錯過*波動智能*的最新推送,請星標*波動智能*。我們傾心打造并精選每篇內容,只為為您帶來啟發和深思,希望能成為您理性思考路上的伙伴!
加入AI交流群請掃碼加微信
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.