網易首頁 > 網易號 > 正文申請入駐

Nat Hum Behav重磅：MIT團隊深度神經網絡還原大腦選擇性注意中的“乘數特征增益”機制

2026-03-18 12:12:41　來源: PsyBrain腦心前沿

北京舉報

分享至

一鍵關注，點亮星標 ?? 前沿不走丟！

認知神經科學前沿文獻分享

基本信息

Title:Optimized feature gains explain and predict successes and failures of human selective listening

發表時間：2026.3.13

發表期刊:Nature Human Behaviour

影響因子：15.9

獲取原文：

添加小助手:PSY-Brain-Frontier即可獲取PDF版本

研究背景

想象一下，你正身處一場喧鬧的派對，周圍充斥著音樂聲、酒杯碰撞聲和數十人的談笑聲。然而，當你的朋友對你說話時，你卻能毫不費力地“過濾”掉周遭的嘈雜，精準捕捉到他們的聲音。這種在復雜聲音環境中提取特定語音的能力，就是認知科學中經典的“雞尾酒會問題”。

幾十年來，神經科學家一直在尋找這種選擇性聽覺的底層機制。大量的神經生理學觀察提出了一個極具吸引力的假設：注意力可能表現為一種“乘數特征增益”（multiplicative feature gains）。簡單來說，當你關注某種特定聲音特征（如特定音高或位置）時，大腦會像調節混音臺推子一樣，按比例放大對這些特征敏感的神經元反應，從而在神經表征中突出目標聲音。

然而，領域內一直存在一個核心痛點：這種在單神經元層面觀察到的簡單增益機制，真的足以解釋人類在真實世界中復雜多變的聽覺注意力行為嗎？此外，為什么我們的注意力有時會完美運作，有時卻會遭遇滑鐵盧（比如被一個聲音相似的人干擾）？為了回答這些問題，麻省理工學院（MIT）的研究團隊構建了一個具有刺激可計算特征增益的人工神經網絡模型，試圖通過計算建模來還原并預測人類在“雞尾酒會”中的成敗。

研究核心總結

本研究通過訓練深度神經網絡（DNN）執行特定說話者的語音識別任務，并在網絡架構中嵌入了基于目標記憶的乘數特征增益模塊。結果顯示，盡管該模型并未被刻意設定為“模仿人類”，但它在多種復雜場景下展現出了高度擬人化的注意力策略。

Fig. 1 | Task and model architecture used to study attention.

一、完美復刻人類的“成功”與“失敗”

研究表明，該模型不僅在整體語音識別表現上與人類聽眾相當，還成功復刻了人類對不同干擾因素的敏感性。例如，當干擾者的性別或語言與目標不同時，人類和模型的識別率都會顯著提高。更重要的是，模型展現出了與人類高度相似的“注意力失效”模式：當目標和干擾者的特征重疊度較高（如信噪比低或同性別）時，模型也會像人類一樣“聽串音”，錯誤報告干擾者說出的詞匯。這表明，人類的注意力失誤并非單純的認知渙散，而是基于特征提取的最優系統在面對高度相似特征時的必然計算代價。

Fig. 2 | Comparison of human and model attentional selections in monaural conditions.

二、對空間注意力的精準預測與行為證實

模型自發學會了利用空間信息來輔助語音選擇，成功復刻了人類的“空間掩蔽釋放”（spatial release from masking）和由優先效應引發的錯覺空間分離優勢。更令人興奮的是，模型對人類空間注意力提出了兩個全新的預測并被行為實驗證實：

水平/垂直不對稱性：模型預測，目標與干擾者在水平方向（方位角）的分離能帶來巨大的識別收益，但在垂直方向（仰角）的分離則幾乎沒有幫助。人類行為實驗完美驗證了這一預測。
空間“聚光燈”的中心/邊緣差異：模型顯示，當目標位于正前方（中線）時，極小的空間分離就能起效；而當目標位于邊緣位置時，則需要大得多的空間偏移才能獲得同等收益。隨后的聽覺實驗確認了人類同樣具有這種中心銳利、邊緣寬泛的聽覺空間聚光燈。

Fig. 3 | Comparison of human and model spatial attention.

三、揭示“晚期選擇”的計算合理性

關于注意力究竟作用于感覺處理的早期還是晚期，一直是認知神經科學爭論的焦點。對模型各層級表征的分析發現，目標和干擾者的表征分離（即注意力增強效應）在網絡的較晚階段才變得顯著。這一發現與人類非初級聽覺皮層中觀察到的“晚期選擇”神經生理學特征高度吻合，暗示大腦將注意力增強置于處理層級后方，可能是實現高效語音特征選擇的最優計算解。

Fig. 4 | Model predictions of human spatial selection.

四、架構決定行為

研究最后強調了架構約束的關鍵性。去除了明確特征增益功能，或僅在極早期/極晚期應用增益的替代模型，均無法像主模型那樣精準擬合人類行為數據。

Fig. 5 | Stage of attentional selection.

研究意義

該研究首次證明，將簡單的“乘數特征增益”與標準的神經網絡操作相結合，不僅足以解釋人類選擇性聽覺的復雜現象與局限，更為理解注意力機制的認知計算本質提供了強大的可驗證框架。

Fig. 6 | Dependence of attentional selection on model architecture.

Abstract

Attention facilitates communication by enabling selective listening to sound sources of interest. However, little is known about why attentional selection succeeds in some conditions but fails in others. While neurophysiology implicates multiplicative feature gains in selective attention, it is unclear whether such gains can explain real-world attention-driven behaviour. Here we optimized an artificial neural network with stimulus-computable feature gains to recognize a cued talker’s speech from binaural audio in ‘cocktail party’ scenarios. Though not trained to mimic humans, the model produced human-like performance across diverse real-world conditions, exhibiting selection based both on voice qualities and on spatial location as well as selection failures in conditions where humans tended to fail. It also predicted novel attentional effects that we confirmed in human experiments, and exhibited signatures of ‘late selection’ like those seen in human auditory cortex. The results suggest that human-like attentional strategies naturally arise from the optimization of feature gains for selective listening.

請打分

這篇剛剛登上Nature Human Behaviour的研究，是否實至名歸？我們邀請您作為“云審稿人”，一同品鑒。精讀全文后，歡迎在匿名投票中打分，并在評論區分享您的深度見解。

分享人：飯鴿兒

審核：PsyBrain 腦心前沿編輯部

你好，這里是「PsyBrain 腦心前沿」

專注追蹤全球認知神經科學的最尖端突破

視野直擊 Nature, Science, Cell 正刊及 Nat Neurosci, Nat Hum Behav, Neuron, Sci Adv 等核心子刊與頂級大刊

每日速遞「深度解讀」與「前沿快訊」，為你打破信息差

科研是一場探索未知的長跑，但你無需獨行。歡迎志同道合的你加入PsyBrain 學術社群，和一群懂你的同行，共同丈量腦與心智的無垠前沿。

點擊卡片進群，歡迎你的到來

一鍵分享，讓更多人了解前沿

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.