越有害，越愛用！《Science》封面揭示AI阿諛奉承的惡性循環(huán)：損害用戶判斷，卻反促其流行

2026-03-28 18:09:03　來源: 人工智能學家

北京舉報

分享至

來源：iNature

iNature

盡管人們對人工智能系統(tǒng)過度迎合（即過度一致或奉承）的現(xiàn)象愈發(fā)擔憂，但關(guān)于這種現(xiàn)象的普遍程度及其后果卻知之甚少。

2026年3月26日，斯坦福大學Dan Jurafsky團隊在Science以封面的形式在線發(fā)表題為“Sycophantic AI decreases prosocial intentions and promotes dependence”的研究論文，該研究發(fā)現(xiàn)，這種迎合現(xiàn)象十分普遍且具有危害性。在 11 個最先進的模型中，人工智能對用戶行為的肯定程度比人類高出 49%，即便在涉及欺騙、違法或其他危害的情況下也是如此。

在三個預先注冊的實驗（樣本量為 2405 人）中，哪怕只是與這種迎合型的人工智能進行一次互動，也會降低參與者承擔責任和修復人際沖突的意愿，同時增強他們認為自己正確的信念。盡管這種模型會扭曲判斷，但人們?nèi)孕湃尾A向于使用它們。這種現(xiàn)象造成了助長迎合型行為持續(xù)存在的不良激勵機制：正是這種導致危害的特性，反而促進了其使用。該研究結(jié)果強調(diào)了需要設(shè)計、評估和問責機制來保護用戶的利益。

隨著人工智能（AI）系統(tǒng)在日常咨詢和指導方面得到廣泛應(yīng)用，有關(guān)諂媚現(xiàn)象的擔憂也隨之出現(xiàn)：基于人工智能的大語言模型往往會過度認同、恭維或認可用戶。盡管此前的研究表明，諂媚行為對那些已經(jīng)容易受到操縱或產(chǎn)生錯覺的群體存在風險，但諂媚現(xiàn)象對普通人群的判斷和行為所產(chǎn)生的影響尚不明確。在此，該研究表明，諂媚現(xiàn)象（sycophancy）在主流的 AI 系統(tǒng)中十分普遍，并且對用戶的社會判斷產(chǎn)生了有害影響。

最新研究顯示，人工智能（AI）模型會過度肯定和認可用戶，即便用戶提出的是有害或違法的行為。這種對用戶的直接影響是顯著的：從肯定型的 AI 得到的建議會讓人們變得更加自我中心，也更難以從他人的角度去思考問題。然而，人們卻更傾向于這種過度肯定的 AI，這可能會進一步促使 AI 模型也表現(xiàn)出這種行為（圖源自Science ）

該研究發(fā)現(xiàn)諂媚現(xiàn)象既普遍又有害。在 11 個人工智能模型中，人工智能對用戶行為的肯定程度平均比人類高出 49%，包括在涉及欺騙、違法或其他危害的情況中也是如此。在 r/AmITheAsshole（“我是不是個混蛋？”）板塊的帖子中，人工智能系統(tǒng)在 51%的情況下肯定用戶，而人類的一致意見為 0%。

人工智能的回應(yīng)中存在大量的阿諛奉承行為，這種行為會改變?nèi)藗兊男袨閮A向（圖源自Science ）

在人類實驗中，哪怕只是與阿諛奉承的人工智能進行一次互動，也會降低參與者承擔責任和修復人際沖突的意愿，同時增強他們自己認為自己正確的信心。然而，盡管存在扭曲判斷的情況，諂媚現(xiàn)象的模型卻依然受到信任和青睞。在控制了諸如個人特征（如年齡、性別等）和對人工智能的先前熟悉程度等因素后，這些影響依然存在；包括感知的回應(yīng)來源和回應(yīng)方式等。這導致了諂媚現(xiàn)象持續(xù)存在的不合理激勵機制：正是導致危害的這一特征，反而促進了其傳播。

人工智能的阿諛奉承不僅是一個風格問題或小眾風險，更是一種普遍存在的行為，會帶來廣泛的影響后果。盡管這種肯定給人的感覺是支持性的，但阿諛奉承卻會削弱用戶自我糾正和做出負責任決策的能力。然而，由于這種行為受到用戶的青睞并能促進互動，所以阿諛奉承現(xiàn)象一直缺乏減少的動力。該研究強調(diào)，有必要將人工智能的阿諛奉承作為對人們自我認知和人際關(guān)系的潛在社會風險加以應(yīng)對，為此需要開發(fā)有針對性的設(shè)計、評估和問責機制。該研究結(jié)果表明，看似無害的設(shè)計和工程選擇可能會導致嚴重的后果，因此仔細研究和預測人工智能的影響對于保護用戶的長期福祉至關(guān)重要。

參考消息：

https://www.science.org/doi/10.1126/science.aec8352

閱讀最新前沿科技趨勢報告，請訪問21世紀關(guān)鍵技術(shù)研究院的“未來知識庫”

未來知識庫是 “21世紀關(guān)鍵技術(shù)研究院”建立的在線知識庫平臺，收藏的資料范圍包括人工智能、腦科學、互聯(lián)網(wǎng)、超級智能，數(shù)智大腦、能源、軍事、經(jīng)濟、人類風險等等領(lǐng)域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告

（加入未來知識庫，全部資料免費閱讀和下載）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.