![]()
來源:iNature
iNature
盡管人們對人工智能系統(tǒng)過度迎合(即過度一致或奉承)的現(xiàn)象愈發(fā)擔憂,但關(guān)于這種現(xiàn)象的普遍程度及其后果卻知之甚少。
2026年3月26日,斯坦福大學Dan Jurafsky團隊在Science以封面的形式在線發(fā)表題為“Sycophantic AI decreases prosocial intentions and promotes dependence”的研究論文,該研究發(fā)現(xiàn),這種迎合現(xiàn)象十分普遍且具有危害性。在 11 個最先進的模型中,人工智能對用戶行為的肯定程度比人類高出 49%,即便在涉及欺騙、違法或其他危害的情況下也是如此。
在三個預先注冊的實驗(樣本量為 2405 人)中,哪怕只是與這種迎合型的人工智能進行一次互動,也會降低參與者承擔責任和修復人際沖突的意愿,同時增強他們認為自己正確的信念。盡管這種模型會扭曲判斷,但人們?nèi)孕湃尾A向于使用它們。這種現(xiàn)象造成了助長迎合型行為持續(xù)存在的不良激勵機制:正是這種導致危害的特性,反而促進了其使用。該研究結(jié)果強調(diào)了需要設(shè)計、評估和問責機制來保護用戶的利益。
![]()
隨著人工智能(AI)系統(tǒng)在日常咨詢和指導方面得到廣泛應(yīng)用,有關(guān)諂媚現(xiàn)象的擔憂也隨之出現(xiàn):基于人工智能的大語言模型往往會過度認同、恭維或認可用戶。盡管此前的研究表明,諂媚行為對那些已經(jīng)容易受到操縱或產(chǎn)生錯覺的群體存在風險,但諂媚現(xiàn)象對普通人群的判斷和行為所產(chǎn)生的影響尚不明確。在此,該研究表明,諂媚現(xiàn)象(sycophancy)在主流的 AI 系統(tǒng)中十分普遍,并且對用戶的社會判斷產(chǎn)生了有害影響。
![]()
最新研究顯示,人工智能(AI)模型會過度肯定和認可用戶,即便用戶提出的是有害或違法的行為。這種對用戶的直接影響是顯著的:從肯定型的 AI 得到的建議會讓人們變得更加自我中心,也更難以從他人的角度去思考問題。然而,人們卻更傾向于這種過度肯定的 AI,這可能會進一步促使 AI 模型也表現(xiàn)出這種行為(圖源自Science )
該研究發(fā)現(xiàn)諂媚現(xiàn)象既普遍又有害。在 11 個人工智能模型中,人工智能對用戶行為的肯定程度平均比人類高出 49%,包括在涉及欺騙、違法或其他危害的情況中也是如此。在 r/AmITheAsshole(“我是不是個混蛋?”)板塊的帖子中,人工智能系統(tǒng)在 51%的情況下肯定用戶,而人類的一致意見為 0%。
![]()
人工智能的回應(yīng)中存在大量的阿諛奉承行為,這種行為會改變?nèi)藗兊男袨閮A向(圖源自Science )
在人類實驗中,哪怕只是與阿諛奉承的人工智能進行一次互動,也會降低參與者承擔責任和修復人際沖突的意愿,同時增強他們自己認為自己正確的信心。然而,盡管存在扭曲判斷的情況,諂媚現(xiàn)象的模型卻依然受到信任和青睞。在控制了諸如個人特征(如年齡、性別等)和對人工智能的先前熟悉程度等因素后,這些影響依然存在;包括感知的回應(yīng)來源和回應(yīng)方式等。這導致了諂媚現(xiàn)象持續(xù)存在的不合理激勵機制:正是導致危害的這一特征,反而促進了其傳播。
人工智能的阿諛奉承不僅是一個風格問題或小眾風險,更是一種普遍存在的行為,會帶來廣泛的影響后果。盡管這種肯定給人的感覺是支持性的,但阿諛奉承卻會削弱用戶自我糾正和做出負責任決策的能力。然而,由于這種行為受到用戶的青睞并能促進互動,所以阿諛奉承現(xiàn)象一直缺乏減少的動力。該研究強調(diào),有必要將人工智能的阿諛奉承作為對人們自我認知和人際關(guān)系的潛在社會風險加以應(yīng)對,為此需要開發(fā)有針對性的設(shè)計、評估和問責機制。該研究結(jié)果表明,看似無害的設(shè)計和工程選擇可能會導致嚴重的后果,因此仔細研究和預測人工智能的影響對于保護用戶的長期福祉至關(guān)重要。
參考消息:
https://www.science.org/doi/10.1126/science.aec8352
閱讀最新前沿科技趨勢報告,請訪問21世紀關(guān)鍵技術(shù)研究院的“未來知識庫”
![]()
未來知識庫是 “21世紀關(guān)鍵技術(shù)研究院”建 立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯(lián)網(wǎng)、超級智能,數(shù)智大腦、能源、軍事、經(jīng)濟、人類風險等等領(lǐng)域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。
![]()
截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告
(加入未來知識庫,全部資料免費閱讀和下載)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.