網易首頁 > 網易號 > 正文申請入駐

AI投毒，比你想象的低端得多，也危險得多

2026-03-21 08:57:07　來源: 待月聽濤

福建舉報

分享至

最近有媒體做了一個測試，記者花了39.9元，雇了一個"AI內容優(yōu)化"團伙，對方用批量生成的軟文往公網上一鋪，幾個小時后，一個完全虛構的商品就出現(xiàn)在了AI大模型的推薦榜單里。不是排名靠后，是"名列前茅"。很多人看完的第一反應是："啊，AI推薦可以買水軍？"但我想說，這個理解只對了一半——買水軍是舊時代的玩法，更深的那層是：花39.9元操控的，不只是這次的推薦結果，而是AI模型學習世界的方式本身。這就是數(shù)據(jù)投毒，AI時代最隱蔽、成本最低、危害最持久的攻擊方式。

要理解為什么這件事比"買水軍"嚴重得多，你需要先明白大模型是怎么"學習"的。簡單說，大模型的能力來自喂給它的海量訓練數(shù)據(jù)——它讀了多少，就"知道"多少，判斷力就是從這些數(shù)據(jù)里提煉出來的。如果訓練數(shù)據(jù)是干凈的，模型就會有相對準確的世界觀；如果訓練數(shù)據(jù)里混入了"毒"，模型的世界觀就會被悄悄歪掉，而且一旦歪了，你不重新訓練就很難糾正——那個錯誤的認知已經被編碼進了權重，像一枚釘子釘進了木頭，拔不出來。上面那個測試曝光的攻擊手法有個名字叫GEO投毒：攻擊者批量生成"符合大模型偏好"的內容——高原創(chuàng)度、多關鍵詞、權威句式——鋪滿公網，讓AI在爬取訓練數(shù)據(jù)時主動把這些毒內容當成優(yōu)質素材吞進去，之后這個模型給任何人推薦相關產品時，都會偏向那個被操縱的商品。這不是一次性欺騙，這是永久性污染。

更讓人頭皮發(fā)涼的是，這種攻擊的成本正在快速趨向于零。Anthropic聯(lián)合英國AI安全研究院做過一項實測研究，結果發(fā)現(xiàn)：在一個擁有130億參數(shù)的大模型中，僅需混入250個精心構造的惡意網頁，就能穩(wěn)定植入一個可觸發(fā)的后門行為——觸發(fā)特定詞語時，模型會給出攻擊者預設的錯誤輸出。更不安的發(fā)現(xiàn)是，參數(shù)越大的模型，對這種微量投毒反而越敏感。對于企業(yè)常用的中小型模型，甚至只需要50個惡意樣本，就能讓推理準確率下降30%以上。換成白話就是：你的AI助手原本能答對10道題，被人悄悄投了幾十條毒之后，就開始穩(wěn)定答錯3道——不是隨機的"幻覺"，是在特定方向上被定向控制的錯。

你可能覺得這是大公司和算法工程師的事，跟自己沒關系。但我想舉一個離普通人近得多的例子：2025年底，某電商企業(yè)的AI推薦系統(tǒng)遭遇了數(shù)據(jù)投毒攻擊，大量偽造的競品好評和自有產品差評被納入訓練集，之后這套系統(tǒng)就開始持續(xù)把流量推向競品——這家企業(yè)花了整整兩周才定位到攻擊源頭，直接損失達百萬級銷售額。你在某平臺搜索一個品類，AI給你推薦了某款產品，你信任了它，下單，收到貨發(fā)現(xiàn)完全不是那么回事——你以為是AI"出錯了"，其實那個推薦從很久之前就已經被人買通了，只不過不是買通了人，而是買通了數(shù)據(jù)。

更讓安全研究者擔心的是：數(shù)據(jù)投毒正在經歷"平民化"。過去，要對一個大模型發(fā)動有效的訓練數(shù)據(jù)污染攻擊，需要算法專家、需要大規(guī)模數(shù)據(jù)工程能力——這是國家級攻擊者的游戲。而現(xiàn)在，隨著生成式AI工具的普及，批量生成符合大模型偏好的高質量惡意內容，幾十元加幾小時就能搞定；隨著開源模型的泛濫，任何人都可以下載一個預訓練模型，往里注入惡意數(shù)據(jù)，再重新打包上傳回開源平臺，等著別人下載使用。奇安信在2026年網絡安全趨勢報告里明確指出，從訓練數(shù)據(jù)污染到MCP工具植入，供應鏈攻擊已經貫穿AI應用的全生命周期，而內部人員——數(shù)據(jù)標注員、算法工程師、模型運維工程師——的權限管控已成為重點預警方向。換句話說，這條攻擊鏈上最薄弱的環(huán)節(jié)，可能就是坐在你公司隔壁工位、每天幫模型打標簽的那個同事。

說到這里補充一點，防止陷入純粹的焦慮：數(shù)據(jù)投毒能生效，有一個重要前提——攻擊者能接觸到訓練數(shù)據(jù)，或者能讓模型主動爬取他們投放的毒內容。對于數(shù)據(jù)來源嚴格管控、訓練流程封閉的大模型，這種攻擊的難度會大得多。國內頭部大模型公司已經陸續(xù)建立了訓練數(shù)據(jù)清潔流程，國家層面也在推動訓練數(shù)據(jù)的合規(guī)審查標準。但現(xiàn)實的問題是：大量中小企業(yè)部署AI時用的是開源模型，數(shù)據(jù)來源沒有經過嚴格審計，模型上線后沒有人持續(xù)監(jiān)測輸出是否偏移——在這種情況下，它們其實是完全暴露的。知道了威脅是什么，才能知道該防什么。

讀完這篇，想請你在評論區(qū)聊聊三個問題：你日常用的AI工具——搜索推薦、購物助手、內容生成——你有沒有想過它們的訓練數(shù)據(jù)來自哪里，有沒有人在里面動過手腳？"AI推薦結果可以用39.9元買通"這件事，你覺得最該被追責的是誰——提供投毒服務的團伙、使用工具的商家，還是沒有做好審查的平臺？最后這個問題是整個專欄想反復追問的：如果一個AI助手在99%的情況下表現(xiàn)完全正常，只在特定場景下給出被操控過的答案，作為普通用戶，你有沒有任何辦法自己發(fā)現(xiàn)這件事？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.