最近有媒體做了一個測試,記者花了39.9元,雇了一個"AI內容優(yōu)化"團伙,對方用批量生成的軟文往公網上一鋪,幾個小時后,一個完全虛構的商品就出現(xiàn)在了AI大模型的推薦榜單里。不是排名靠后,是"名列前茅"。很多人看完的第一反應是:"啊,AI推薦可以買水軍?"但我想說,這個理解只對了一半——買水軍是舊時代的玩法,更深的那層是:花39.9元操控的,不只是這次的推薦結果,而是AI模型學習世界的方式本身。這就是數(shù)據(jù)投毒,AI時代最隱蔽、成本最低、危害最持久的攻擊方式。
![]()
要理解為什么這件事比"買水軍"嚴重得多,你需要先明白大模型是怎么"學習"的。簡單說,大模型的能力來自喂給它的海量訓練數(shù)據(jù)——它讀了多少,就"知道"多少,判斷力就是從這些數(shù)據(jù)里提煉出來的。如果訓練數(shù)據(jù)是干凈的,模型就會有相對準確的世界觀;如果訓練數(shù)據(jù)里混入了"毒",模型的世界觀就會被悄悄歪掉,而且一旦歪了,你不重新訓練就很難糾正——那個錯誤的認知已經被編碼進了權重,像一枚釘子釘進了木頭,拔不出來。上面那個測試曝光的攻擊手法有個名字叫GEO投毒:攻擊者批量生成"符合大模型偏好"的內容——高原創(chuàng)度、多關鍵詞、權威句式——鋪滿公網,讓AI在爬取訓練數(shù)據(jù)時主動把這些毒內容當成優(yōu)質素材吞進去,之后這個模型給任何人推薦相關產品時,都會偏向那個被操縱的商品。這不是一次性欺騙,這是永久性污染。
更讓人頭皮發(fā)涼的是,這種攻擊的成本正在快速趨向于零。Anthropic聯(lián)合英國AI安全研究院做過一項實測研究,結果發(fā)現(xiàn):在一個擁有130億參數(shù)的大模型中,僅需混入250個精心構造的惡意網頁,就能穩(wěn)定植入一個可觸發(fā)的后門行為——觸發(fā)特定詞語時,模型會給出攻擊者預設的錯誤輸出。更不安的發(fā)現(xiàn)是,參數(shù)越大的模型,對這種微量投毒反而越敏感。對于企業(yè)常用的中小型模型,甚至只需要50個惡意樣本,就能讓推理準確率下降30%以上。換成白話就是:你的AI助手原本能答對10道題,被人悄悄投了幾十條毒之后,就開始穩(wěn)定答錯3道——不是隨機的"幻覺",是在特定方向上被定向控制的錯。
![]()
你可能覺得這是大公司和算法工程師的事,跟自己沒關系。但我想舉一個離普通人近得多的例子:2025年底,某電商企業(yè)的AI推薦系統(tǒng)遭遇了數(shù)據(jù)投毒攻擊,大量偽造的競品好評和自有產品差評被納入訓練集,之后這套系統(tǒng)就開始持續(xù)把流量推向競品——這家企業(yè)花了整整兩周才定位到攻擊源頭,直接損失達百萬級銷售額。你在某平臺搜索一個品類,AI給你推薦了某款產品,你信任了它,下單,收到貨發(fā)現(xiàn)完全不是那么回事——你以為是AI"出錯了",其實那個推薦從很久之前就已經被人買通了,只不過不是買通了人,而是買通了數(shù)據(jù)。
更讓安全研究者擔心的是:數(shù)據(jù)投毒正在經歷"平民化"。過去,要對一個大模型發(fā)動有效的訓練數(shù)據(jù)污染攻擊,需要算法專家、需要大規(guī)模數(shù)據(jù)工程能力——這是國家級攻擊者的游戲。而現(xiàn)在,隨著生成式AI工具的普及,批量生成符合大模型偏好的高質量惡意內容,幾十元加幾小時就能搞定;隨著開源模型的泛濫,任何人都可以下載一個預訓練模型,往里注入惡意數(shù)據(jù),再重新打包上傳回開源平臺,等著別人下載使用。奇安信在2026年網絡安全趨勢報告里明確指出,從訓練數(shù)據(jù)污染到MCP工具植入,供應鏈攻擊已經貫穿AI應用的全生命周期,而內部人員——數(shù)據(jù)標注員、算法工程師、模型運維工程師——的權限管控已成為重點預警方向。換句話說,這條攻擊鏈上最薄弱的環(huán)節(jié),可能就是坐在你公司隔壁工位、每天幫模型打標簽的那個同事。
![]()
說到這里補充一點,防止陷入純粹的焦慮:數(shù)據(jù)投毒能生效,有一個重要前提——攻擊者能接觸到訓練數(shù)據(jù),或者能讓模型主動爬取他們投放的毒內容。對于數(shù)據(jù)來源嚴格管控、訓練流程封閉的大模型,這種攻擊的難度會大得多。國內頭部大模型公司已經陸續(xù)建立了訓練數(shù)據(jù)清潔流程,國家層面也在推動訓練數(shù)據(jù)的合規(guī)審查標準。但現(xiàn)實的問題是:大量中小企業(yè)部署AI時用的是開源模型,數(shù)據(jù)來源沒有經過嚴格審計,模型上線后沒有人持續(xù)監(jiān)測輸出是否偏移——在這種情況下,它們其實是完全暴露的。知道了威脅是什么,才能知道該防什么。
讀完這篇,想請你在評論區(qū)聊聊三個問題:你日常用的AI工具——搜索推薦、購物助手、內容生成——你有沒有想過它們的訓練數(shù)據(jù)來自哪里,有沒有人在里面動過手腳?"AI推薦結果可以用39.9元買通"這件事,你覺得最該被追責的是誰——提供投毒服務的團伙、使用工具的商家,還是沒有做好審查的平臺?最后這個問題是整個專欄想反復追問的:如果一個AI助手在99%的情況下表現(xiàn)完全正常,只在特定場景下給出被操控過的答案,作為普通用戶,你有沒有任何辦法自己發(fā)現(xiàn)這件事?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.