網易首頁 > 網易號 > 正文申請入駐

你以為在舉報AI爛片？谷歌：這招，我用驗證碼玩了15年

2026-04-20 10:50:32　來源: 機器之心Pro

北京舉報

分享至

編輯｜楊文

最近，YouTube 向用戶發起調查：你剛剛看的這個視頻，有沒有「AI 爛片」的感覺？

評分從「完全沒有」到「極其明顯」，由用戶自行判斷。

官方的解釋是，平臺希望借此打擊泛濫的低質量 AI 生成內容。

消息一出，有人拍手叫好，認為 YouTube 終于出手整治亂象。

有人則認為表面是舉報 AI 爛片，實際上在幫谷歌訓練下一代 AI

YouTube 每天有 1.22 億活躍用戶。當這些人開始對 AI 視頻逐一打分，他們實際上是在告訴系統，哪些畫面、哪些動作、哪些細節，會讓人一眼識破這是 AI 生成的。

這批數據，恰好可以直接用于訓練谷歌旗下的 AI 視頻生成模型 Veo，讓下一代模型知道哪里「露餡」了，從而生成更難被肉眼分辨的視頻。

與此同時，谷歌還向一家專門為兒童制作 AI 視頻內容的初創公司投資了 100 萬美元。

事實上，這家公司已做了同樣的事情整整十五年。

每當我們打開瀏覽器、登錄銀行賬戶或是在網購平臺下單，屏幕上總會跳出一個熟悉的小方框，要求點擊幾張圖片，或是在一個勾選框旁邊打上對勾。

我們以為這只是一道防止機器人入侵的安全關卡，實則在那短短十秒鐘里，我們正在為一家市值數百億美元的科技巨頭，無償完成一項極具商業價值的工作。

這套系統叫做reCAPTCHA，它是互聯網史上規模最大、也最鮮為人知的數據采集行動。

那道「驗證碼」，從來都不只是驗證碼

故事要從 2000 年前后說起。

彼時，垃圾郵件機器人正在席卷互聯網，論壇被大量刷帖，用戶收件箱被塞滿無用信息，各類網站急需一種方法來區分真實的人類用戶與自動化程序。

卡內基梅隆大學教授路易斯?馮?安發明了CAPTCHA，這是一種將文字扭曲變形、只有人類才能辨認的圖形驗證碼。

馮?安意識到，每天有數以百萬計的人在這些驗證碼上消耗認知精力，如果這些精力能被同時引導去做另一件有價值的事，會怎樣？

2007 年，他推出了reCAPTCHA

驗證碼不再顯示隨機亂碼，轉而呈現來自真實書籍的掃描圖像，那些計算機尚無法自動識別的古舊文字。用戶每完成一次驗證，就等于幫助完成了一小段古籍的數字化。這些書來自《紐約時報》歷史檔案與谷歌圖書項目，總量超過 1.3 億冊。

2009 年，谷歌收購了 reCAPTCHA。真正大規模的數據采集，就此開始。

到 2012 年前后，辨認扭曲文字的時代走到了盡頭，谷歌有了新的需求。

谷歌的街景采集車正在將地球上的每一條道路拍進鏡頭，然而原始照片只是數據。要讓 AI 真正讀懂這些圖像，就必須知道畫面里哪里是紅綠燈、哪里是人行橫道、哪里是店面招牌。

這一過程在機器學習領域叫做「數據標注」，是訓練計算機視覺模型不可缺少的環節，也是一項造價高昂的工程，行業市價通常在每小時 10 至 50 美元之間。

谷歌就把標注任務嵌進全球每個人每天都繞不開的東西里。reCAPTCHA v2改變了界面，用戶面對的是一組來自谷歌街景的真實照片，被要求「點擊所有包含紅綠燈的方塊」，或「選出每一處人行橫道」。

看起來仍是一道安全驗證，背后的每一次點擊，都是在為谷歌的計算機視覺模型打上精確的訓練標簽。

巨大的規模

鼎盛時期，全球每天有 2 億個 reCAPTCHA 被完成，每次耗時約 10 秒，折合每天超過 50 萬小時的人工勞動。按數據標注行業最低市價估算，谷歌每天從中獲取的免費勞動價值高達 500 萬美元。

reCAPTCHA 幾乎無處不在，每一家銀行、每一個政務平臺、每一個電商網站，都將它嵌入了登錄入口。用戶根本沒有繞行的余地，想訪問自己的賬戶，就必須先完成標注。

這種強制性，是其他任何數據采集方式都無法企及的。Scale AI、Appen 等專業標注公司雇用了數十萬名工人，有時時薪不足一美元，但即便如此，也無法達到 reCAPTCHA 所覆蓋的規模與密度。

這些數據最終流向了兩款產品。

一是谷歌地圖。作為全球使用最廣的導航工具，它識別路牌、定位商家、理解城市地理的底層能力，有相當一部分建立在這些人工標注之上。而那些完成標注的人，大多只是想查一下賬單余額，或是在網上下一張訂單。

二是 Waymo。這是谷歌旗下的自動駕駛項目，2016 年獨立運營。自動駕駛汽車要在真實道路上安全行駛，必須以近乎完美的精度識別紅綠燈、行人、停車標志等數千種視覺信息，這些識別任務所需的核心訓練數據，正是由數以百萬計、對此毫不知情的普通用戶通過 reCAPTCHA 完成標注的。如今 Waymo 估值 450 億美元，2024 年完成超過 400 萬次付費載客，仍在持續擴張。

2018 年，reCAPTCHA 推出第三個版本，這一次連驗證題都消失了。系統在后臺靜默運行，追蹤用戶的鼠標軌跡、頁面滾動速度和光標停留位置，通過分析這些行為模式來判斷訪問者是否為真實人類。這些行為數據，同樣源源不斷地流入谷歌的 AI 訓練體系。

結語

馮?安當年的構想，在某種程度上稱得上是對人類認知資源的一次創造性調度，把人們原本就要花在垃圾過濾上的精力，引導去做一件真正有意義的事。這個出發點，本身并無惡意。

但有人認為，谷歌將一套用戶別無選擇、必須使用的安全機制鋪設至整個互聯網，而后將產出的海量數據悄然收割，轉化為價值數百億美元的商業產品。整個過程中，用戶不僅一無所獲，甚至連知情的權利都未曾擁有。

今天 YouTube 對 AI 視頻打分這件事，似乎也是把用戶自發的行為，包裝成一項有益于平臺生態的舉動，同時將產生的數據悄悄收入囊中，用于喂養下一代商業產品。

https://x.com/TukiFromKL/status/2033968600248180958?s=20

https://x.com/cryptopunk7213/status/2034074712444207504?s=20

https://x.com/sharbel/status/2033921490412806579?s=20

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.