![]()
編輯|楊文
最近,YouTube 向用戶發起調查:你剛剛看的這個視頻,有沒有「AI 爛片」的感覺?
評分從「完全沒有」到「極其明顯」,由用戶自行判斷。
官方的解釋是,平臺希望借此打擊泛濫的低質量 AI 生成內容。
![]()
消息一出,有人拍手叫好,認為 YouTube 終于出手整治亂象。
![]()
有人則認為表面是舉報 AI 爛片,實際上在幫谷歌訓練下一代 AI
![]()
YouTube 每天有 1.22 億活躍用戶。當這些人開始對 AI 視頻逐一打分,他們實際上是在告訴系統,哪些畫面、哪些動作、哪些細節,會讓人一眼識破這是 AI 生成的。
這批數據,恰好可以直接用于訓練谷歌旗下的 AI 視頻生成模型 Veo,讓下一代模型知道哪里「露餡」了,從而生成更難被肉眼分辨的視頻。
![]()
與此同時,谷歌還向一家專門為兒童制作 AI 視頻內容的初創公司投資了 100 萬美元。
![]()
事實上,這家公司已做了同樣的事情整整十五年。
每當我們打開瀏覽器、登錄銀行賬戶或是在網購平臺下單,屏幕上總會跳出一個熟悉的小方框,要求點擊幾張圖片,或是在一個勾選框旁邊打上對勾。
我們以為這只是一道防止機器人入侵的安全關卡,實則在那短短十秒鐘里,我們正在為一家市值數百億美元的科技巨頭,無償完成一項極具商業價值的工作。
這套系統叫做reCAPTCHA,它是互聯網史上規模最大、也最鮮為人知的數據采集行動。
那道「驗證碼」,從來都不只是驗證碼
故事要從 2000 年前后說起。
彼時,垃圾郵件機器人正在席卷互聯網,論壇被大量刷帖,用戶收件箱被塞滿無用信息,各類網站急需一種方法來區分真實的人類用戶與自動化程序。
卡內基梅隆大學教授路易斯?馮?安發明了CAPTCHA,這是一種將文字扭曲變形、只有人類才能辨認的圖形驗證碼。
馮?安意識到,每天有數以百萬計的人在這些驗證碼上消耗認知精力,如果這些精力能被同時引導去做另一件有價值的事,會怎樣?
2007 年,他推出了reCAPTCHA
驗證碼不再顯示隨機亂碼,轉而呈現來自真實書籍的掃描圖像,那些計算機尚無法自動識別的古舊文字。用戶每完成一次驗證,就等于幫助完成了一小段古籍的數字化。這些書來自《紐約時報》歷史檔案與谷歌圖書項目,總量超過 1.3 億冊。
2009 年,谷歌收購了 reCAPTCHA。真正大規模的數據采集,就此開始。
到 2012 年前后,辨認扭曲文字的時代走到了盡頭,谷歌有了新的需求。
谷歌的街景采集車正在將地球上的每一條道路拍進鏡頭,然而原始照片只是數據。要讓 AI 真正讀懂這些圖像,就必須知道畫面里哪里是紅綠燈、哪里是人行橫道、哪里是店面招牌。
這一過程在機器學習領域叫做「數據標注」,是訓練計算機視覺模型不可缺少的環節,也是一項造價高昂的工程,行業市價通常在每小時 10 至 50 美元之間。
谷歌就把標注任務嵌進全球每個人每天都繞不開的東西里。reCAPTCHA v2改變了界面,用戶面對的是一組來自谷歌街景的真實照片,被要求「點擊所有包含紅綠燈的方塊」,或「選出每一處人行橫道」。
看起來仍是一道安全驗證,背后的每一次點擊,都是在為谷歌的計算機視覺模型打上精確的訓練標簽。
![]()
巨大的規模
鼎盛時期,全球每天有 2 億個 reCAPTCHA 被完成,每次耗時約 10 秒,折合每天超過 50 萬小時的人工勞動。按數據標注行業最低市價估算,谷歌每天從中獲取的免費勞動價值高達 500 萬美元。
reCAPTCHA 幾乎無處不在,每一家銀行、每一個政務平臺、每一個電商網站,都將它嵌入了登錄入口。用戶根本沒有繞行的余地,想訪問自己的賬戶,就必須先完成標注。
這種強制性,是其他任何數據采集方式都無法企及的。Scale AI、Appen 等專業標注公司雇用了數十萬名工人,有時時薪不足一美元,但即便如此,也無法達到 reCAPTCHA 所覆蓋的規模與密度。
![]()
這些數據最終流向了兩款產品。
一是谷歌地圖。作為全球使用最廣的導航工具,它識別路牌、定位商家、理解城市地理的底層能力,有相當一部分建立在這些人工標注之上。而那些完成標注的人,大多只是想查一下賬單余額,或是在網上下一張訂單。
二是 Waymo。這是谷歌旗下的自動駕駛項目,2016 年獨立運營。自動駕駛汽車要在真實道路上安全行駛,必須以近乎完美的精度識別紅綠燈、行人、停車標志等數千種視覺信息,這些識別任務所需的核心訓練數據,正是由數以百萬計、對此毫不知情的普通用戶通過 reCAPTCHA 完成標注的。如今 Waymo 估值 450 億美元,2024 年完成超過 400 萬次付費載客,仍在持續擴張。
2018 年,reCAPTCHA 推出第三個版本,這一次連驗證題都消失了。系統在后臺靜默運行,追蹤用戶的鼠標軌跡、頁面滾動速度和光標停留位置,通過分析這些行為模式來判斷訪問者是否為真實人類。這些行為數據,同樣源源不斷地流入谷歌的 AI 訓練體系。
結語
馮?安當年的構想,在某種程度上稱得上是對人類認知資源的一次創造性調度,把人們原本就要花在垃圾過濾上的精力,引導去做一件真正有意義的事。這個出發點,本身并無惡意。
但有人認為,谷歌將一套用戶別無選擇、必須使用的安全機制鋪設至整個互聯網,而后將產出的海量數據悄然收割,轉化為價值數百億美元的商業產品。整個過程中,用戶不僅一無所獲,甚至連知情的權利都未曾擁有。
今天 YouTube 對 AI 視頻打分這件事,似乎也是把用戶自發的行為,包裝成一項有益于平臺生態的舉動,同時將產生的數據悄悄收入囊中,用于喂養下一代商業產品。
https://x.com/TukiFromKL/status/2033968600248180958?s=20
https://x.com/cryptopunk7213/status/2034074712444207504?s=20
https://x.com/sharbel/status/2033921490412806579?s=20
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.