![]()
編輯|楊文
最近,YouTube 向用戶發(fā)起調(diào)查:你剛剛看的這個視頻,有沒有「AI 爛片」的感覺?
評分從「完全沒有」到「極其明顯」,由用戶自行判斷。
官方的解釋是,平臺希望借此打擊泛濫的低質(zhì)量 AI 生成內(nèi)容。
![]()
消息一出,有人拍手叫好,認(rèn)為 YouTube 終于出手整治亂象。
![]()
有人則認(rèn)為表面是舉報 AI 爛片,實際上在幫谷歌訓(xùn)練下一代 AI
![]()
YouTube 每天有 1.22 億活躍用戶。當(dāng)這些人開始對 AI 視頻逐一打分,他們實際上是在告訴系統(tǒng),哪些畫面、哪些動作、哪些細(xì)節(jié),會讓人一眼識破這是 AI 生成的。
這批數(shù)據(jù),恰好可以直接用于訓(xùn)練谷歌旗下的 AI 視頻生成模型 Veo,讓下一代模型知道哪里「露餡」了,從而生成更難被肉眼分辨的視頻。
![]()
與此同時,谷歌還向一家專門為兒童制作 AI 視頻內(nèi)容的初創(chuàng)公司投資了 100 萬美元。
![]()
事實上,這家公司已做了同樣的事情整整十五年。
每當(dāng)我們打開瀏覽器、登錄銀行賬戶或是在網(wǎng)購平臺下單,屏幕上總會跳出一個熟悉的小方框,要求點擊幾張圖片,或是在一個勾選框旁邊打上對勾。
我們以為這只是一道防止機(jī)器人入侵的安全關(guān)卡,實則在那短短十秒鐘里,我們正在為一家市值數(shù)百億美元的科技巨頭,無償完成一項極具商業(yè)價值的工作。
這套系統(tǒng)叫做reCAPTCHA,它是互聯(lián)網(wǎng)史上規(guī)模最大、也最鮮為人知的數(shù)據(jù)采集行動。
那道「驗證碼」,從來都不只是驗證碼
故事要從 2000 年前后說起。
彼時,垃圾郵件機(jī)器人正在席卷互聯(lián)網(wǎng),論壇被大量刷帖,用戶收件箱被塞滿無用信息,各類網(wǎng)站急需一種方法來區(qū)分真實的人類用戶與自動化程序。
卡內(nèi)基梅隆大學(xué)教授路易斯?馮?安發(fā)明了CAPTCHA,這是一種將文字扭曲變形、只有人類才能辨認(rèn)的圖形驗證碼。
馮?安意識到,每天有數(shù)以百萬計的人在這些驗證碼上消耗認(rèn)知精力,如果這些精力能被同時引導(dǎo)去做另一件有價值的事,會怎樣?
2007 年,他推出了reCAPTCHA
驗證碼不再顯示隨機(jī)亂碼,轉(zhuǎn)而呈現(xiàn)來自真實書籍的掃描圖像,那些計算機(jī)尚無法自動識別的古舊文字。用戶每完成一次驗證,就等于幫助完成了一小段古籍的數(shù)字化。這些書來自《紐約時報》歷史檔案與谷歌圖書項目,總量超過 1.3 億冊。
2009 年,谷歌收購了 reCAPTCHA。真正大規(guī)模的數(shù)據(jù)采集,就此開始。
到 2012 年前后,辨認(rèn)扭曲文字的時代走到了盡頭,谷歌有了新的需求。
谷歌的街景采集車正在將地球上的每一條道路拍進(jìn)鏡頭,然而原始照片只是數(shù)據(jù)。要讓 AI 真正讀懂這些圖像,就必須知道畫面里哪里是紅綠燈、哪里是人行橫道、哪里是店面招牌。
這一過程在機(jī)器學(xué)習(xí)領(lǐng)域叫做「數(shù)據(jù)標(biāo)注」,是訓(xùn)練計算機(jī)視覺模型不可缺少的環(huán)節(jié),也是一項造價高昂的工程,行業(yè)市價通常在每小時 10 至 50 美元之間。
谷歌就把標(biāo)注任務(wù)嵌進(jìn)全球每個人每天都繞不開的東西里。reCAPTCHA v2改變了界面,用戶面對的是一組來自谷歌街景的真實照片,被要求「點擊所有包含紅綠燈的方塊」,或「選出每一處人行橫道」。
看起來仍是一道安全驗證,背后的每一次點擊,都是在為谷歌的計算機(jī)視覺模型打上精確的訓(xùn)練標(biāo)簽。
![]()
巨大的規(guī)模
鼎盛時期,全球每天有 2 億個 reCAPTCHA 被完成,每次耗時約 10 秒,折合每天超過 50 萬小時的人工勞動。按數(shù)據(jù)標(biāo)注行業(yè)最低市價估算,谷歌每天從中獲取的免費勞動價值高達(dá) 500 萬美元。
reCAPTCHA 幾乎無處不在,每一家銀行、每一個政務(wù)平臺、每一個電商網(wǎng)站,都將它嵌入了登錄入口。用戶根本沒有繞行的余地,想訪問自己的賬戶,就必須先完成標(biāo)注。
這種強(qiáng)制性,是其他任何數(shù)據(jù)采集方式都無法企及的。Scale AI、Appen 等專業(yè)標(biāo)注公司雇用了數(shù)十萬名工人,有時時薪不足一美元,但即便如此,也無法達(dá)到 reCAPTCHA 所覆蓋的規(guī)模與密度。
![]()
這些數(shù)據(jù)最終流向了兩款產(chǎn)品。
一是谷歌地圖。作為全球使用最廣的導(dǎo)航工具,它識別路牌、定位商家、理解城市地理的底層能力,有相當(dāng)一部分建立在這些人工標(biāo)注之上。而那些完成標(biāo)注的人,大多只是想查一下賬單余額,或是在網(wǎng)上下一張訂單。
二是 Waymo。這是谷歌旗下的自動駕駛項目,2016 年獨立運營。自動駕駛汽車要在真實道路上安全行駛,必須以近乎完美的精度識別紅綠燈、行人、停車標(biāo)志等數(shù)千種視覺信息,這些識別任務(wù)所需的核心訓(xùn)練數(shù)據(jù),正是由數(shù)以百萬計、對此毫不知情的普通用戶通過 reCAPTCHA 完成標(biāo)注的。如今 Waymo 估值 450 億美元,2024 年完成超過 400 萬次付費載客,仍在持續(xù)擴(kuò)張。
2018 年,reCAPTCHA 推出第三個版本,這一次連驗證題都消失了。系統(tǒng)在后臺靜默運行,追蹤用戶的鼠標(biāo)軌跡、頁面滾動速度和光標(biāo)停留位置,通過分析這些行為模式來判斷訪問者是否為真實人類。這些行為數(shù)據(jù),同樣源源不斷地流入谷歌的 AI 訓(xùn)練體系。
結(jié)語
馮?安當(dāng)年的構(gòu)想,在某種程度上稱得上是對人類認(rèn)知資源的一次創(chuàng)造性調(diào)度,把人們原本就要花在垃圾過濾上的精力,引導(dǎo)去做一件真正有意義的事。這個出發(fā)點,本身并無惡意。
但有人認(rèn)為,谷歌將一套用戶別無選擇、必須使用的安全機(jī)制鋪設(shè)至整個互聯(lián)網(wǎng),而后將產(chǎn)出的海量數(shù)據(jù)悄然收割,轉(zhuǎn)化為價值數(shù)百億美元的商業(yè)產(chǎn)品。整個過程中,用戶不僅一無所獲,甚至連知情的權(quán)利都未曾擁有。
今天 YouTube 對 AI 視頻打分這件事,似乎也是把用戶自發(fā)的行為,包裝成一項有益于平臺生態(tài)的舉動,同時將產(chǎn)生的數(shù)據(jù)悄悄收入囊中,用于喂養(yǎng)下一代商業(yè)產(chǎn)品。
https://x.com/TukiFromKL/status/2033968600248180958?s=20
https://x.com/cryptopunk7213/status/2034074712444207504?s=20
https://x.com/sharbel/status/2033921490412806579?s=20
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.