網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Anthropic「蒸餾」了人類(lèi)最大的知識(shí)庫(kù)

2026-02-24 18:53:38　來(lái)源: AppSo

廣東舉報(bào)

分享至

　　2024 年初，在美國(guó)某處的一座倉(cāng)庫(kù)里，工人們正在做一件看起來(lái)有些奇怪的事：把書(shū)一本本送進(jìn)機(jī)器，切掉書(shū)脊，掃描，然后把剩下的紙送去回收。

　　這些書(shū)是剛買(mǎi)來(lái)的，有些甚至是新的。沒(méi)有人會(huì)讀它們，它們存在的唯一目的，就是被數(shù)字化掃描，然后被銷(xiāo)毀。

　　下令做這件事的，是一家名為 Anthropic 的 AI 公司。

　　在他們的內(nèi)部文件里，這項(xiàng)計(jì)劃有個(gè)代號(hào)：「巴拿馬項(xiàng)目」。一份規(guī)劃文件里如此寫(xiě)道：「這是我們以破壞性方式掃描全球所有書(shū)籍的計(jì)劃，我們不希望外界知道我們正在做這件事。」

　　但這件事最終還是被人知道了。

　　上個(gè)月，一名美國(guó)聯(lián)邦法官解封了一批與版權(quán)訴訟相關(guān)的文件，總計(jì)超過(guò) 4000 頁(yè)。外界由此看到的，不只是一家 AI 公司的秘密，而是整個(gè) AI 行業(yè)在數(shù)據(jù)爭(zhēng)奪戰(zhàn)中的真實(shí)面目。

　　被大模型「吃」掉的實(shí)體書(shū)

　　為什么這些處于技術(shù)前沿的科技巨頭，會(huì)用如此原始甚至粗暴的方式對(duì)待紙質(zhì)書(shū)？答案其實(shí)藏在 AI 對(duì)高質(zhì)量數(shù)據(jù)的極度渴求里。

　　Anthropic 內(nèi)部很早就意識(shí)到，訓(xùn)練 AI 模型光靠網(wǎng)絡(luò)上的內(nèi)容不夠用。

　　根據(jù)《華盛頓郵報(bào)》報(bào)道，一位Anthropic 聯(lián)合創(chuàng)始人在 2023 年 1 月的文件中寫(xiě)道，用書(shū)籍訓(xùn)練模型，可以讓 AI 學(xué)會(huì)「如何寫(xiě)得更好」，而不是只會(huì)模仿質(zhì)量參差不齊的網(wǎng)絡(luò)語(yǔ)言。

　　書(shū)籍經(jīng)過(guò)嚴(yán)格編輯和校對(duì)，內(nèi)容結(jié)構(gòu)清晰，是網(wǎng)絡(luò)文本難以替代的高質(zhì)量語(yǔ)料。

　　這個(gè)邏輯本身并不難理解，但問(wèn)題是，既然承認(rèn)書(shū)籍有價(jià)值，為什么不付錢(qián)？究其原因，挨個(gè)找出版社和作者談授權(quán)，費(fèi)時(shí)費(fèi)力，成本也高。于是 Anthropic 啟動(dòng)了「巴拿馬項(xiàng)目」。僅憑那句「不希望外界知道」，說(shuō)明它也清楚這件事不見(jiàn)得光。

　　甚至「巴拿馬項(xiàng)目」還沒(méi)啟動(dòng)的時(shí)候，Anthropic 已經(jīng)嘗試通過(guò)另一種方式獲取書(shū)籍。

　　Ben Mann

　　法院文件顯示， Anthropic 聯(lián)合創(chuàng)始人 Ben Mann 曾在 2021 年 6 月的 11 天里，從一個(gè)叫 LibGen 的「影子圖書(shū)館」網(wǎng)站下載了大量侵權(quán)小說(shuō)和非小說(shuō)類(lèi)書(shū)籍。

　　一年后，另一個(gè)網(wǎng)站 Pirate Library Mirror 于 2022 年 7 月上線，該網(wǎng)站公開(kāi)宣稱(chēng)「在大多數(shù)國(guó)家故意違反版權(quán)法」。

　　Mann 把這個(gè)網(wǎng)站的鏈接發(fā)給了其他 Anthropic 員工，并留言寫(xiě)道：「來(lái)得正是時(shí)候！！！」從這些感嘆號(hào)，我們也能看出一位公司高管對(duì)一個(gè)公開(kāi)承認(rèn)違法的盜版網(wǎng)站表達(dá)的真實(shí)態(tài)度。

　　Anthropic 事后表示，公司從未用這些數(shù)據(jù)訓(xùn)練過(guò)正式發(fā)布的商業(yè)模型。但這種解釋多少有些勉強(qiáng)，下載了，存著，只是「沒(méi)有用在正式模型上」，這條線究竟劃在哪里，恐怕連 Anthropic 自己也說(shuō)不清楚。

　　為了「巴拿馬項(xiàng)目」，Anthropic 還專(zhuān)門(mén)聘請(qǐng)了 Tom Turvey 來(lái)主持這項(xiàng)工作。Turvey 曾參與創(chuàng)建 Google 圖書(shū)項(xiàng)目，那個(gè)項(xiàng)目同樣因大規(guī)模掃描書(shū)籍引發(fā)了長(zhǎng)達(dá)多年的版權(quán)爭(zhēng)議。Anthropic 選擇這個(gè)人來(lái)主導(dǎo)這件事，很難說(shuō)是一種巧合。

　　最終，Anthropic 主要依賴(lài)兩家書(shū)商批量供貨：

　　美國(guó)二手書(shū)零售商 Better World Books，以及總部位于英國(guó)的 World of Books，每次采購(gòu)動(dòng)輒數(shù)萬(wàn)冊(cè)。內(nèi)部文件還顯示，員工曾討論接洽紐約公共圖書(shū)館，甚至提到可以找某家長(zhǎng)期資金不足的新圖書(shū)館。

　　采購(gòu)?fù)曛螅麄€(gè)掃描過(guò)程，就像一條工業(yè)流水線。

　　掃描、數(shù)字化并銷(xiāo)毀數(shù)百萬(wàn)圖書(shū)的圖書(shū)倉(cāng)庫(kù)。圖片來(lái)自：華盛頓郵報(bào)

　　供應(yīng)商用液壓切割機(jī)把書(shū)脊整齊切掉，散開(kāi)的書(shū)頁(yè)隨即被送進(jìn)高速工業(yè)掃描儀，掃完之后，剩下的紙張交給回收公司處理。一家參與報(bào)價(jià)的掃描服務(wù)商在提案中寫(xiě)道，Anthropic 希望在六個(gè)月內(nèi)完成 50 萬(wàn)到 200 萬(wàn)冊(cè)書(shū)的數(shù)字化工作。

　　Anthropic 副總法律顧問(wèn) Aparna Sridhar 回應(yīng)稱(chēng)，法院已裁定 AI 訓(xùn)練「本質(zhì)上具有轉(zhuǎn)化性」，Anthropic 選擇和解的問(wèn)題在于「部分材料的獲取方式，而不是我們是否可以使用這些材料」。

　　這套說(shuō)辭在法律上也許站得住腳，但它同時(shí)也揭示了一件事：這家公司從未認(rèn)為自己做錯(cuò)了什么，只是某些手段不夠干凈。

　　拿你的書(shū)訓(xùn)練，再搶你的飯碗

　　同樣的事情，也在其他公司身上發(fā)生著，而且有些細(xì)節(jié)更為戲劇性。

　　針對(duì) Meta 的訴訟文件顯示，有員工在 2023 年直接寫(xiě)道：「用公司筆記本進(jìn)行種子下載感覺(jué)不太對(duì)勁。」他后來(lái)還專(zhuān)門(mén)向法務(wù)團(tuán)隊(duì)反映，稱(chēng)使用種子網(wǎng)站可能意味著向他人分發(fā)盜版作品，「這在法律上可能行不通。」

　　但這些顧慮最終沒(méi)有改變?nèi)魏问虑椤?/p>

　　2023 年 12 月的一封內(nèi)部郵件顯示，使用 LibGen 已在「上報(bào)至 MZ」之后獲批，MZ 指的是 CEO 馬克·扎克伯格。

　　郵件還坦率地寫(xiě)明了他們自己都清楚的風(fēng)險(xiǎn)：「如果媒體報(bào)道暗示我們使用了已知為盜版的數(shù)據(jù)集，這可能會(huì)削弱我們?cè)诒O(jiān)管問(wèn)題上的談判立場(chǎng)。」

　　換句話(huà)說(shuō)，他們不是不知道這樣做不對(duì)，只是在權(quán)衡被抓包的代價(jià)。

　　為了降低這個(gè)風(fēng)險(xiǎn)，員工們特意租用亞馬遜的服務(wù)器來(lái)做種子下載，而不是用 Meta 自己的服務(wù)器，原因是避免被追蹤到 Meta 公司。

　　OpenAI 和微軟同樣面臨圖書(shū)作者的版權(quán)指控。OpenAI 甚至承認(rèn)曾下載過(guò) LibGen，但稱(chēng)在 ChatGPT 發(fā)布前已刪除相關(guān)文件。

　　而 AI 公司與創(chuàng)作者之間的版權(quán)沖突，并非從 Anthropic 才開(kāi)始。早在 2000 年代初，Google 就曾大規(guī)模掃描圖書(shū)館館藏，同樣引發(fā)了長(zhǎng)達(dá)十年的訴訟。

　　最終法院認(rèn)定Google 的做法屬于「合理使用」，因?yàn)樗惶峁┢握康氖且龑?dǎo)讀者找到書(shū)，而不是取代書(shū)本身。

　　這個(gè)判決在當(dāng)時(shí)看來(lái)合情合理，卻在二十年后為整個(gè) AI 行業(yè)提供了一塊擋箭牌。

　　Google 圖書(shū)是個(gè)索引工具，而生成式 AI 直接消化書(shū)籍內(nèi)容，然后輸出文字，在某些情況下與作者產(chǎn)生直接競(jìng)爭(zhēng)。性質(zhì)變了，但援引的法律邏輯還是同一套，這本身就值得思考。

　　去年 6 月，聯(lián)邦法官 William Alsup 裁定，Anthropic 用書(shū)籍訓(xùn)練 AI 屬于合法行為，他將這個(gè)過(guò)程比作教師「訓(xùn)練學(xué)生寫(xiě)好文章」。這個(gè)比喻聽(tīng)起來(lái)溫和，但現(xiàn)實(shí)中的老師不會(huì)同時(shí)訓(xùn)練幾百萬(wàn)個(gè)學(xué)生，也不會(huì)靠這些學(xué)生賺幾十億美元。

　　最終，Anthropic 選擇支付 15 億美元和解金，在 AI 版權(quán)訴訟史上創(chuàng)下紀(jì)錄，但細(xì)看之下，賬算得并不虧。按照美國(guó)版權(quán)法，每件作品的法定賠償上限可達(dá) 15 萬(wàn)美元，而此次和解折算下來(lái)，每本書(shū)約賠 3000 美元，僅為上限的 2%。

　　賠償金由作者和出版商平分，只是，這一安排在創(chuàng)作者群體內(nèi)部引發(fā)了爭(zhēng)議。

　　不少作者認(rèn)為，出版商在保護(hù)作品不被 AI 濫用這件事上沒(méi)有盡力，卻拿走了一半賠償。更關(guān)鍵的是，和解協(xié)議并不要求 Anthropic 承認(rèn)任何違法行為，法院對(duì)「AI 訓(xùn)練屬于合理使用」的認(rèn)定照樣有效。

　　換句話(huà)說(shuō)，Anthropic 用 15 億美元買(mǎi)到的，不只是和解，還有一份背書(shū)：我們可以繼續(xù)這么做。有分析人士指出，隨著這個(gè)先例確立，版權(quán)侵權(quán)對(duì) AI 公司來(lái)說(shuō)已經(jīng)不再是一條紅線，而是一筆可以提前計(jì)入成本的「過(guò)路費(fèi)」。

　　對(duì)許多寫(xiě)書(shū)的人來(lái)說(shuō)，這件事意味著的遠(yuǎn)不止一張支票。美國(guó)作家的年收入中位數(shù)約為 2 萬(wàn)美元，而市值數(shù)千億的 AI 公司在未獲授權(quán)的情況下大量使用他們的作品，事后折算的賠償標(biāo)準(zhǔn)遠(yuǎn)低于法律上限。

　　更讓人憂(yōu)慮的是，AI 正在批量生成文字內(nèi)容，這些低成本的文本涌入市場(chǎng)，讓原本就艱難的寫(xiě)作謀生變得更難。訓(xùn)練 AI 用的是人寫(xiě)的書(shū)，而 AI 產(chǎn)出的內(nèi)容，正在擠壓人繼續(xù)寫(xiě)書(shū)的空間，循環(huán)往復(fù)。

　　支持者自有另一套邏輯：AI 并不儲(chǔ)存書(shū)里的內(nèi)容，而是從中提取語(yǔ)言規(guī)律，這更像是一個(gè)人博覽群書(shū)之后形成自己的表達(dá)。這個(gè)類(lèi)比并非毫無(wú)道理，但卻省略了一個(gè)關(guān)鍵差異：

　　人讀了一本書(shū)，不會(huì)同時(shí)讀一百萬(wàn)本；而 AI 在幾個(gè)月內(nèi)消化了人類(lèi)幾十年的寫(xiě)作積累，隨后以極低的邊際成本無(wú)限復(fù)制輸出，規(guī)模改變了性質(zhì)，把兩件事等同起來(lái)其實(shí)是一種精致的詭辯。

　　數(shù)百萬(wàn)冊(cè)書(shū)被切開(kāi)、掃描、回收，最后換來(lái)一份和解協(xié)議。那些書(shū)，早已不在了。而 AI 還在繼續(xù)寫(xiě)作，且會(huì)越來(lái)越快。這大概就是這件事最讓人不安的地方：對(duì)于書(shū)被銷(xiāo)毀，被肆意用來(lái)訓(xùn)練 AI 這件事，沒(méi)有人真正付出了代價(jià)。

附上參考地址：

https://www.washingtonpost.com/technology/2026/01/27/anthropic-ai-scan-destroy-books/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.