![]()
新智元報道
編輯:傾傾
【新智元導讀】3月16日,大英百科全書聯合韋氏詞典,起訴了OpenAI,并且羅列了ChatGPT的「四宗罪」。不要覺得Britannica心狠,此前ChatGPT編造錯誤信息,卻把來源偽托給Britannica。OpenAI未作回應。
OpenAI又被起訴了。
3月16日,大英百科全書聯合旗下的韋氏詞典,對OpenAI提起訴訟。
原因是,它認為ChatGPT進行了大規模的版權侵權。
Britannica比所有原告準備得更充分:它緊抓訓練數據抓取、模型記憶輸出、RAG實時檢索,同時追加《蘭納姆法》商標侵權。
這是AI版權訴訟史上,第一次有人試圖把整條生成鏈路一鍋端。
GPT-4能逐字默寫大英百科
根據TechCrunch報道,Britannica直接點名GPT-4,認為它已經記住了其大量版權內容,能夠按需輸出近乎逐字逐句的復制品。
不是相似,不是接近,是逐、字、復、制。
這背后有一定的技術依據。斯坦福和耶魯的研究團隊曾做過實驗,從主流大模型中提取《哈利·波特》原文,最高提取率達到96%。
![]()
也就是說,訓練數據里的內容,有相當一部分被記在了模型權重里,在特定提示詞下可以幾乎原樣還原。
Britannica持有的版權內容規模并不小。它旗下近10萬篇在線文章、百科條目和詞典釋義,覆蓋從科學、歷史到文學的幾乎所有主要知識領域。
這些內容由專業編輯和學科專家歷經數十年積累而成。在維基百科崛起之前,這套體系就是人類知識的標準索引。
而OpenAI一直在灰色地帶游走。
查一次資料,也算侵權
此前,各方一直在爭論:用我的內容訓練模型,算不算版權侵權?
Britannica這次的指控更進一步。他的指控分三層:
第一層,未經許可抓取近10萬篇內容用于大模型訓練。
第二層,ChatGPT在生成回答時,輸出了Britannica內容的完整或部分逐字復制,這構成直接侵權。
第三層,也是最具爭議的一層。OpenAI在ChatGPT的RAG工作流中使用了Britannica文章。
RAG是ChatGPT掃描外部數據庫、獲取最新信息的機制。
![]()
Britannica認為,即便它的內容沒有進入訓練集,但只要它出現在實時檢索里,就被視為侵權。
這種想法前所未有,它意味著不管是靜態訓練還是動態檢索,只要調用了版權內容而未獲授權,都要負責。
更有意思的是第四條指控:Lanham Act商標侵權。
Britannica認為,ChatGPT有時會產生幻覺,然后把這些錯誤內容歸因于Britannica,制造Britannica生成了錯誤信息的假象。
這不單單是侵權,Britannica的品牌信譽都要替OpenAI的錯誤買單。
這危及公眾持續獲取高質量、可信賴在線信息的能力。
同一個問題:德國說侵權,英國說沒有
這是整場官司的核心,也是目前全球司法界爭論最激烈的問題之一。
德國慕尼黑法院在GEMA訴OpenAI案中認定:GPT-4和GPT-4o的模型權重中確實嵌入了歌詞,這構成版權意義上的復制,可以提出禁令和賠償請求。
![]()
模型權重是AI在訓練過程中學到的數值參數,它決定了模型會輸出什么。在慕尼黑法院看來,只要能從這些參數里還原出作品就足以構成侵權。
英國高等法院在Getty Images訴Stability AI案中得出了完全相反的結論。
![]()
AI模型不是侵權副本,因為其權重既不包含也不復制版權作品本身,只存儲了學習到的規律性模式。
美國這邊,Anthropic曾在版權訴訟中說服聯邦法官William Alsup,認定將內容用作訓練數據具有足夠的轉化性,可以適用合理使用原則。
但Alsup同時認定Anthropic非法下載了數百萬本書而非付費獲取,這一點構成違法,最終促成了1.5億美元的集體和解。
Britannica這起案子在紐約提起,適用的是美國聯邦法律。
但目前沒有確立性先例明確說明用版權內容訓練LLM究竟算不算侵權,每起案子的結果,在相當程度上仍取決于具體法官的認定邏輯。
如果法院認可實時檢索也構成侵權,那對整個AI行業的影響將遠超任何一起訓練數據糾紛。
告Perplexity,是在給OpenAI熱身
這不是Britannica第一次出手。
早在2025年9月,Britannica就對Perplexity提起了類似的版權和商標侵權訴訟,該案目前仍在審理中。
![]()
Perplexity是一家以RAG為核心產品邏輯的AI搜索公司。
Britannica選擇先打Perplexity,像是在做法律預演,摸清RAG侵權這條路的可行性,然后再把同樣的邏輯復制到OpenAI身上。
與此同時,行業里的版權戰場正在全面升溫。
《紐約時報》、Ziff Davis、美國和加拿大十余家報紙先后起訴OpenAI。
![]()
The Intercept和US News & World Report也已加入原告隊伍。
截至目前,專門追蹤AI版權訴訟的網站ChatGPT Is Eating The World統計顯示,這已是針對OpenAI的第63起版權訴訟。
OpenAI對TechCrunch的置評請求未作回應。
被維基百科打殘,又被ChatGPT截流
退一步看,有些事情比賠償金額更值得關注。
Britannica創立于1768年,是英文世界里持續時間最長的百科全書品牌,它代表的是幾百年人類知識整理傳統的某種象征。
當這樣一個機構出現在AI版權訴訟的原告席上,傳遞的信號很清晰:知識權威這個概念,正在試圖通過法律手段,重新在AI生態里劃定自己的邊界。
Britannica曾是紙質百科時代的絕對權威,被維基百科打得幾乎找不到存在感。
![]()
后來轉型為數字訂閱平臺,靠著內容的可信度和專業性重新站穩腳跟。
如今,ChatGPT的出現讓它又一次面臨被替代的威脅——但不是被更好的百科替代,而是被一個用它內容訓練出來、但不分給它一分錢的模型替代。
訴狀里有一句話:
ChatGPT通過生成替代出版商內容的回復,搶走了出版商的流量。
這是商業模式的正面沖突。RAG這條指控是否能站住腳,目前沒有人能給出確定答案。
但如果法院哪天認可了這個邏輯,整個行業的實時檢索管道都需要重新談授權。
所有以聯網搜索+AI生成為核心產品的公司,都要面臨這樣的問題。
250年的老牌百科,正在用一份訴狀,嘗試給AI的邊界劃一條線。
這條線最終畫在哪里?2026年,大概會有答案。
參考資料:
https://www.reuters.com/legal/litigation/encyclopedia-britannica-sues-openai-over-ai-training-2026-03-16/
https://techcrunch.com/2026/03/16/merriam-webster-openai-encyclopedia-brittanica-lawsuit/
https://the-decoder.com/encyclopedia-britannica-sues-openai-for-training-on-nearly-100000-articles-without-permission/
https://gizmodo.com/encyclopedia-britannica-sues-openai-over-ai-training-data-2000607770
https://news.bloomberglaw.com/ip-law/britannica-merriam-webster-accuse-openai-of-copying-their-works
https://chatgptiseatingtheworld.com/wp-content/uploads/2026/03/Encyclopedia_Britannica_Inc-v-OpenAI-COMPLAINT-Mar-13-2026.pdf
https://www.aol.com/articles/encyclopedia-britannica-sues-openai-over-141324436.html
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.