OpenAI又攤上事了,大英百科狀告ChatGPT:查資料也算侵權

avatar
36氪
03-23

3月16日,大英百科全書聯合韋氏詞典,起訴了OpenAI,並且羅列了ChatGPT的「四宗罪」。不要覺得Britannica心狠,此前ChatGPT編造錯誤信息,卻把來源偽託給Britannica。OpenAI未作回應。

OpenAI又被起訴了。

3月16日,大英百科全書聯合旗下的韋氏詞典,對OpenAI提起訴訟。

原因是,它認為ChatGPT進行了大規模的版權侵權。

Britannica比所有原告準備得更充分:它緊抓訓練數據抓取、模型記憶輸出、RAG實時檢索,同時追加《蘭納姆法》商標侵權。

這是AI版權訴訟史上,第一次有人試圖把整條生成鏈路一鍋端。

GPT-4能逐字默寫大英百科

根據TechCrunch報道,Britannica直接點名GPT-4,認為它已經記住了其大量版權內容,能夠按需輸出近乎逐字逐句的複製品。

不是相似,不是接近,是逐、字、復、制。

這背後有一定的技術依據。斯坦福和耶魯的研究團隊曾做過實驗,從主流大模型中提取《哈利·波特》原文,最高提取率達到96%。

也就是說,訓練數據裡的內容,有相當一部分被記在了模型權重裡,在特定提示詞下可以幾乎原樣還原。

Britannica持有的版權內容規模並不小。它旗下近10萬篇在線文章、百科條目和詞典釋義,覆蓋從科學、歷史到文學的幾乎所有主要知識領域。

這些內容由專業編輯和學科專家歷經數十年積累而成。在維基百科崛起之前,這套體系就是人類知識的標準索引。

而OpenAI一直在灰色地帶遊走。

查一次資料,也算侵權

此前,各方一直在爭論:用我的內容訓練模型,算不算版權侵權?

Britannica這次的指控更進一步。他的指控分三層:

第一層,未經許可抓取近10萬篇內容用於大模型訓練。

第二層,ChatGPT在生成回答時,輸出了Britannica內容的完整或部分逐字複製,這構成直接侵權。

第三層,也是最具爭議的一層。OpenAI在ChatGPT的RAG工作流中使用了Britannica文章。

RAG是ChatGPT掃描外部數據庫、獲取最新信息的機制。

Britannica認為,即便它的內容沒有進入訓練集,但只要它出現在實時檢索裡,就被視為侵權。

這種想法前所未有,它意味著不管是靜態訓練還是動態檢索,只要調用了版權內容而未獲授權,都要負責。

更有意思的是第四條指控:Lanham Act商標侵權。

Britannica認為,ChatGPT有時會產生幻覺,然後把這些錯誤內容歸因於Britannica,製造Britannica生成了錯誤信息的假象。

這不單單是侵權,Britannica的品牌信譽都要替OpenAI的錯誤買單。

這危及公眾持續獲取高質量、可信賴在線信息的能力。

同一個問題:德國說侵權,英國說沒有

這是整場官司的核心,也是目前全球司法界爭論最激烈的問題之一。

德國慕尼黑法院在GEMA訴OpenAI案中認定:GPT-4和GPT-4o的模型權重中確實嵌入了歌詞,這構成版權意義上的複製,可以提出禁令和賠償請求。

模型權重是AI在訓練過程中學到的數值參數,它決定了模型會輸出什麼。在慕尼黑法院看來,只要能從這些參數裡還原出作品就足以構成侵權。

英國高等法院在Getty Images訴Stability AI案中得出了完全相反的結論。

AI模型不是侵權副本,因為其權重既不包含也不復製版權作品本身,只存儲了學習到的規律性模式。

美國這邊,Anthropic曾在版權訴訟中說服聯邦法官William Alsup,認定將內容用作訓練數據具有足夠的轉化性,可以適用合理使用原則。

但Alsup同時認定Anthropic非法下載了數百萬本書而非付費獲取,這一點構成違法,最終促成了1.5億美元的集體和解。

Britannica這起案子在紐約提起,適用的是美國聯邦法律。

但目前沒有確立性先例明確說明用版權內容訓練LLM究竟算不算侵權,每起案子的結果,在相當程度上仍取決於具體法官的認定邏輯。

如果法院認可實時檢索也構成侵權,那對整個AI行業的影響將遠超任何一起訓練數據糾紛。

告Perplexity,是在給OpenAI熱身

這不是Britannica第一次出手。

早在2025年9月,Britannica就對Perplexity提起了類似的版權和商標侵權訴訟,該案目前仍在審理中。

Perplexity是一家以RAG為核心產品邏輯的AI搜索公司。

Britannica選擇先打Perplexity,像是在做法律預演,摸清RAG侵權這條路的可行性,然後再把同樣的邏輯複製到OpenAI身上。

與此同時,行業裡的版權戰場正在全面升溫。

《紐約時報》、Ziff Davis、美國和加拿大十餘家報紙先後起訴OpenAI。

The Intercept和US News & World Report也已加入原告隊伍。

截至目前,專門追蹤AI版權訴訟的網站ChatGPT Is Eating The World統計顯示,這已是針對OpenAI的第63起版權訴訟。

OpenAI對TechCrunch的置評請求未作回應。

被維基百科打殘,又被ChatGPT截流

退一步看,有些事情比賠償金額更值得關注。

Britannica創立於1768年,是英文世界裡持續時間最長的百科全書品牌,它代表的是幾百年人類知識整理傳統的某種象徵。

當這樣一個機構出現在AI版權訴訟的原告席上,傳遞的信號很清晰:知識權威這個概念,正在試圖通過法律手段,重新在AI生態裡劃定自己的邊界。

Britannica曾是紙質百科時代的絕對權威,被維基百科打得幾乎找不到存在感。

後來轉型為數字訂閱平臺,靠著內容的可信度和專業性重新站穩腳跟。

如今,ChatGPT的出現讓它又一次面臨被替代的威脅——但不是被更好的百科替代,而是被一個用它內容訓練出來、但不分給它一分錢的模型替代。

訴狀裡有一句話:

ChatGPT通過生成替代出版商內容的回覆,搶走了出版商的流量。

這是商業模式的正面衝突。RAG這條指控是否能站住腳,目前沒有人能給出確定答案。

但如果法院哪天認可了這個邏輯,整個行業的實時檢索管道都需要重新談授權。

所有以聯網搜索+AI生成為核心產品的公司,都要面臨這樣的問題。

250年的老牌百科,正在用一份訴狀,嘗試給AI的邊界劃一條線。

這條線最終畫在哪裡?2026年,大概會有答案。

參考資料

https://www.reuters.com/legal/litigation/encyclopedia-britannica-sues-openai-over-ai-training-2026-03-16/

https://techcrunch.com/2026/03/16/merriam-webster-openai-encyclopedia-brittanica-lawsuit/

https://the-decoder.com/encyclopedia-britannica-sues-openai-for-training-on-nearly-100000-articles-without-permission/

https://gizmodo.com/encyclopedia-britannica-sues-openai-over-ai-training-data-2000607770

https://news.bloomberglaw.com/ip-law/britannica-merriam-webster-accuse-openai-of-copying-their-works

https://chatgptiseatingtheworld.com/wp-content/uploads/2026/03/Encyclopedia_Britannica_Inc-v-OpenAI-COMPLAINT-Mar-13-2026.pdf

https://www.aol.com/articles/encyclopedia-britannica-sues-openai-over-141324436.html

本文來自微信公眾號“新智元”,作者:傾傾,36氪經授權發佈。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論