OpenAI lại gặp rắc rối; Bách khoa toàn thư Britannica đang kiện ChatGPT: ngay cả việc tìm kiếm thông tin cũng bị coi là vi phạm bản quyền.

avatar
36kr
03-23
Bài viết này được dịch máy
Xem bản gốc

Ngày 16 tháng 3, Bách khoa toàn thư Britannica, phối hợp với Merriam-Webster, khởi kiện OpenAI, đưa ra bốn cáo buộc chính chống lại ChatGPT. Đừng nghĩ Britannica vô tâm; ChatGPT trước đây đã bịa đặt thông tin sai lệch nhưng lại gán nguồn gốc sai cho Britannica. OpenAI vẫn chưa phản hồi.

OpenAI lại bị khởi kiện.

Ngày 16 tháng 3, Encyclopædia Britannica, cùng với công ty con Merriam-Webster, đã đệ đơn kiện OpenAI.

Lý do là vì họ cho rằng ChatGPT đã vi phạm bản quyền trên quy mô lớn.

Britannica đã chuẩn bị kỹ lưỡng hơn tất cả các nguyên đơn: họ tập trung vào việc thu thập dữ liệu huấn luyện, đầu ra bộ nhớ mô hình và truy xuất RAG theo thời gian thực, đồng thời bổ sung thêm cáo buộc vi phạm nhãn hiệu theo Đạo luật Lannham.

Đây là lần đầu tiên trong lịch sử các vụ kiện bản quyền trí tuệ nhân tạo mà có người cố gắng phá vỡ toàn bộ Chuỗi tạo ra trí tuệ nhân tạo.

GPT-4 có thể đọc thuộc lòng toàn bộ bách khoa toàn thư Britannica từng chữ một.

Theo TechCrunch, Britannica đã trực tiếp nêu tên GPT-4, cho rằng nó đã ghi nhớ lượng lớn nội dung có bản quyền và có thể tạo ra các bản sao gần như chính xác từng từ theo yêu cầu.

Nó không giống nhau, không gần gũi, mà là bản sao của từng nhân vật.

Điều này có cơ sở kỹ thuật nhất định. Đội ngũ nghiên cứu từ Stanford và Yale đã tiến hành các thí nghiệm rút văn bản gốc của "Harry Potter" từ các mô hình lớn phổ biến, với tỷ lệ rút cao nhất đạt 96%.

Nói cách khác, một phần đáng kể nội dung trong dữ liệu huấn luyện được lưu trữ trong tỷ trọng của mô hình, và chúng có thể được tái tạo gần như hoàn hảo dưới các điều kiện cụ thể.

Britannica sở hữu một lượng lớn nội dung có bản quyền. Gần 100.000 bài viết trực tuyến, mục từ bách khoa toàn thư và định nghĩa từ điển của nó bao trùm hầu hết các lĩnh vực kiến ​​thức chính, từ khoa học và lịch sử đến văn học.

Nội dung này được biên soạn qua nhiều thập kỷ bởi các biên tập viên chuyên nghiệp và các chuyên gia trong lĩnh vực. Trước khi Wikipedia ra đời, hệ thống này là chỉ mục tiêu chuẩn về kiến ​​thức của nhân loại.

OpenAI đã hoạt động trong một khu vực pháp lý không rõ ràng.

Tra cứu thông tin có bị coi là vi phạm bản quyền không?

Trước đây, đã có một cuộc tranh luận về việc liệu việc sử dụng nội dung của tôi để huấn luyện mô hình có cấu thành hành vi vi phạm bản quyền hay không.

Lần, những cáo buộc của Britannica còn đi xa hơn. Những cáo buộc này được chia thành ba phần:

Bước đầu tiên bao gồm việc thu thập gần 100.000 bài báo mà không được phép sử dụng để huấn luyện một mô hình lớn.

Thứ hai , ChatGPT sao chép nguyên văn toàn bộ hoặc một phần nội dung của Britannica khi tạo câu trả lời, điều này cấu thành hành vi vi phạm bản quyền trực tiếp.

Lớp thứ ba , và cũng là lớp gây tranh cãi nhất, là việc OpenAI sử dụng bài báo của Britannica trong quy trình ChatGPT RAG của mình.

RAG là cơ chế mà ChatGPT sử dụng để quét các cơ sở dữ liệu bên ngoài nhằm thu thập thông tin mới nhất.

Britannica cho rằng rằng ngay cả khi nội dung đó không được đưa vào tập dữ liệu huấn luyện, nó vẫn bị coi là vi phạm bản quyền miễn là nó xuất hiện trong kết quả truy xuất thời gian thực.

Ý tưởng này chưa từng có tiền lệ; nó có nghĩa là dù là huấn luyện tĩnh hay truy xuất động, bất kỳ ai sử dụng nội dung có bản quyền mà không được phép đều sẽ phải chịu trách nhiệm.

Điều thú vị hơn nữa là cáo buộc thứ tư: vi phạm nhãn hiệu liên quan đến Đạo luật Lanham.

Britannica cho rằng rằng ChatGPT đôi khi tạo ra ảo giác và sau đó gán những nội dung sai lệch này cho Britannica, tạo ra ảo tưởng rằng Britannica đã tạo ra thông tin sai lệch đó.

Đây không chỉ là hành vi vi phạm bản quyền; uy tín thương hiệu của Britannica còn phải trả giá cho sai lầm của OpenAI.

Điều này đe dọa khả năng tiếp cận liên tục các thông tin trực tuyến chất lượng cao và đáng tin cậy của công chúng.

Vấn đề vẫn vậy: Đức cáo buộc vi phạm bản quyền, Anh phủ nhận.

Đây là trọng tâm của toàn bộ vụ kiện và là một trong những vấn đề gây tranh cãi gay gắt nhất trong cộng đồng pháp lý toàn cầu.

Trong vụ kiện GEMA kiện OpenAI, tòa án Munich ở Đức đã phán quyết rằng lời bài hát thực sự được nhúng trong tỷ trọng mô hình của GPT-4 và GPT-4o, điều này cấu thành hành vi sao chép có bản quyền, và do đó cần phải có lệnh cấm và bồi thường thiệt hại.

Tỷ trọng của mô hình là các tham số số học được trí tuệ nhân tạo (AI) học được trong quá trình huấn luyện, quyết định đầu ra của mô hình. Theo quan điểm của tòa án Munich, khả năng tái tạo tác phẩm từ các tham số này là đủ để cấu thành hành vi vi phạm bản quyền.

Tòa án tối cao Anh đã đưa ra kết luận hoàn toàn trái ngược trong vụ kiện Getty Images kiện Stability AI.

Các mô hình AI không phải là bản sao vi phạm bản quyền vì tỷ trọng của chúng không chứa cũng không sao chép tác phẩm có bản quyền; chúng chỉ lưu trữ các mẫu đã học được.

Tại Hoa Kỳ, Anthropic đã thuyết phục Thẩm phán Liên bang William Alsup trong một vụ kiện bản quyền rằng việc sử dụng nội dung đó làm dữ liệu đào tạo đã đủ tính chuyển đổi để được coi là sử dụng hợp lý.

Tuy nhiên, Alsup cũng xác định rằng Anthropic đã tải xuống bất hợp pháp hàng triệu cuốn sách thay vì trả tiền, điều này cấu thành hành vi vi phạm pháp luật và cuối cùng dẫn đến một thỏa thuận dàn xếp vụ kiện tập thể trị giá 150 triệu đô la .

Vụ kiện của Britannica được đệ trình tại New York và thuộc phạm vi điều chỉnh của luật liên bang Hoa Kỳ.

Tuy nhiên, hiện tại chưa có tiền lệ nào được thiết lập rõ ràng quy định liệu việc đào tạo chương trình thạc sĩ luật (LLM) với nội dung có bản quyền có cấu thành hành vi vi phạm bản quyền hay không. Kết quả của mỗi vụ án vẫn phụ thuộc phần lớn vào lập luận cụ thể của thẩm phán.

Nếu tòa án công nhận rằng việc truy xuất dữ liệu theo thời gian thực cũng cấu thành hành vi vi phạm bản quyền, thì tác động đến toàn bộ ngành công nghiệp trí tuệ nhân tạo sẽ vượt xa bất kỳ tranh chấp nào dữ liệu huấn luyện.

Vụ kiện chống lại Perplexity chỉ là màn khởi động cho OpenAI.

Đây không phải là lần đầu tiên Britannica có động thái như vậy.

Vào tháng 9 năm 2025, Britannica đã đệ đơn kiện tương tự về hành vi vi phạm bản quyền và thương hiệu chống lại Perplexity, vụ kiện này hiện vẫn đang chờ giải quyết.

Perplexity là một công ty tìm kiếm bằng trí tuệ nhân tạo, với logic sản phẩm cốt lõi xoay quanh RAG (Rapid Aggregation - Xác định, Trả lời, Tính toán ...

Việc Britannica quyết định nhắm mục tiêu vào Perplexity trước tiên giống như một cuộc diễn tập pháp lý, tìm hiểu tính khả thi của hành vi vi phạm bản quyền của RAG, trước khi áp dụng cùng một logic đó cho OpenAI.

Đồng thời, cuộc chiến bản quyền trong ngành đang ngày càng gay gắt trên diện rộng.

Tờ New York Times, Ziff Davis và hơn mười tờ báo khác ở Hoa Kỳ và Canada khởi kiện OpenAI.

Tờ The Intercept và US News & World Report cũng đã gia nhập hàng ngũ các nguyên đơn.

Tính đến ChatGPT Is Eating The World, một trang web chuyên theo dõi các vụ kiện bản quyền trí tuệ nhân tạo, đây là vụ kiện bản quyền thứ 63 chống lại OpenAI.

OpenAI không phản hồi yêu cầu bình luận từ TechCrunch.

Nó đã bị Wikipedia làm tê liệt và sau đó bị ChatGPT chặn lại.

Nhìn từ một góc độ khác, có một số điều đáng được quan tâm hơn là số tiền bồi thường.

Được thành lập vào năm 1768, Britannica là thương hiệu bách khoa toàn thư lâu đời nhất trong thế giới nói tiếng Anh, đại diện cho biểu tượng của truyền thống hàng thế kỷ trong việc tổ chức tri thức nhân loại.

Khi một tổ chức như vậy xuất hiện với tư cách nguyên đơn trong một vụ kiện bản quyền AI, tín hiệu rất rõ ràng: khái niệm về quyền sở hữu tri thức đang cố gắng định nghĩa lại ranh giới của nó trong hệ sinh thái AI thông qua các biện pháp pháp lý.

Britannica từng là nguồn tham khảo tuyệt đối trong thời đại bách khoa toàn thư in ấn, nhưng giờ đây đã bị Wikipedia lấn át đến mức gần như biến mất khỏi tầm nhìn công chúng.

Sau đó, nó chuyển đổi thành một nền tảng đăng ký kỹ thuật số và lấy lại vị thế bằng cách dựa vào uy tín và tính chuyên nghiệp của nội dung mà nó cung cấp.

Giờ đây, sự xuất hiện của ChatGPT một lần nữa đặt nó trước nguy cơ bị thay thế—nhưng không phải bởi một bách khoa toàn thư tốt hơn, mà bởi một mô hình được đào tạo dựa trên nội dung của nó nhưng không được trả một xu nào.

Đơn khiếu nại có nội dung như sau:

ChatGPT đánh cắp lưu lượng truy cập từ các nhà xuất bản bằng cách tạo ra các phản hồi thay thế nội dung của nhà xuất bản.

Đây là sự xung đột trực tiếp giữa các mô hình kinh doanh. Liệu cáo buộc của RAG có đúng sự thật hay không vẫn còn phải chờ xem.

Tuy nhiên, nếu tòa án chấp nhận lập luận này, toàn bộ hệ thống tìm kiếm thời gian thực của ngành sẽ cần phải đàm phán lại về quyền hạn của mình.

Tất cả các công ty có sản phẩm cốt lõi là tìm kiếm trực tuyến và nội dung do AI tạo ra đều phải đối mặt với vấn đề này.

Một bộ bách khoa toàn thư 250 năm tuổi đang cố gắng vạch ra ranh giới của trí tuệ nhân tạo thông qua một vụ kiện.

Ranh giới này cuối cùng sẽ được vạch ra ở đâu? Có lẽ chúng ta sẽ có câu trả lời vào năm 2026.

Tham khảo

https://www.reuters.com/legal/litigation/encyclopedia-britannica-sues-openai-over-ai-training-2026-03-16/

https://techcrunch.com/2026/03/16/merriam-webster-openai-encyclopedia-brittanica-lawsuit/

https://the-decoder.com/encyclopedia-britannica-sues-openai-for-training-on-nearly-100000-articles-without-permission/

https://gizmodo.com/encyclopedia-britannica-sues-openai-over-ai-training-data-2000607770

https://news.bloomberglaw.com/ip-law/britannica-merriam-webster-accuse-openai-of-copying-their-works

https://chatgptiseatingtheworld.com/wp-content/uploads/2026/03/Encyclopedia_Britannica_Inc-v-OpenAI-COMPLAINT-Mar-13-2026.pdf

https://www.aol.com/articles/encyclopedia-britannica-sues-openai-over-141324436.html

Bài viết này được đăng tải từ tài khoản chính thức WeChat "New Intelligence" , tác giả: Qingqing, và được xuất bản với sự cho phép của 36Kr.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận