Các vụ kiện pháp lý không phải lúc nào cũng là một cuộc tình yêu, nhưng cuộc chiến bản quyền giữa The New York Times và cả OpenAI và Microsoft đang trở nên đặc biệt gay gắt. Tuần này, Times cáo buộc rằng các kỹ sư của OpenAI đã vô tình xóa dữ liệu mà nhóm của tờ báo đã dành hơn 150 giờ để trích xuất làm bằng chứng tiềm năng.
OpenAI đã có thể khôi phục lại phần lớn dữ liệu, nhưng nhóm luật sư của Times cho biết vẫn thiếu tên tệp gốc và cấu trúc thư mục. Theo tuyên bố nộp lên tòa án vào thứ Tư bởi Jennifer B. Maisel, một luật sư của tờ báo, điều này có nghĩa là thông tin "không thể được sử dụng để xác định nơi các bài báo được sao chép của nguyên đơn" có thể đã được đưa vào các mô hình trí tuệ nhân tạo của OpenAI.
"Chúng tôi không đồng ý với các nhận định được đưa ra và sẽ nộp phản hồi của chúng tôi sớm," người phát ngôn của OpenAI, Jason Deutrom, cho biết với WIRED trong một tuyên bố. The New York Times từ chối bình luận.
Times đã nộp đơn kiện bản quyền chống lại OpenAI và Microsoft vào năm ngoái, cáo buộc rằng các công ty đã sử dụng bất hợp pháp các bài báo của họ để huấn luyện các công cụ trí tuệ nhân tạo như ChatGPT. Vụ việc này là một trong nhiều cuộc tranh chấp pháp lý đang diễn ra giữa các công ty AI và nhà xuất bản, bao gồm một vụ kiện tương tự được nộp bởi Daily News do một số luật sư tương tự xử lý.
Vụ kiện của Times hiện đang trong giai đoạn khám phá, có nghĩa là cả hai bên đang chuyển giao các tài liệu và thông tin được yêu cầu có thể trở thành bằng chứng. Như một phần của quá trình này, OpenAI đã được yêu cầu bởi tòa án phải cho Times xem dữ liệu huấn luyện của họ, đây là một việc lớn - OpenAI chưa bao giờ công khai tiết lộ chính xác thông tin nào đã được sử dụng để xây dựng các mô hình AI của họ. Để tiết lộ, OpenAI đã tạo ra những gì mà tòa án gọi là "hộp cát" của hai "máy ảo" mà các luật sư của Times có thể lọc qua. Trong tuyên bố của mình, Maisel cho biết các kỹ sư của OpenAI đã "xóa" dữ liệu được tổ chức bởi nhóm của Times trên một trong những máy này.
Theo hồ sơ của Maisel, OpenAI đã thừa nhận rằng thông tin đã bị xóa và cố gắng giải quyết vấn đề ngay sau khi được cảnh báo về điều này vào đầu tháng này. Nhưng khi các luật sư của tờ báo nhìn vào dữ liệu "được khôi phục", nó quá lộn xộn, buộc họ "phải tái tạo công việc của họ từ đầu bằng cách sử dụng nhiều giờ làm việc và thời gian xử lý máy tính đáng kể," một số luật sư khác của Times cho biết trong một bức thư nộp lên thẩm phán cùng ngày với tuyên bố của Maisel.
Các luật sư lưu ý rằng họ "không có lý do gì để tin" rằng việc xóa là "có chủ ý." Trong các email được nộp làm tài liệu kèm theo thư của Maisel, luật sư của OpenAI, Tom Gorman, đề cập đến việc xóa dữ liệu là một "lỗi kỹ thuật."
Đây không phải là tranh chấp đầu tiên của loại này trong vụ kiện. Trong suốt năm qua, Times và các công ty công nghệ đã tranh cãi về bên nào nên chịu trách nhiệm sắp xếp dữ liệu huấn luyện. Trong thư gần đây nhất của họ, các luật sư của tờ báo khẳng định lại rằng OpenAI ở vị trí tốt hơn để thực hiện điều này. "Quá trình này không diễn ra suôn sẻ," Steven Lieberman, một luật sư khác của Times, viết trong một hồ sơ đầu tháng này, trong đó ông khẳng định rằng "các vấn đề kỹ thuật nghiêm trọng và lặp đi lặp lại đã khiến việc tìm kiếm hiệu quả và hiệu quả trên các tập dữ liệu huấn luyện của OpenAI để xác định phạm vi vi phạm bản quyền của OpenAI là không thể."
Times cũng gần đây đẩy OpenAI và Microsoft cung cấp các tin nhắn Slack, tin nhắn văn bản và cuộc trò chuyện trên mạng xã hội giữa một số nhân vật chủ chốt của OpenAI, bao gồm cả nhân viên cũ như Ilya Slutskever và các giám đốc điều hành hiện tại như Brad Lightstone. Tuần trước, The New York Times đã nộp một bức thư khác yêu cầu tòa án buộc Microsoft và OpenAI chia sẻ thêm tài liệu. Một tài liệu đính kèm email cho thấy cựu Giám đốc Công nghệ Trưởng của OpenAI, Mira Murati, đã từ chối "cung cấp quyền truy cập" vào điện thoại di động cá nhân của bà.
Trong khi đó, Microsoft đã yêu cầu The New York Times cung cấp bất kỳ tài liệu nào liên quan đến việc sử dụng trí tuệ nhân tạo tạo ra nội dung của chính họ. Trong một hồ sơ, họ đặc biệt đề cập đến cây bút công nghệ nổi tiếng Kevin Roose (được gọi là "Kevin Rouse" trong các hồ sơ tòa án). Microsoft cho rằng thông tin về cách Times sử dụng các công cụ AI có thể liên quan đến việc bảo vệ của họ theo nhiều cách, bao gồm cả việc chỉ ra rằng chúng đã có tác động tích cực đến tờ báo. Roose từ chối bình luận.
Khi vụ việc này và những vụ khác như thế đang được xử lý trong tòa án, OpenAI đang theo đuổi các thỏa thuận cấp phép nội dung với các nhà xuất bản khác, bao gồm The Atlantic, Axel Springer, Vox Media và công ty mẹ của WIRED Condé Nast. Không có sự đồng thuận trong giới truyền thông và pháp lý về cách các vụ việc này sẽ diễn ra. Nhưng dù sao đi nữa, chúng sẽ thiết lập tiền lệ quan trọng về cách ngành công nghiệp AI có thể hoạt động tại Hoa Kỳ.