Quỹ Wikimedia vừa công bố một loạt các quan hệ đối tác mới với các công ty trí tuệ nhân tạo, cho phép họ sử dụng nội dung của Wikipedia để đào tạo và vận hành các mô hình AI của mình, nhằm củng cố tính bền vững lâu dài của tổ chức phi lợi nhuận này trong bối cảnh hành vi trực tuyến đang thay đổi.
Các thỏa thuận được ký kết thông qua Wikimedia Enterprise, sản phẩm thương mại của tổ chức được thiết kế dành cho các đơn vị tái sử dụng và phân phối nội dung quy mô lớn từ các dự án Wikimedia. Các thành viên mới tham gia bao gồm Ecosia, Microsoft, Mistral AI, Perplexity, Pleias và ProRata. Họ gia nhập cùng các đối tác hiện có như Amazon, Google và Meta.
"Trong kỷ nguyên trí tuệ nhân tạo, Wikipedia và kho tàng kiến thức do con người tạo ra và biên tập chưa bao giờ có giá trị hơn thế", tổ chức này cho biết trong một tuyên bố .
“Kiến thức của nó cung cấp sức mạnh cho các chatbot AI tạo sinh, công cụ tìm kiếm, trợ lý giọng nói và nhiều hơn nữa. Wikipedia là một trong những tập dữ liệu chất lượng cao nhất được sử dụng để huấn luyện các Mô hình Ngôn ngữ Lớn.”
Thông báo này được đưa ra như một phần của bản cập nhật nhân dịp kỷ niệm 25 năm thành lập Wikipedia.
Bách khoa toàn thư trực tuyến này nằm trong top 10 trang web được truy cập nhiều nhất toàn cầu và là trang duy nhất trong nhóm đó được điều hành bởi một tổ chức phi lợi nhuận. Theo tổ chức này, hơn 65 triệu bài viết của nó, được xuất bản bằng hơn 300 ngôn ngữ, được xem gần 15 tỷ lần mỗi tháng.
Tuy nhiên, họ đã cảnh báo rằng mô hình lưu lượng truy cập đang thay đổi. Vào tháng 10, họ cho biết số lượt truy cập của người dùng vào Wikipedia đã giảm 8% so với cùng kỳ năm ngoái, nguyên nhân là do người dùng dựa vào các bản tóm tắt do AI tạo ra thay vì truy cập trực tiếp vào trang web. Gần 60% các tìm kiếm trên Google hiện nay kết thúc mà không cần nhấp chuột, với các kết quả tìm kiếm trên trang thường được cung cấp bởi nội dung từ Wikipedia.
Các thỏa thuận này diễn ra trong bối cảnh cuộc tranh luận rộng rãi hơn về cách các công ty AI thu thập dữ liệu huấn luyện. Các mô hình ngôn ngữ quy mô lớn thường được huấn luyện trên một lượng lớn tài liệu trực tuyến, một thực tiễn đã vấp phải sự chỉ trích từ các tác giả, nhà xuất bản và các chủ sở hữu quyền khác, những người cho rằng việc sử dụng các tác phẩm có bản quyền mà không được phép là vi phạm bản quyền.
Trong số đó, Reddit đang vướng vào một số vụ kiện với các công ty trí tuệ nhân tạo về việc sử dụng nội dung của mình để huấn luyện mô hình, mặc dù họ đã đạt được thỏa thuận cấp phép với các công ty như Google.
Hôm thứ Năm, hai nhà xuất bản sách lớn là Hachette Book Group và Cengage Group đã đệ đơn xin tham gia một vụ kiện tập thể hiện có chống lại Google, cáo buộc công ty này thực hiện "hành vi vi phạm bản quyền lịch sử" để xây dựng nền tảng trí tuệ nhân tạo Gemini . Vụ kiện cáo buộc Google sao chép sách mà không có giấy phép hợp lệ trong quá trình huấn luyện trí tuệ nhân tạo của mình. Vụ kiện này ban đầu được một nhóm tác giả đệ trình vào năm 2023.
OpenAI đang phải đối mặt với một vụ kiện tương tự từ các nguyên đơn, trong đó có cả tác giả của "Game of Thrones", George RR Martin.
Các công ty giải trí cũng đang gây sức ép lên vấn đề này. Giữa tháng 12, Disney đã gửi thư yêu cầu Google ngừng vi phạm bản quyền, ngay cả khi Disney đã ký một thỏa thuận cấp phép riêng với OpenAI bao gồm hàng trăm nhân vật cho video do AI tạo ra. Disney đã gửi các thông báo tương tự cho các công ty AI khác và đang tham gia vào các vụ kiện cùng với các hãng phim lớn chống lại công ty tạo hình ảnh Midjourney.
Cũng trong tháng đó, một liên minh gồm các nhà văn, diễn viên và chuyên gia công nghệ đã thành lập một nhóm ngành mới nhằm thúc đẩy các tiêu chuẩn có thể thực thi để quản lý cách thức đào tạo và sử dụng trí tuệ nhân tạo trong lĩnh vực giải trí. Hơn 500 nhân vật nổi tiếng đã ủng hộ sáng kiến này, bao gồm Natalie Portman, Cate Blanchett, Ben Affleck, Guillermo del Toro và Taika Waititi.
Ủy ban châu Âu cũng đã mở một cuộc điều tra chống độc quyền chính thức về việc liệu Google có vi phạm các quy tắc cạnh tranh của EU bằng cách sử dụng nội dung của các nhà xuất bản và YouTube để cung cấp năng lượng cho các dịch vụ trí tuệ nhân tạo của mình mà không có sự bồi thường hoặc sự đồng ý công bằng hay không.
Liệu các chủ sở hữu bản quyền cuối cùng có tìm được cách đòi lại quyền lợi hay không vẫn chưa chắc chắn. Các thẩm phán liên bang ở Mỹ gần đây đã đưa ra những phán quyết có phần có lợi cho Meta và Anthropic, cho rằng việc họ sử dụng sách có bản quyền để huấn luyện các mô hình AI là sử dụng hợp lý, đồng thời chỉ trích các công ty này vì duy trì các thư viện tác phẩm vi phạm bản quyền vĩnh viễn.




