OpenAI đã làm hỏng diễn đàn nuôi dạy con cái siêu phổ biến

avatar
WIRED
09-16
Bài viết này được dịch máy
Xem bản gốc

Hãy nghĩ đến bất kỳ chủ đề nào liên quan mơ hồ đến việc nuôi dạy con cái mà bạn có thể tưởng tượng ra, và có lẽ sẽ có một bài đăng về chủ đề đó trên Mumsnet, diễn đàn nuôi dạy con cái lâu đời, cực kỳ phổ biến và gây tranh cãi có trụ sở tại Anh dành cho các bà mẹ. Trong hơn hai thập kỷ lịch sử của mình, Mumsnet đã tích lũy được một kho lưu trữ hơn sáu tỷ từ do nhóm người dùng cực kỳ tích cực của mình viết, về các chủ đề như tã bẩn và những ông chồng lười biếng. (Chưa kể đến một lời chỉ trích điên rồ về cá heo .)

Mùa xuân năm nay, sau khi Mumsnet phát hiện ra rằng các công ty AI đang thu thập dữ liệu của mình, công ty cho biết họ đã quyết định thử ký kết các thỏa thuận cấp phép với một số công ty lớn trong lĩnh vực này, bao gồm OpenAI, công ty ban đầu bày tỏ mong muốn tìm hiểu thỏa thuận sau khi Mumsnet lần đầu liên hệ. Sau khi các cuộc đàm phán với OpenAI đổ vỡ, Mumsnet đã tuyên bố vào tháng 7 rằng họ có ý định theo đuổi hành động pháp lý .

Theo Mumsnet, trong những cuộc trò chuyện ban đầu đó, một người đứng đầu quan hệ đối tác chiến lược của OpenAI đã nói với công ty rằng các tập dữ liệu trên 1 tỷ từ được gã khổng lồ AI này quan tâm. Ban lãnh đạo của Mumsnet rất phấn khích. "Chúng tôi đã dành khá nhiều thời gian để trao đổi qua lại với họ", Justine Roberts, nhà sáng lập kiêm giám đốc điều hành của Mumsnet, chia sẻ với WIRED. "Chúng tôi đã phải ký một số NDA và họ muốn chúng tôi cung cấp rất nhiều thông tin".

Tuy nhiên, hơn một tháng sau, OpenAI đã nói với Mumsnet rằng công ty không còn hứng thú hợp tác vào thời điểm đó nữa, theo một trao đổi email mà WIRED đã xem xét. Khi được hỏi lý do, nhân viên của OpenAI mô tả bộ dữ liệu 6 tỷ từ của Mumsnet là quá nhỏ để đảm bảo một thỏa thuận cấp phép, Roberts nói. Họ cũng lưu ý rằng OpenAI chủ yếu quan tâm đến các bộ dữ liệu lớn mà công chúng không thể truy cập trực tuyến và rằng họ muốn các bộ dữ liệu ghi lại trải nghiệm rộng rãi của con người.

Quan điểm này được công ty phản ánh khi được WIRED yêu cầu bình luận. Người phát ngôn của OpenAI Kayla Wood cho biết: "Chúng tôi theo đuổi quan hệ đối tác cho các tập dữ liệu quy mô lớn phản ánh xã hội loài người và không theo đuổi quan hệ đối tác chỉ vì thông tin công khai". "Chúng tôi hỗ trợ sự lựa chọn của nhà xuất bản và người sáng tạo, cung cấp cho họ các cách để thể hiện sở thích của họ về cách các trang web và nội dung của họ hoạt động với AI trong kết quả tìm kiếm và đào tạo các mô hình nền tảng AI tạo sinh".

Roberts cho biết cô "bực mình" vì sự phát triển này. Cô nhớ lại rằng OpenAI lúc đầu có vẻ đặc biệt quan tâm đến Mumsnet vì nền tảng này có nhiều nội dung do phụ nữ viết. "Đó là dữ liệu đàm thoại chất lượng rất cao", cô nói. "90 phần trăm là cuộc trò chuyện của phụ nữ, điều này khá bất thường".

OpenAI đã đạt được nhiều thỏa thuận cấp phép dữ liệu với các phương tiện truyền thông và nền tảng trong năm qua, ký kết thỏa thuận với Vox Media , the Atlantic , AXEL Springer , Time và công ty mẹ của WIRED là Condé Nast , cũng như các nền tảng chứa đầy nội dung do người dùng tạo ra như Reddit. (Automattic, chủ sở hữu của WordPress.com và Tumblr, cũng được cho là đang trong các cuộc đàm phán cấp phép vào đầu năm nay.) Vì thông tin chi tiết về các thỏa thuận đó chưa được tiết lộ nên không rõ quy mô của các tập dữ liệu tương ứng của họ là bao nhiêu.

Khi WIRED hỏi về quy mô của các tập dữ liệu mà họ sẽ xem xét để cấp phép thương mại, OpenAI đã từ chối chia sẻ thông tin đó. Nhưng người phát ngôn Kayla Wood nhấn mạnh rằng quan hệ đối tác của công ty với các nhà xuất bản "tập trung vào việc hiển thị nội dung của họ trong các sản phẩm của chúng tôi và thu hút lưu lượng truy cập đến họ".

Alex Bestall, CEO của công ty quản lý bản quyền âm nhạc Rightsify, không ngạc nhiên nếu OpenAI muốn tập trung vào những đối tượng lớn hơn. "Các công ty khởi nghiệp linh hoạt hơn nhiều, nhưng các phòng thí nghiệm lớn có khối lượng dữ liệu tối thiểu để xem xét bất kỳ thỏa thuận nào", ông nói.

Hiện tại, OpenAI đang phải đối mặt với viễn cảnh kiện tụng vi phạm bản quyền đầu tiên tại Vương quốc Anh. Ngoài các khiếu nại về bản quyền, Mumsnet còn khiếu nại vi phạm các điều khoản sử dụng và cáo buộc vi phạm quyền cơ sở dữ liệu, nghĩa là trích xuất toàn bộ hoặc một phần lớn cơ sở dữ liệu mà không có sự đồng ý của chủ sở hữu.

Mumsnet đã gửi lá thư đầu tiên thông báo rằng họ đang cân nhắc hành động pháp lý vào tháng 7. Gần đây hơn, họ đã nhận được phản hồi từ OpenAI kèm theo một danh sách các câu hỏi. "Họ không phủ nhận việc họ đã thu thập dữ liệu", cô nói. Cho đến nay, Mumsnet có kế hoạch tiếp tục theo đuổi vụ kiện; họ vẫn chưa xác định liệu họ sẽ đệ đơn kiện lên Tòa án tối cao Vương quốc Anh hay tòa án chuyên trách Sở hữu trí tuệ (IP) . (OpenAI thừa nhận với WIRED rằng họ đã nhận và phản hồi khiếu nại của Mumsnet, nhưng không đưa ra bình luận về các khiếu nại pháp lý của Mumsnet.)

Trong khi đó, Mumsnet đang tích cực theo đuổi các thỏa thuận cấp phép với các công ty AI khác. Roberts cho biết họ đang đàm phán với Google cũng như các công ty khởi nghiệp trung gian đã xuất hiện để tạo điều kiện cấp phép dữ liệu. (Google đã không trả lời yêu cầu của WIRED để xác nhận các cuộc đàm phán này.)

“Tôi khá lo lắng về hệ sinh thái, nơi những LLM lớn này được phép diễu hành khắp các nhà xuất bản nhỏ để xây dựng mô hình của họ, và sau đó mọi người ít có lý do hơn để truy cập vào các trang web,” Roberts nói. “Chúng ta cần đi đến một số loại thỏa thuận thỏa đáng, nơi mọi người được đền bù cho công việc của họ.”

Vì nội dung của Mumsnet phần lớn do người dùng tạo ra, WIRED đã hỏi liệu họ có cân nhắc bất kỳ loại hệ thống thanh toán nào cho người dùng khi họ đạt được thỏa thuận hay không. Roberts cho biết hiện tại không có kế hoạch nào, nhưng cô ấy sẽ cân nhắc nếu việc cấp phép dữ liệu cho AI trở nên cực kỳ sinh lợi trong tương lai.

Bà cho biết, dựa trên các bình luận bà nhận được sau thông báo Mumsnet đang xem xét hành động pháp lý, người dùng nhìn chung hiểu mục đích của công ty trong việc cấp phép dữ liệu của họ. "Chúng tôi khá lo ngại về việc AI có định kiến ​​giới tính", bà nói. "Có điều gì đó cần nói về việc nó được đào tạo dựa trên tiếng nói đã được xác minh của phụ nữ".

Roberts lạc quan về cách hành động pháp lý tiềm năng của Mumsnet sẽ diễn ra. "Chúng tôi nghĩ rằng chúng tôi có cơ hội tốt", cô nói. Tại Hoa Kỳ, đã có hàng chục vụ kiện vi phạm bản quyền được đưa ra chống lại các công ty AI. Trong nhiều vụ kiện đang diễn ra, các công ty AI đang tự bảo vệ mình bằng cách lập luận rằng hành động của họ được bảo vệ bởi học thuyết "sử dụng hợp lý", cho phép vi phạm bản quyền trong một số trường hợp nhất định. Vương quốc Anh có một khái niệm tương tự, được gọi là "xử lý hợp lý", nhưng phạm vi của nó bị hạn chế hơn đáng kể.

Bất kể kết quả ra sao, Roberts vẫn vui mừng vì nền tảng của cô đã có lập trường. "Có lẽ đây là vấn đề về nguyên tắc của vấn đề hơn bất kỳ điều gì khác", cô nói.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận