Làn sóng đầu tiên của các công cụ AI tạo ra chính phần lớn được đào tạo trên dữ liệu “ có sẵn công khai ”—về cơ bản, bất kỳ thứ gì và mọi thứ có thể được thu thập từ internet. Hiện nay, các nguồn dữ liệu đào tạo ngày càng hạn chế quyền truy cập và thúc đẩy các thỏa thuận cấp phép . Với việc săn lùng các nguồn dữ liệu bổ sung ngày càng tăng, các công ty khởi nghiệp cấp phép mới đã xuất hiện để duy trì nguồn tài liệu nguồn.
Dataset Providers Alliance , một nhóm thương mại được thành lập vào mùa hè này, muốn làm cho ngành công nghiệp AI trở nên chuẩn hóa và công bằng hơn. Để đạt được mục đích đó, họ vừa công bố một bài báo lập trường nêu rõ lập trường của mình về các vấn đề chính liên quan đến AI. Liên minh này bao gồm bảy công ty cấp phép AI, bao gồm công ty quản lý bản quyền âm nhạc Rightsify , thị trường ảnh chứng khoán Nhật Bản Pixta và công ty khởi nghiệp cấp phép bản quyền AI tạo sinh Calliope Networks . (Ít nhất năm thành viên mới sẽ được công bố vào mùa thu.)
DPA ủng hộ hệ thống lựa chọn tham gia, nghĩa là dữ liệu chỉ có thể được sử dụng sau khi người sáng tạo và chủ sở hữu quyền đồng ý rõ ràng. Điều này thể hiện sự thay đổi đáng kể so với cách thức hoạt động của hầu hết các công ty AI lớn. Một số đã phát triển hệ thống lựa chọn không tham gia của riêng họ, khiến chủ sở hữu dữ liệu phải chịu gánh nặng trong việc rút tác phẩm của họ theo từng trường hợp cụ thể. Những công ty khác không cung cấp bất kỳ lựa chọn không tham gia nào.
DPA, vốn mong đợi các thành viên tuân thủ quy tắc lựa chọn tham gia của mình, coi con đường đó là con đường đạo đức hơn nhiều. “Các nghệ sĩ và người sáng tạo nên tham gia”, Alex Bestall, CEO của Rightsify và công ty cấp phép dữ liệu âm nhạc Global Copyright Exchange , người đi đầu trong nỗ lực này, cho biết. Bestall coi việc lựa chọn tham gia là một cách tiếp cận thực dụng cũng như đạo đức: “Bán các tập dữ liệu có sẵn công khai là một cách để bị kiện và không có uy tín”.
Ed Newton-Rex, cựu giám đốc điều hành AI hiện đang điều hành tổ chức phi lợi nhuận về AI có đạo đức Fairly Trained , gọi việc từ chối tham gia là "về cơ bản là không công bằng với những người sáng tạo", đồng thời nói thêm rằng một số người thậm chí có thể không biết khi nào việc từ chối tham gia được đưa ra. "Thật đặc biệt tốt khi thấy DPA kêu gọi tham gia", ông nói.
Shayne Longpre, người đứng đầu Sáng kiến Nguồn gốc Dữ liệu , một nhóm tình nguyện kiểm toán các tập dữ liệu AI, coi những nỗ lực của DPA trong việc cung cấp dữ liệu một cách có đạo đức là đáng ngưỡng mộ, mặc dù ông nghi ngờ tiêu chuẩn lựa chọn tham gia có thể khó bán, vì khối lượng giao dịch dữ liệu khổng lồ mà hầu hết các mô hình AI hiện đại yêu cầu. Ông nói: "Theo chế độ này, bạn sẽ bị thiếu dữ liệu hoặc bạn sẽ phải trả rất nhiều tiền". "Có thể chỉ một số ít người chơi, các công ty công nghệ lớn, có đủ khả năng cấp phép cho tất cả dữ liệu đó".
Trong bài báo, DPA phản đối việc cấp phép theo yêu cầu của chính phủ, thay vào đó, lập luận ủng hộ cách tiếp cận “thị trường tự do” trong đó người khởi tạo dữ liệu và các công ty AI đàm phán trực tiếp. Các hướng dẫn khác chi tiết hơn. Ví dụ, liên minh đề xuất năm cấu trúc bồi thường tiềm năng để đảm bảo người sáng tạo và chủ sở hữu quyền được trả tiền phù hợp cho dữ liệu của họ. Chúng bao gồm mô hình dựa trên đăng ký, “cấp phép dựa trên mức sử dụng” (trong đó phí được trả cho mỗi lần sử dụng) và cấp phép “dựa trên kết quả”, trong đó tiền bản quyền được gắn với lợi nhuận. Bestall cho biết “Những điều này có thể áp dụng cho mọi thứ, từ âm nhạc đến hình ảnh đến phim và TV hoặc sách”.
“Việc tìm cách chuẩn hóa các cấu trúc bồi thường có khả năng là một điều tốt”, Bill Rosenblatt, một nhà công nghệ nghiên cứu về bản quyền, cho biết. “Liên minh các nhà cung cấp bộ dữ liệu đang ở vị thế rất tốt để đưa ra các điều khoản”. Theo Rosenblatt, các công ty AI cần có động cơ để áp dụng cấp phép. Trong khi các lý do pháp lý (sợ kiện tụng, quy định bắt buộc cấp phép ) là những lý do rõ ràng nhất, Rosenblatt cho biết điều quan trọng nữa là những bên cấp phép tiềm năng phải làm cho quy trình này trở nên dễ dàng và thuận tiện nhất có thể. Ông lập luận rằng việc chuẩn hóa các mô hình thanh toán giúp tạo điều kiện thuận lợi cho việc áp dụng rộng rãi.
DPA cũng ủng hộ một số cách sử dụng dữ liệu tổng hợp—dữ liệu được tạo ra bởi AI—với lập luận rằng nó sẽ “chiếm phần lớn” dữ liệu đào tạo trong tương lai gần. “Một số người nắm giữ bản quyền có thể sẽ không thích điều đó”, Bestall nói. “Nhưng điều đó là không thể tránh khỏi”. Liên minh ủng hộ “cấp phép phù hợp” cho thông tin đào tạo trước được sử dụng để tạo dữ liệu tổng hợp và minh bạch về cách thức tạo ra dữ liệu tổng hợp. Liên minh cũng kêu gọi “đánh giá” thường xuyên các mô hình dữ liệu tổng hợp để “giảm thiểu sự thiên vị và các vấn đề đạo đức”.
Tất nhiên, DPA cần phải có được sự tham gia của những người có quyền lực trong ngành, điều này nói thì dễ hơn làm. Newton-Rex cho biết: "Có những tiêu chuẩn mới nổi về cách cấp phép dữ liệu một cách có đạo đức". "Nhưng không đủ công ty AI áp dụng chúng".
Tuy nhiên, sự tồn tại của DPA chứng minh rằng những ngày tháng AI Wild West dường như sắp kết thúc. "Mọi thứ đang thay đổi quá nhanh", Bestall nói.