一个新组织正在努力使人工智能数据许可变得合乎道德

09-04

本文为机器翻译

展示原文

第一波主要的生成式人工智能工具主要是在“ 公开可用”的数据上进行训练的——基本上就是任何可以从互联网上抓取的数据。现在，训练数据来源越来越多地限制访问并推动许可协议。随着对更多数据源的搜索不断加剧，新的许可初创公司应运而生，以保持源材料的流动。

数据集提供商联盟 (Dataset Providers Alliance)是一个今年夏天成立的行业组织，旨在让人工智能行业更加标准化和公平。为此，该联盟刚刚发布了一份立场文件，概述了其在主要人工智能相关问题上的立场。该联盟由七家人工智能授权公司组成，包括音乐版权管理公司Rightsify 、日本图片库市场Pixta和生成式人工智能版权授权初创公司Calliope Networks 。（秋季将至少宣布五名新成员。）

DPA 提倡选择加入系统，这意味着只有在创作者和权利持有者明确同意后才能使用数据。这与大多数主要 AI 公司的运作方式截然不同。一些公司已经开发了自己的选择退出系统，该系统将责任放在数据所有者身上，要求他们根据具体情况撤回自己的作品。其他公司则根本不提供选择退出系统。

DPA 希望会员遵守其选择加入规则，认为这种方式更为道德。“艺术家和创作者应该加入，”Rightsify 首席执行官兼音乐数据授权公司Global Copyright Exchange领导了这项努力的 Alex Bestall 说。Bestall 认为选择加入是一种务实的方法，也是一种道德方法：“出售公开的数据集是一种被起诉且没有信誉的方法。”

前人工智能高管、现经营道德人工智能非营利组织Fairly Trained 的Ed Newton-Rex 称，选择退出“对创作者来说从根本上来说不公平”，并补充说，有些人甚至可能不知道何时提供选择退出。“看到 DPA 呼吁选择加入，这尤其令人欣慰，”他说。

数据来源倡议 (Data Provenance Initiative)是一个负责审核 AI 数据集的志愿者团体，其负责人 Shayne Longpre 认为 DPA 在合乎道德地获取数据方面所做的努力值得称赞，但他怀疑，由于大多数现代 AI 模型需要的数据量巨大，选择加入标准可能很难推广。“在这种制度下，你要么会缺乏数据，要么会付出高昂代价，”他说。“可能只有少数参与者，比如大型科技公司，才能负担得起所有这些数据的许可。”

在这篇论文中，DPA 反对政府强制许可，而是主张“自由市场”方式，让数据提供者和人工智能公司直接谈判。其他指导方针则更加细致。例如，该联盟提出了五种可能的补偿结构，以确保创作者和版权持有者因其数据而获得适当的报酬。这些包括基于订阅的模式、“基于使用的许可”（按使用次数付费）和“基于结果”的许可，其中版税与利润挂钩。“这些可以适用于从音乐到图像到电影、电视或书籍的任何事物，”Bestall 说。

研究版权的技术专家比尔·罗森布拉特 (Bill Rosenblatt) 表示：“寻求标准化的补偿结构可能是一件好事。数据集提供商联盟 (Dataset Providers Alliance) 处于非常有利的地位，可以制定相关条款。”在罗森布拉特看来，人工智能公司需要激励措施来采用许可。虽然法律原因（担心诉讼、强制许可的法规）是最明显的，但罗森布拉特表示，对于潜在的许可人来说，让流程尽可能简单方便也很重要。他认为，标准化支付模式有助于为主流采用铺平道路。

DPA 还认可了合成数据（由人工智能生成的数据）的一些用途，并认为合成数据将在不久的将来“成为”训练数据的“主要部分”。Bestall 说：“一些版权持有者可能不会喜欢这种做法。但这是不可避免的。”该联盟主张对用于创建合成数据的预训练信息进行“适当许可”，并保证合成数据的制作过程透明。它还呼吁定期“评估”合成数据模型，以“减轻偏见和道德问题”。

当然，DPA 需要让行业巨头参与进来，但这说起来容易做起来难。Newton-Rex 表示：“关于如何以合乎道德的方式许可数据，已经出现了一些标准。但采用这些标准的 AI 公司还不够多。”

然而，DPA 的存在本身就表明，人工智能的狂野西部时代似乎即将结束。“一切都变化得太快了，”Bestall 说。