第一波主要的生成式人工智能工具主要是在“ 公开可用”的数据上进行训练的——基本上就是任何可以从互联网上抓取的数据。现在,训练数据来源越来越多地限制访问并推动许可协议。随着对更多数据源的搜索不断加剧,新的许可初创公司应运而生,以保持源材料的流动。
数据集提供商联盟 (Dataset Providers Alliance)是一个今年夏天成立的行业组织,旨在让人工智能行业更加标准化和公平。为此,该联盟刚刚发布了一份立场文件,概述了其在主要人工智能相关问题上的立场。该联盟由七家人工智能授权公司组成,包括音乐版权管理公司Rightsify 、日本图片库市场Pixta和生成式人工智能版权授权初创公司Calliope Networks 。(秋季将至少宣布五名新成员。)
DPA 提倡选择加入系统,这意味着只有在创作者和权利持有者明确同意后才能使用数据。这与大多数主要 AI 公司的运作方式截然不同。一些公司已经开发了自己的选择退出系统,该系统将责任放在数据所有者身上,要求他们根据具体情况撤回自己的作品。其他公司则根本不提供选择退出系统。
DPA 希望会员遵守其选择加入规则,认为这种方式更为道德。“艺术家和创作者应该加入,”Rightsify 首席执行官兼音乐数据授权公司Global Copyright Exchange领导了这项努力的 Alex Bestall 说。Bestall 认为选择加入是一种务实的方法,也是一种道德方法:“出售公开的数据集是一种被起诉且没有信誉的方法。”
前人工智能高管、现经营道德人工智能非营利组织Fairly Trained 的Ed Newton-Rex 称,选择退出“对创作者来说从根本上来说不公平”,并补充说,有些人甚至可能不知道何时提供选择退出。“看到 DPA 呼吁选择加入,这尤其令人欣慰,”他说。
数据来源倡议 (Data Provenance Initiative)是一个负责审核 AI 数据集的志愿者团体,其负责人 Shayne Longpre 认为 DPA 在合乎道德地获取数据方面所做的努力值得称赞,但他怀疑,由于大多数现代 AI 模型需要的数据量巨大,选择加入标准可能很难推广。“在这种制度下,你要么会缺乏数据,要么会付出高昂代价,”他说。“可能只有少数参与者,比如大型科技公司,才能负担得起所有这些数据的许可。”
在这篇论文中,DPA 反对政府强制许可,而是主张“自由市场”方式,让数据提供者和人工智能公司直接谈判。其他指导方针则更加细致。例如,该联盟提出了五种可能的补偿结构,以确保创作者和版权持有者因其数据而获得适当的报酬。这些包括基于订阅的模式、“基于使用的许可”(按使用次数付费)和“基于结果”的许可,其中版税与利润挂钩。“这些可以适用于从音乐到图像到电影、电视或书籍的任何事物,”Bestall 说。
研究版权的技术专家比尔·罗森布拉特 (Bill Rosenblatt) 表示:“寻求标准化的补偿结构可能是一件好事。数据集提供商联盟 (Dataset Providers Alliance) 处于非常有利的地位,可以制定相关条款。”在罗森布拉特看来,人工智能公司需要激励措施来采用许可。虽然法律原因(担心诉讼、 强制许可的法规)是最明显的,但罗森布拉特表示,对于潜在的许可人来说,让流程尽可能简单方便也很重要。他认为,标准化支付模式有助于为主流采用铺平道路。
DPA 还认可了合成数据(由人工智能生成的数据)的一些用途,并认为合成数据将在不久的将来“成为”训练数据的“主要部分”。Bestall 说:“一些版权持有者可能不会喜欢这种做法。但这是不可避免的。”该联盟主张对用于创建合成数据的预训练信息进行“适当许可”,并保证合成数据的制作过程透明。它还呼吁定期“评估”合成数据模型,以“减轻偏见和道德问题”。
当然,DPA 需要让行业巨头参与进来,但这说起来容易做起来难。Newton-Rex 表示:“关于如何以合乎道德的方式许可数据,已经出现了一些标准。但采用这些标准的 AI 公司还不够多。”
然而,DPA 的存在本身就表明,人工智能的狂野西部时代似乎即将结束。“一切都变化得太快了,”Bestall 说。