研究称 OpenAI 使用受版权保护的数据来训练 AI 模型

04-02

本文为机器翻译

展示原文

来自人工智能披露项目的一项新研究对OpenAI用于训练大型语言模型（LLM）的数据提出了质疑。研究表明，OpenAI的GPT-4o模型对O'Reilly Media书籍中受版权保护且需付费的数据表现出"强烈的识别"。

由技术专家蒂姆·奥莱利和经济学家伊兰·斯特劳斯领导的人工智能披露项目旨在通过倡导改进企业和技术透明度来解决人工智能商业化可能带来的有害社会影响。该项目的工作文件强调了人工智能领域缺乏披露，并将其与金融披露标准及其在培育强大证券市场中的作用进行了对比。

该研究使用了合法获得的34本受版权保护的O'Reilly Media图书数据集，以调查OpenAI的大型语言模型是否在未经同意的情况下使用了受版权保护的数据。研究人员应用DE-COP成员推理攻击方法，以确定模型是否能区分人工撰写的O'Reilly文本和改写的大型语言模型版本。

报告的主要发现包括：

GPT-4o对受版权保护的O'Reilly图书内容显示出"强烈的识别"，AUROC得分为82%。相比之下，OpenAI早期的模型GPT-3.5 Turbo并未显示出相同的识别水平（AUROC得分仅略高于50%）

研究人员推测，可能通过LibGen数据库发生了访问违规，因为所有经测试的O'Reilly图书都可以在那里找到。他们还承认，新一代大型语言模型在区分人工撰写和机器生成语言方面的能力有所提高，这并不会降低数据分类方法的能力。

研究强调了结果中可能存在的"时间偏差"，这是由于语言随时间变化造成的。为了解决这一问题，研究人员测试了在同一时期数据上训练的两个模型（GPT-4o和GPT-4o Mini）。

报告指出，尽管证据特定于OpenAI和O'Reilly Media图书，但这可能反映了围绕使用受版权保护数据的系统性问题。报告认为，未经补偿的训练数据使用可能导致互联网内容质量和多样性下降，因为专业内容创作的收入来源会减少。

人工智能披露项目强调了对人工智能公司模型预训练过程的问责制需要更加严格。他们建议，能够激励改进企业在披露数据来源方面透明度的责任条款，可能是促进训练数据许可和补偿商业市场的重要一步。

欧盟人工智能法案的披露要求如果得到适当指定和执行，可能有助于触发积极的披露标准周期。确保知识产权持有者了解他们的作品何时被用于模型训练，被视为建立内容创作者数据人工智能市场的关键步骤。

尽管有证据表明人工智能公司可能非法获取模型训练数据，但一个新兴市场正在形成，人工智能模型开发者通过许可协议支付内容费用。像Defined.ai这样的公司促进训练数据的购买，获得数据提供者的同意并删除个人可识别信息。

报告最后总结，通过使用34本专有的O'Reilly Media图书，该研究提供了经验证据，表明OpenAI可能在未经授权的情况下使用非公开的受版权保护数据训练GPT-4o。

（图片由Sergei Tokmakov提供）

想要从行业领袖那里了解更多关于人工智能和大数据的信息吗？请查看在阿姆斯特丹、加利福尼亚和伦敦举办的人工智能与大数据博览会。这个全面的活动与其他领先活动同期举行，包括智能自动化大会、BlockX、数字转型周和网络安全与云博览会。

探索由TechForge提供支持的其他即将到来的企业技术活动和网络研讨会，请点击此处。