OpenAI 搞错了热门育儿论坛

avatar
WIRED
09-16
本文为机器翻译
展示原文

想想任何可以想像到的与抚养孩子模糊相关的话题,Mumsnet 上可能会有一篇关于它的帖子,Mumsnet 是一个长期运行、非常受欢迎、引发争议的英国母亲育儿论坛。在其二十多年的历史中,Mumsnet 累积了由其高度参与的用户群撰写的超过 60 亿字的档案,主题涉及肮脏的尿布和懒惰的丈夫等主题。 (更不用说对海豚的疯狂咆哮了。)

今年春天,在Mumsnet 发现人工智慧公司正在窃取其数据后,该公司表示决定尝试与该领域的一些主要参与者达成许可协议,其中包括OpenAI,在Mumsnet 首次与OpenAI 达成合作协议后,OpenAI 最初表示愿意探索一项安排。在与 OpenAI 的谈判破裂后,Mumsnet 在 7 月宣布打算采取法律行动

根据 Mumsnet 报导,在这些早期对话中,一位 OpenAI 策略合作伙伴负责人告诉该公司,这家人工智慧巨头对超过 10 亿字的资料集感兴趣。 Mumsnet 的领导阶层很兴奋。 「我们花了相当长的时间与他们反复交流,」Mumsnet 创始人兼执行长贾斯汀·罗伯茨 (Justine Roberts) 告诉《连线》杂志。 “我们必须签署一些保密协议,他们想要我们提供很多信息。”

然而,根据《连线》杂志查看的一封电子邮件往来,一个多月后,OpenAI 告诉 Mumsnet,该公司当时不再有兴趣合作。罗伯茨说,当被问及原因时,OpenAI 工作人员表示 Mumsnet 的 60 亿字资料集太小,无法保证许可安排。他们还指出,OpenAI 主要对公众无法在线上存取的大型数据集感兴趣,并且希望数据集能够捕获广泛的人类经验。

当《连线》杂志要求其置评时,该公司也表达了同样的观点。 OpenAI 发言人 Kayla Wood 表示:“我们寻求针对反映人类社会的大规模数据集建立合作伙伴关系,而不是仅仅针对公开资讯寻求合作伙伴关系。” “我们支持出版商和创作者的选择,为他们提供各种方式来表达他们对网站和内容如何在搜寻结果中与人工智慧配合使用的偏好,并训练生成式人工智慧基础模型。”

罗伯茨说她对这种事态发展感到「恼怒」。她回忆说,OpenAI 起初似乎对 Mumsnet 特别感兴趣,因为该平台的内容大量由女性编写。 「这是非常高品质的对话数据,」她说。 “90% 的对话都是女性,这很不寻常。”

去年,OpenAI 与媒体代理商和平台达成了各种数据授权协议,与Vox MediaAtlanticAXEL SpringerTime和 WIRED 母公司Condé Nast以及充满用户的平台签订了协议生成类似 Reddit 的内容。 (据说 WordPress.com 和 Tumblr 的所有者 Automattic 今年早些时候也正在进行许可谈判。)由于这些交易的细节尚未披露,因此尚不清楚它们各自的语料库规模有多大。

当《连线》询问其将考虑商业许可的资料集大小时,OpenAI 拒绝透露该资讯。但发言人凯拉·伍德强调,该公司与出版商的合作「重点是在我们的产品中展示他们的内容并为他们带来流量」。

音乐版权管理公司 Rightify 的执行长 Alex Bestall 对于 OpenAI 希望专注于更大的鱼并不感到惊讶。 「新创公司要灵活得多,但大型实验室考虑任何交易的数据量最少,」他说。

现在,OpenAI 面临著在英国的首例版权侵权诉讼。除了版权主张之外,Mumsnet 还声称违反了其使用条款,并指控侵犯了资料库权利,这意味著未经所有者同意就提取了资料库的全部或大部分内容。

Mumsnet 在 7 月发出了第一封信,宣布正在考虑采取法律行动。最近,它收到了 OpenAI 的回复,其中包含一系列问题。 “他们并没有否认他们已经刮过的事实,”她说。截至目前,Mumsnet 计划继续走诉讼之路;该公司尚未确定是否会向英国高等法院或专门的智慧财产权法院提起诉讼。 (OpenAI 向《连线》承认,它已收到并回应了 Mumsnet 的投诉,但没有对 Mumsnet 的法律主张发表评论。)

同时,Mumsnet 正在积极寻求与其他人工智慧公司的许可安排。罗伯茨表示,它正在与Google以及为促进数据许可而出现的中介新创公司进行对话。 (Google没有回应《连线》杂志确认这些会谈的请求。)

「我非常担心生态系统,这些大型法学硕士被允许在小型出版商周围建立他们的模型,然后人们就没有理由去访问这些网站,」罗伯茨说。 “我们需要达成某种令人满意的安排,让人们的工作得到补偿。”

由于 Mumsnet 的内容主要是用户生成的,《连线》杂志询问,在达成交易时是否考虑为用户提供任何类型的支付系统。罗伯茨表示,目前还没有计划,但如果人工智慧的数据许可未来变得非常有利可图,她会考虑这项计划。

她说,根据 Mumsnet 宣布正在调查法律行动后收到的评论,用户总体上了解该公司许可其数据的目的。 「我们非常担心人工智慧存在性别偏见,」她说。 “值得一提的是,它是根据经过验证的女性声音进行训练的。”

罗伯茨对 Mumsnet 潜在的法律诉讼将如何展开持乐观态度。 “我们认为我们有很好的机会,”她说。在美国,已经有数十起针对人工智慧公司的版权侵权案件。在许多正在进行的案件中,人工智慧公司都在为自己辩护,称他们的行为受到「合理使用」原则的保护,该原则允许在某些情况下侵犯版权。英国也有类似的概念,称之为“公平交易”,但其范围明显受到限制。

无论结果如何,罗伯茨很高兴她的平台采取了立场。 「这可能更多是关于事物的原理,而不是其他任何事情,」她说。

来源
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
收藏
评论