各大网站纷纷拒绝苹果的 AI 数据抓取

08-29

本文为机器翻译

展示原文

苹果公司悄然推出了一款供出版商选择退出其人工智能训练的工具，不到三个月后，许多知名新闻媒体和社交平台都纷纷采用了该公司的产品。

《连线》杂志可以证实，Facebook、Instagram、Craigslist、Tumblr、《纽约时报》、《金融时报》、《大西洋月刊》、Vox Media、《今日美国》网络以及《连线》杂志的母公司康泰纳仕集团等众多组织都选择将自己的数据排除在苹果的人工智能训练之外。这种冷淡的反应反映了人们对数十年来一直在网络上搜寻的机器人爬虫的看法和使用发生了重大转变。现在，这些机器人在收集人工智能训练数据方面发挥着关键作用，它们已成为知识产权和网络未来的冲突地带。

这款新工具 Applebot-Extended 是 Apple 网页爬虫的扩展，它专门让网站所有者告诉 Apple 不要使用他们的数据进行 AI 训练。（Apple 在一篇解释其工作原理的博客文章中将此称为“控制数据使用”。）最初的 Applebot 于 2015 年发布，最初爬取互联网是为了支持 Apple 的搜索产品，如 Siri 和 Spotlight。不过，最近 Applebot 的用途已经扩大：它收集的数据还可用于训练 Apple 为其 AI 工作创建的基础模型。

Apple 发言人 Nadine Haija 表示，Applebot-Extended 是一种尊重出版商权利的方式。它实际上并没有阻止原始 Applebot 抓取网站（这会影响该网站内容在 Apple 搜索产品中的显示方式），而是阻止这些数据被用于训练 Apple 的大型语言模型和其他生成式 AI 项目。从本质上讲，它是一个定制另一个机器人工作方式的机器人。

出版商可以通过更新其网站上的文本文件（称为“机器人排除协议”，即 robots.txt）来阻止 Applebot-Extended。几十年来，该文件一直控制着机器人如何抓取网络数据——就像机器人本身一样，它现在成为 AI 如何训练的更大争论的中心。许多出版商已经更新了他们的 robots.txt 文件，以阻止来自 OpenAI、Anthropic 和其他主要 AI 参与者的 AI 机器人。

Robots.txt 允许网站所有者根据具体情况阻止或允许机器人。虽然法律没有要求机器人遵守文本文件的内容，但遵守规定是一项长期存在的规范。（这项规范有时会被忽视：今年早些时候，WIRED 的一项调查显示，人工智能初创公司 Perplexity 忽略了 robots.txt并偷偷抓取网站内容。）

Applebot-Extended 还很新，目前只有相对较少的网站屏蔽了它。总部位于加拿大安大略省的 AI 检测初创公司Originality AI上周分析了 1,000 个高流量网站的样本，发现大约 7% 的网站（主要是新闻和媒体）屏蔽了 Applebot-Extended。本周，AI 代理监督服务Dark Visitors对另一组 1,000 个高流量网站的样本进行了分析，发现大约 6% 的网站屏蔽了该机器人。综合来看，这些努力表明，绝大多数网站所有者要么不反对 Apple 的 AI 训练做法，要么根本不知道有屏蔽 Applebot-Extended 的选项。

在本周进行的另一项分析中，数据记者本·威尔士 (Ben Welsh) 发现，他调查的新闻网站中，超过四分之一（1,167 家主要以英语为主的美国出版物中的 294 家）屏蔽了 Applebot-Extended。相比之下，威尔士发现，他调查的新闻网站中有 53% 屏蔽了 OpenAI 的机器人。去年 9 月，谷歌推出了自己的 AI 专用机器人 Google-Extended；其中近 43% 的网站屏蔽了它，这表明 Applebot-Extended 可能仍未被发现。不过，正如威尔士告诉《连线》杂志的那样，自从他开始调查以来，这个数字一直在“逐渐上升”。

韦尔什正在进行一个项目，监测新闻机构如何处理主要的人工智能代理。“新闻出版商之间出现了一些分歧，他们是否想屏蔽这些机器人，”他说。“我不知道为什么每个新闻机构都会做出这样的决定。显然，我们可以读到许多新闻机构签订了许可协议，他们以允许机器人进入而获得报酬——也许这是一个因素。”

去年，《纽约时报》报道称，苹果正试图与出版商达成人工智能协议。此后，OpenAI 和 Perplexity 等竞争对手宣布与各种新闻媒体、社交平台和其他热门网站建立合作伙伴关系。“世界上许多最大的出版商显然都采取了战略方针，”Originality AI 创始人 Jon Gillham 表示。“我认为在某些情况下，其中涉及一种商业策略——比如，在达成合作协议之前保留数据。”

有一些证据支持吉勒姆的理论。例如，康泰纳仕网站曾经屏蔽过 OpenAI 的网络爬虫。在该公司上周宣布与 OpenAI 合作后，它解除了对 OpenAI 机器人的屏蔽。（康泰纳仕拒绝就此事发表评论。）与此同时，Buzzfeed 发言人朱莉安娜·克利夫顿告诉《连线》杂志，该公司目前屏蔽了 Applebot-Extended，并将其能识别出的每个 AI 网络爬虫机器人都列入了屏蔽名单，除非其所有者与该公司建立了合作关系（通常是付费的），该公司还拥有《赫芬顿邮报》。

由于 robots.txt 需要手动编辑，而且有如此多的新 AI 代理首次亮相，因此很难保持最新的阻止列表。“人们只是不知道该阻止什么，”Dark Visitors 创始人 Gavin King 说。Dark Visitors 提供一项免费增值服务，可自动更新客户网站的 robots.txt，King 表示，由于版权问题，出版商占其客户的很大一部分。

Robots.txt 可能看起来像是网站管理员的神秘领域——但鉴于它在人工智能时代对数字出版商的重要性，它现在已成为媒体高管的领域。《连线》获悉，两家主要媒体公司的首席执行官直接决定要屏蔽哪些机器人。

一些媒体明确指出，他们之所以屏蔽 AI 抓取工具，是因为他们目前没有与这些工具的所有者建立合作关系。Vox Media 的高级传播副总裁 Lauren Starke 表示：“我们在 Vox Media 的所有资产中屏蔽了 Applebot-Extended，就像我们在没有与另一方达成商业协议的情况下对许多其他 AI 抓取工具所做的那样。我们相信要保护我们已发表作品的价值。”

其他人只会用含糊但直白的措辞来描述他们的理由。“团队认为，目前，允许 Applebot-Extended 访问我们的内容没有任何价值，”Gannett 首席通讯官 Lark-Marie Antón 表示。

与此同时，起诉 OpenAI侵犯版权的《纽约时报》对 Applebot-Extended 及其同类产品的选择退出性质提出了批评。《纽约时报》外部通讯总监查理·施塔特兰德 (Charlie Stadtlander) 表示：“正如法律和《纽约时报》自己的服务条款所明确指出的那样，未经我们事先书面许可，禁止将我们的内容抓取或用于商业目的。”他指出，《纽约时报》会在发现未经授权的机器人时将其添加到其阻止列表中。“重要的是，无论是否采取技术阻止措施，版权法仍然适用。内容所有者不需要选择退出对受版权保护的材料的盗窃。”

目前尚不清楚苹果是否即将与出版商达成协议。但如果苹果真的达成协议，那么任何数据许可或共享协议的后果可能在公开宣布之前就已经在 robots.txt 文件中显现出来。

吉勒姆说：“我发现一件很有趣的事情：我们这个时代最重要的技术之一正在被开发，而对其训练数据的争夺战却在这个非常晦涩的文本文件上展开，而且公开地供我们所有人观看。”

来源

免责声明：以上内容仅为作者观点，不代表Followin的任何立场，不构成与Followin相关的任何投资建议。

喜欢