蘋果公司悄然推出了一款供出版商選擇退出其人工智能訓練的工具,不到三個月後,許多知名新聞媒體和社交平臺都紛紛採用了該公司的產品。
《連線》雜誌可以證實,Facebook、Instagram、Craigslist、Tumblr、《紐約時報》、《金融時報》、《大西洋月刊》、Vox Media、《今日美國》網絡以及《連線》雜誌的母公司康泰納仕集團等眾多組織都選擇將自己的數據排除在蘋果的人工智能訓練之外。這種冷淡的反應反映了人們對數十年來一直在網絡上搜尋的機器人爬蟲的看法和使用發生了重大轉變。現在,這些機器人在收集人工智能訓練數據方面發揮著關鍵作用,它們已成為知識產權和網絡未來的衝突地帶。
這款新工具 Applebot-Extended 是 Apple 網頁爬蟲的擴展,它專門讓網站所有者告訴 Apple 不要使用他們的數據進行 AI 訓練。(Apple 在一篇解釋其工作原理的博客文章中將此稱為“控制數據使用”。)最初的 Applebot 於 2015 年發佈,最初爬取互聯網是為了支持 Apple 的搜索產品,如 Siri 和 Spotlight。不過,最近 Applebot 的用途已經擴大:它收集的數據還可用於訓練 Apple 為其 AI 工作創建的基礎模型。
Apple 發言人 Nadine Haija 表示,Applebot-Extended 是一種尊重出版商權利的方式。它實際上並沒有阻止原始 Applebot 抓取網站(這會影響該網站內容在 Apple 搜索產品中的顯示方式),而是阻止這些數據被用於訓練 Apple 的大型語言模型和其他生成式 AI 項目。從本質上講,它是一個定製另一個機器人工作方式的機器人。
出版商可以通過更新其網站上的文本文件(稱為“機器人排除協議”,即 robots.txt)來阻止 Applebot-Extended。幾十年來,該文件一直控制著機器人如何抓取網絡數據——就像機器人本身一樣,它現在成為 AI 如何訓練的更大爭論的中心。許多出版商已經更新了他們的 robots.txt 文件,以阻止來自 OpenAI、Anthropic 和其他主要 AI 參與者的 AI 機器人。
Robots.txt 允許網站所有者根據具體情況阻止或允許機器人。雖然法律沒有要求機器人遵守文本文件的內容,但遵守規定是一項長期存在的規範。(這項規範有時會被忽視:今年早些時候,WIRED 的一項調查顯示,人工智能初創公司 Perplexity 忽略了 robots.txt並偷偷抓取網站內容。)
Applebot-Extended 還很新,目前只有相對較少的網站屏蔽了它。總部位於加拿大安大略省的 AI 檢測初創公司Originality AI上週分析了 1,000 個高流量網站的樣本,發現大約 7% 的網站(主要是新聞和媒體)屏蔽了 Applebot-Extended。本週,AI 代理監督服務Dark Visitors對另一組 1,000 個高流量網站的樣本進行了分析,發現大約 6% 的網站屏蔽了該機器人。綜合來看,這些努力表明,絕大多數網站所有者要麼不反對 Apple 的 AI 訓練做法,要麼根本不知道有屏蔽 Applebot-Extended 的選項。
在本週進行的另一項分析中,數據記者本·威爾士 (Ben Welsh) 發現,他調查的新聞網站中,超過四分之一(1,167 家主要以英語為主的美國出版物中的 294 家)屏蔽了 Applebot-Extended。相比之下,威爾士發現,他調查的新聞網站中有 53% 屏蔽了 OpenAI 的機器人。去年 9 月,谷歌推出了自己的 AI 專用機器人 Google-Extended;其中近 43% 的網站屏蔽了它,這表明 Applebot-Extended 可能仍未被發現。不過,正如威爾士告訴《連線》雜誌的那樣,自從他開始調查以來,這個數字一直在“逐漸上升”。
韋爾什正在進行一個項目,監測新聞機構如何處理主要的人工智能代理。“新聞出版商之間出現了一些分歧,他們是否想屏蔽這些機器人,”他說。“我不知道為什麼每個新聞機構都會做出這樣的決定。顯然,我們可以讀到許多新聞機構簽訂了許可協議,他們以允許機器人進入而獲得報酬——也許這是一個因素。”
去年,《紐約時報》 報道稱,蘋果正試圖與出版商達成人工智能協議。此後,OpenAI 和 Perplexity 等競爭對手宣佈與各種新聞媒體、社交平臺和其他熱門網站建立合作伙伴關係。“世界上許多最大的出版商顯然都採取了戰略方針,”Originality AI 創始人 Jon Gillham 表示。“我認為在某些情況下,其中涉及一種商業策略——比如,在達成合作協議之前保留數據。”
有一些證據支持吉勒姆的理論。例如,康泰納仕網站曾經屏蔽過 OpenAI 的網絡爬蟲。在該公司上週宣佈與 OpenAI 合作後,它解除了對 OpenAI 機器人的屏蔽。(康泰納仕拒絕就此事發表評論。)與此同時,Buzzfeed 發言人朱莉安娜·克利夫頓告訴《連線》雜誌,該公司目前屏蔽了 Applebot-Extended,並將其能識別出的每個 AI 網絡爬蟲機器人都列入了屏蔽名單,除非其所有者與該公司建立了合作關係(通常是付費的),該公司還擁有《赫芬頓郵報》。
由於 robots.txt 需要手動編輯,而且有如此多的新 AI 代理首次亮相,因此很難保持最新的阻止列表。“人們只是不知道該阻止什麼,”Dark Visitors 創始人 Gavin King 說。Dark Visitors 提供一項免費增值服務,可自動更新客戶網站的 robots.txt,King 表示,由於版權問題,出版商佔其客戶的很大一部分。
Robots.txt 可能看起來像是網站管理員的神秘領域——但鑑於它在人工智能時代對數字出版商的重要性,它現在已成為媒體高管的領域。《連線》獲悉,兩家主要媒體公司的首席執行官直接決定要屏蔽哪些機器人。
一些媒體明確指出,他們之所以屏蔽 AI 抓取工具,是因為他們目前沒有與這些工具的所有者建立合作關係。Vox Media 的高級傳播副總裁 Lauren Starke 表示:“我們在 Vox Media 的所有資產中屏蔽了 Applebot-Extended,就像我們在沒有與另一方達成商業協議的情況下對許多其他 AI 抓取工具所做的那樣。我們相信要保護我們已發表作品的價值。”
其他人只會用含糊但直白的措辭來描述他們的理由。“團隊認為,目前,允許 Applebot-Extended 訪問我們的內容沒有任何價值,”Gannett 首席通訊官 Lark-Marie Antón 表示。
與此同時, 起訴 OpenAI侵犯版權的《紐約時報》對 Applebot-Extended 及其同類產品的選擇退出性質提出了批評。《紐約時報》外部通訊總監查理·施塔特蘭德 (Charlie Stadtlander) 表示:“正如法律和《紐約時報》自己的服務條款所明確指出的那樣,未經我們事先書面許可,禁止將我們的內容抓取或用於商業目的。”他指出,《紐約時報》會在發現未經授權的機器人時將其添加到其阻止列表中。“重要的是,無論是否採取技術阻止措施,版權法仍然適用。內容所有者不需要選擇退出對受版權保護的材料的盜竊。”
目前尚不清楚蘋果是否即將與出版商達成協議。但如果蘋果真的達成協議,那麼任何數據許可或共享協議的後果可能在公開宣佈之前就已經在 robots.txt 文件中顯現出來。
吉勒姆說:“我發現一件很有趣的事情:我們這個時代最重要的技術之一正在被開發,而對其訓練數據的爭奪戰卻在這個非常晦澀的文本文件上展開,而且公開地供我們所有人觀看。”