OpenAI 搞錯了熱門育兒論壇

avatar
WIRED
09-16
本文為機器翻譯
展示原文

想想任何可以想像到的與撫養孩子模糊相關的話題,Mumsnet 上可能會有一篇關於它的帖子,Mumsnet 是一個長期運行、非常受歡迎、引發爭議的英國母親育兒論壇。在其二十多年的歷史中,Mumsnet 累積了由其高度參與的用戶群撰寫的超過 60 億字的檔案,主題涉及骯髒的尿布和懶惰的丈夫等主題。 (更不用說對海豚的瘋狂咆哮了。)

今年春天,在Mumsnet 發現人工智慧公司正在竊取其數據後,該公司表示決定嘗試與該領域的一些主要參與者達成許可協議,其中包括OpenAI,在Mumsnet 首次與OpenAI 達成合作協議後,OpenAI 最初表示願意探索一項安排。在與 OpenAI 的談判破裂後,Mumsnet 在 7 月宣布打算採取法律行動

根據 Mumsnet 報導,在這些早期對話中,一位 OpenAI 策略合作夥伴負責人告訴該公司,這家人工智慧巨頭對超過 10 億字的資料集感興趣。 Mumsnet 的領導階層很興奮。 「我們花了相當長的時間與他們反覆交流,」Mumsnet 創始人兼執行長賈斯汀·羅伯茨 (Justine Roberts) 告訴《連線》雜誌。 “我們必須簽署一些保密協議,他們想要我們提供很多信息。”

然而,根據《連線》雜誌查看的一封電子郵件往來,一個多月後,OpenAI 告訴 Mumsnet,該公司當時不再有興趣合作。羅伯茨說,當被問及原因時,OpenAI 工作人員表示 Mumsnet 的 60 億字資料集太小,無法保證許可安排。他們還指出,OpenAI 主要對公眾無法在線上存取的大型數據集感興趣,並且希望數據集能夠捕獲廣泛的人類經驗。

當《連線》雜誌要求其置評時,該公司也表達了同樣的觀點。 OpenAI 發言人 Kayla Wood 表示:“我們尋求針對反映人類社會的大規模數據集建立合作夥伴關係,而不是僅僅針對公開資訊尋求合作夥伴關係。” “我們支持出版商和創作者的選擇,為他們提供各種方式來表達他們對網站和內容如何在搜尋結果中與人工智慧配合使用的偏好,並訓練生成式人工智慧基礎模型。”

羅伯茨說她對這種事態發展感到「惱怒」。她回憶說,OpenAI 起初似乎對 Mumsnet 特別感興趣,因為該平台的內容大量由女性編寫。 「這是非常高品質的對話數據,」她說。 “90% 的對話都是女性,這很不尋常。”

去年,OpenAI 與媒體代理商和平台達成了各種數據授權協議,與Vox MediaAtlanticAXEL SpringerTime和 WIRED 母公司Condé Nast以及充滿用戶的平台簽訂了協議生成類似 Reddit 的內容。 (據說 WordPress.com 和 Tumblr 的所有者 Automattic 今年早些時候也正在進行許可談判。)由於這些交易的細節尚未披露,因此尚不清楚它們各自的語料庫規模有多大。

當《連線》詢問其將考慮商業許可的資料集大小時,OpenAI 拒絕透露該資訊。但發言人凱拉·伍德強調,該公司與出版商的合作「重點是在我們的產品中展示他們的內容並為他們帶來流量」。

音樂版權管理公司 Rightify 的執行長 Alex Bestall 對於 OpenAI 希望專注於更大的魚並不感到驚訝。 「新創公司要靈活得多,但大型實驗室考慮任何交易的數據量最少,」他說。

現在,OpenAI 面臨著在英國的首例版權侵權訴訟。除了版權主張之外,Mumsnet 還聲稱違反了其使用條款,並指控侵犯了資料庫權利,這意味著未經所有者同意就提取了資料庫的全部或大部分內容。

Mumsnet 在 7 月發出了第一封信,宣布正在考慮採取法律行動。最近,它收到了 OpenAI 的回复,其中包含一系列問題。 “他們並沒有否認他們已經刮過的事實,”她說。截至目前,Mumsnet 計劃繼續走訴訟之路;該公司尚未確定是否會向英國高等法院或專門的智慧財產權法院提起訴訟。 (OpenAI 向《連線》承認,它已收到並回應了 Mumsnet 的投訴,但沒有對 Mumsnet 的法律主張發表評論。)

同時,Mumsnet 正在積極尋求與其他人工智慧公司的許可安排。羅伯茨表示,它正在與Google以及為促進數據許可而出現的中介新創公司進行對話。 (Google沒有回應《連線》雜誌確認這些會談的請求。)

「我非常擔心生態系統,這些大型法學碩士被允許在小型出版商周圍建立他們的模型,然後人們就沒有理由去訪問這些網站,」羅伯茨說。 “我們需要達成某種令人滿意的安排,讓人們的工作得到補償。”

由於 Mumsnet 的內容主要是用戶生成的,《連線》雜誌詢問,在達成交易時是否考慮為用戶提供任何類型的支付系統。羅伯茨表示,目前還沒有計劃,但如果人工智慧的數據許可未來變得非常有利可圖,她會考慮這項計劃。

她說,根據 Mumsnet 宣布正在調查法律行動後收到的評論,用戶總體上了解該公司許可其數據的目的。 「我們非常擔心人工智慧存在性別偏見,」她說。 “值得一提的是,它是根據經過驗證的女性聲音進行訓練的。”

羅伯茨對 Mumsnet 潛在的法律訴訟將如何展開持樂觀態度。 “我們認為我們有很好的機會,”她說。在美國,已經有數十起針對人工智慧公司的版權侵權案件。在許多正在進行的案件中,人工智慧公司都在為自己辯護,稱他們的行為受到「合理使用」原則的保護,該原則允許在某些情況下侵犯版權。英國也有類似的概念,稱之為“公平交易”,但其範圍明顯受到限制。

無論結果如何,羅伯茨很高興她的平台採取了立場。 「這可能更多是關於事物的原理,而不是其他任何事情,」她說。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論