一個新組織正在努力使人工智能數據許可變得合乎道德

avatar
WIRED
09-04
本文為機器翻譯
展示原文

第一波主要的生成式人工智能工具主要是在“ 公開可用”的數據上進行訓練的——基本上就是任何可以從互聯網上抓取的數據。現在,訓練數據來源越來越多地限制訪問並推動許可協議。隨著對更多數據源的搜索不斷加劇,新的許可初創公司應運而生,以保持源材料的流動。

數據集提供商聯盟 (Dataset Providers Alliance)是一個今年夏天成立的行業組織,旨在讓人工智能行業更加標準化和公平。為此,該聯盟剛剛發佈了一份立場文件,概述了其在主要人工智能相關問題上的立場。該聯盟由七家人工智能授權公司組成,包括音樂版權管理公司Rightsify 、日本圖片庫市場Pixta和生成式人工智能版權授權初創公司Calliope Networks 。(秋季將至少宣佈五名新成員。)

DPA 提倡選擇加入系統,這意味著只有在創作者和權利持有者明確同意後才能使用數據。這與大多數主要 AI 公司的運作方式截然不同。一些公司已經開發了自己的選擇退出系統,該系統將責任放在數據所有者身上,要求他們根據具體情況撤回自己的作品。其他公司則根本不提供選擇退出系統。

DPA 希望會員遵守其選擇加入規則,認為這種方式更為道德。“藝術家和創作者應該加入,”Rightsify 首席執行官兼音樂數據授權公司Global Copyright Exchange領導了這項努力的 Alex Bestall 說。Bestall 認為選擇加入是一種務實的方法,也是一種道德方法:“出售公開的數據集是一種被起訴且沒有信譽的方法。”

前人工智能高管、現經營道德人工智能非營利組織Fairly Trained 的Ed Newton-Rex 稱,選擇退出“對創作者來說從根本上來說不公平”,並補充說,有些人甚至可能不知道何時提供選擇退出。“看到 DPA 呼籲選擇加入,這尤其令人欣慰,”他說。

數據來源倡議 (Data Provenance Initiative)是一個負責審核 AI 數據集的志願者團體,其負責人 Shayne Longpre 認為 DPA 在合乎道德地獲取數據方面所做的努力值得稱讚,但他懷疑,由於大多數現代 AI 模型需要的數據量巨大,選擇加入標準可能很難推廣。“在這種制度下,你要麼會缺乏數據,要麼會付出高昂代價,”他說。“可能只有少數參與者,比如大型科技公司,才能負擔得起所有這些數據的許可。”

在這篇論文中,DPA 反對政府強制許可,而是主張“自由市場”方式,讓數據提供者和人工智能公司直接談判。其他指導方針則更加細緻。例如,該聯盟提出了五種可能的補償結構,以確保創作者和版權持有者因其數據而獲得適當的報酬。這些包括基於訂閱的模式、“基於使用的許可”(按使用次數付費)和“基於結果”的許可,其中版稅與利潤掛鉤。“這些可以適用於從音樂到圖像到電影、電視或書籍的任何事物,”Bestall 說。

研究版權的技術專家比爾·羅森布拉特 (Bill Rosenblatt) 表示:“尋求標準化的補償結構可能是一件好事。數據集提供商聯盟 (Dataset Providers Alliance) 處於非常有利的地位,可以制定相關條款。”在羅森布拉特看來,人工智能公司需要激勵措施來採用許可。雖然法律原因(擔心訴訟、 強制許可的法規)是最明顯的,但羅森布拉特表示,對於潛在的許可人來說,讓流程儘可能簡單方便也很重要。他認為,標準化支付模式有助於為主流採用鋪平道路。

DPA 還認可了合成數據(由人工智能生成的數據)的一些用途,並認為合成數據將在不久的將來“成為”訓練數據的“主要部分”。Bestall 說:“一些版權持有者可能不會喜歡這種做法。但這是不可避免的。”該聯盟主張對用於創建合成數據的預訓練信息進行“適當許可”,並保證合成數據的製作過程透明。它還呼籲定期“評估”合成數據模型,以“減輕偏見和道德問題”。

當然,DPA 需要讓行業巨頭參與進來,但這說起來容易做起來難。Newton-Rex 表示:“關於如何以合乎道德的方式許可數據,已經出現了一些標準。但採用這些標準的 AI 公司還不夠多。”

然而,DPA 的存在本身就表明,人工智能的狂野西部時代似乎即將結束。“一切都變化得太快了,”Bestall 說。

相关赛道:
來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
4
收藏
評論