研究稱 OpenAI 使用受版權保護的數據來訓練 AI 模型

04-02

本文為機器翻譯

展示原文

來自人工智慧披露專案的一項新研究對OpenAI用於訓練大型語言模型（LLM）的資料提出了質疑。研究表明，OpenAI的GPT-4o模型對O'Reilly Media書籍中受版權保護且需付費的資料表現出"強烈的識別"。

由技術專家蒂姆·奧萊利和經濟學家伊蘭·斯特勞斯領導的人工智慧披露專案旨在透過倡導改進企業和技術透明度來解決人工智慧商業化可能帶來的有害社會影響。該專案的工作檔案強調了人工智慧領域缺乏披露，並將其與金融披露標準及其在培育強大證券市場中的作用進行了對比。

該研究使用了合法獲得的34本受版權保護的O'Reilly Media圖書資料集，以調查OpenAI的大型語言模型是否在未經同意的情況下使用了受版權保護的資料。研究人員應用DE-COP成員推理攻擊方法，以確定模型是否能區分人工撰寫的O'Reilly文字和改寫的大型語言模型版本。

報告的主要發現包括：

GPT-4o對受版權保護的O'Reilly圖書內容顯示出"強烈的識別"，AUROC得分為82%。相比之下，OpenAI早期的模型GPT-3.5 Turbo並未顯示出相同的識別水平（AUROC得分僅略高於50%）

研究人員推測，可能透過LibGen資料庫發生了訪問違規，因為所有經測試的O'Reilly圖書都可以在那裡找到。他們還承認，新一代大型語言模型在區分人工撰寫和機器生成語言方面的能力有所提高，這並不會降低資料分類方法的能力。

研究強調了結果中可能存在的"時間偏差"，這是由於語言隨時間變化造成的。為了解決這一問題，研究人員測試了在同一時期資料上訓練的兩個模型（GPT-4o和GPT-4o Mini）。

報告指出，儘管證據特定於OpenAI和O'Reilly Media圖書，但這可能反映了圍繞使用受版權保護資料的系統性問題。報告認為，未經補償的訓練資料使用可能導致網際網路內容質量和多樣性下降，因為專業內容創作的收入來源會減少。

人工智慧披露專案強調了對人工智慧公司模型預訓練過程的問責制需要更加嚴格。他們建議，能夠激勵改進企業在披露資料來源方面透明度的責任條款，可能是促進訓練資料許可和補償商業市場的重要一步。

歐盟人工智慧法案的披露要求如果得到適當指定和執行，可能有助於觸發積極的披露標準週期。確保智慧財產權持有者瞭解他們的作品何時被用於模型訓練，被視為建立內容創作者資料人工智慧市場的關鍵步驟。

儘管有證據表明人工智慧公司可能非法獲取模型訓練資料，但一個新興市場正在形成，人工智慧模型開發者透過許可協議支付內容費用。像Defined.ai這樣的公司促進訓練資料的購買，獲得資料提供者的同意並刪除個人可識別資訊。

報告最後總結，透過使用34本專有的O'Reilly Media圖書，該研究提供了經驗證據，表明OpenAI可能在未經授權的情況下使用非公開的受版權保護資料訓練GPT-4o。

（圖片由Sergei Tokmakov提供）

想要從行業領袖那裡瞭解更多關於人工智慧和大資料的資訊嗎？請檢視在阿姆斯特丹、加利福尼亞和倫敦舉辦的人工智慧與大資料博覽會。這個全面的活動與其他領先活動同期舉行，包括智慧自動化大會、BlockX、數字轉型周和網路安全與雲博覽會。

探索由TechForge提供支援的其他即將到來的企業技術活動和網路研討會，請點選此處。