AI 공개 프로젝트의 새로운 연구에서 OpenAI가 대규모 언어 모델(LLM)을 훈련하는 데 사용하는 데이터에 대한 의문을 제기했습니다. 연구 결과, OpenAI의 GPT-4o 모델은 O'Reilly Media 도서의 유료 및 저작권 데이터에 대해 "강한 인식"을 보여줍니다.
기술자 팀 오라일리와 경제학자 일란 슈트라우스가 이끄는 AI 공개 프로젝트는 기업 및 기술적 투명성 개선을 옹호함으로써 AI 상업화의 잠재적으로 유해한 사회적 영향을 해결하는 것을 목표로 합니다. 프로젝트의 작업 논문은 AI의 공개 부족을 강조하며, 금융 공개 기준과 견고한 증권 시장 형성에서의 역할과 유사점을 그립니다.
이 연구는 LLM이 동의 없이 저작권이 있는 데이터로 훈련되었는지 조사하기 위해 합법적으로 획득한 34권의 O'Reilly Media 저작권 도서 데이터셋을 사용했습니다. 연구자들은 DE-COP 멤버십 추론 공격 방법을 적용하여 모델이 인간이 작성한 O'Reilly 텍스트와 패러프레이즈된 LLM 버전을 구별할 수 있는지 확인했습니다.
보고서의 주요 발견은 다음과 같습니다:
- GPT-4o는 유료 O'Reilly 도서 콘텐츠에 대해 82%의 AUROC 점수로 "강한 인식"을 보여줍니다. 반면 OpenAI의 이전 모델인 GPT-3.5 터보는 동일한 수준의 인식을 보이지 않습니다(AUROC 점수가 50% 약간 위)
- GPT-4o는 공개적으로 접근 가능한 샘플과 비교하여 비공개 O'Reilly 도서 콘텐츠에 대해 더 강한 인식을 보입니다(각각 82% 및 64% AUROC 점수)
- GPT-3.5 터보는 비공개 샘플보다 공개적으로 접근 가능한 O'Reilly 도서 샘플에 대해 더 큰 상대적 인식을 보입니다(64% 대 54% AUROC 점수)
- 더 작은 모델인 GPT-4o 미니는 테스트 시 공개 또는 비공개 O'Reilly Media 콘텐츠에 대한 지식을 전혀 보이지 않았습니다(AUROC 약 50%)
연구자들은 테스트된 모든 O'Reilly 도서가 LibGen 데이터베이스에서 발견되었기 때문에 접근 위반이 발생했을 수 있다고 제안합니다. 또한 최신 LLM이 인간이 작성한 언어와 기계가 생성한 언어를 구별하는 능력이 향상되었지만, 이는 데이터 분류 방법의 능력을 줄이지 않는다고 인정합니다.
이 연구는 시간에 따른 언어 변화로 인한 "시간적 편향" 가능성을 강조합니다. 이를 고려하기 위해 연구자들은 동일한 기간의 데이터로 훈련된 두 모델(GPT-4o 및 GPT-4o 미니)을 테스트했습니다.
보고서는 증거가 OpenAI와 O'Reilly Media 도서에 특정되어 있지만, 저작권이 있는 데이터 사용에 대한 체계적인 문제를 반영할 가능성이 높다고 지적합니다. 보상되지 않은 훈련 데이터 사용은 전문 콘텐츠 제작을 위한 수익원이 감소함에 따라 인터넷 콘텐츠의 품질과 다양성 저하로 이어질 수 있다고 주장합니다.
AI 공개 프로젝트는 AI 기업의 모델 사전 훈련 프로세스에 대한 더 강력한 책임성의 필요성을 강조합니다. 데이터 출처 공개에 대한 기업 투명성 개선을 장려하는 책임 조항이 훈련 데이터 라이선스 및 보상을 위한 상업 시장을 촉진하는 중요한 단계가 될 수 있다고 제안합니다.
EU AI 법의 공개 요구 사항은 적절히 지정되고 집행된다면 긍정적인 공개 표준 주기를 촉발할 수 있습니다. IP 소유자가 자신의 작업이 모델 훈련에 사용되었을 때 알 수 있도록 보장하는 것은 콘텐츠 제작자 데이터를 위한 AI 시장을 설립하는 데 중요한 단계로 간주됩니다.
AI 기업이 모델 훈련을 위해 데이터를 불법적으로 획득할 수 있다는 증거에도 불구하고, AI 모델 개발자가 라이선스 계약을 통해 콘텐츠에 대해 지불하는 시장이 형성되고 있습니다. Defined.ai와 같은 기업들은 데이터 제공자의 동의를 얻고 개인 식별 정보를 제거하면서 훈련 데이터 구매를 용이하게 합니다.
보고서는 34권의 독점적인 O'Reilly Media 도서를 사용하여 OpenAI가 GPT-4o를 비공개, 저작권이 있는 데이터로 훈련했을 가능성이 높다는 경험적 증거를 제공한다고 결론짓습니다.
(이미지: 세르게이 토크마코프)
관련 기사: Anthropic, Claude의 'AI 생물학'에 대한 통찰 제공

AI 및 빅데이터에 대해 업계 리더들로부터 더 자세히 알고 싶으신가요? 암스테르담, 캘리포니아, 런던에서 열리는 AI 및 빅데이터 엑스포를 확인해보세요. 이 포괄적인 행사는 지능형 자동화 컨퍼런스, BlockX, 디지털 변환 주간, 사이버 보안 및 클라우드 엑스포 등 다른 주요 행사와 공동 개최됩니다.
TechForge에서 제공하는 다른 예정된 엔터프라이즈 기술 이벤트 및 웹 세미나를 여기에서 확인해보세요.
이 게시물은 AI 뉴스에 처음 게재되었습니다.




