주요 생성 AI 도구의 첫 번째 물결은 대부분 " 공개적으로 사용 가능한 " 데이터, 즉 인터넷에서 스크래핑할 수 있는 모든 것을 기반으로 훈련되었습니다. 이제 훈련 데이터 소스는 점점 더 액세스를 제한 하고 라이선스 계약을 추진하고 있습니다. 추가 데이터 소스에 대한 사냥이 심화됨에 따라 소스 자료의 흐름을 유지하기 위해 새로운 라이선스 스타트업이 등장했습니다.
올 여름에 결성된 무역 그룹 인 Dataset Providers Alliance는 AI 산업을 보다 표준화되고 공정하게 만들고자 합니다. 이를 위해 주요 AI 관련 문제에 대한 입장을 설명하는 입장 문서를 방금 발표했습니다. 이 연합은 음악 저작권 관리 회사 Rightsify , 일본 스톡 사진 시장 Pixta , 생성 AI 저작권 라이선싱 스타트업 Calliope Networks를 포함한 7개의 AI 라이선싱 회사로 구성되어 있습니다. (가을에 최소 5명의 새로운 회원이 발표될 예정입니다.)
DPA는 옵트인 시스템을 옹호하는데, 이는 데이터가 제작자와 권리 보유자의 명확한 동의를 받은 후에만 사용될 수 있음을 의미합니다. 이는 대부분의 주요 AI 회사가 운영하는 방식과 크게 다릅니다. 일부는 자체 옵트아웃 시스템을 개발하여 데이터 소유자가 사례별로 작업을 철회하도록 부담을 주었습니다. 다른 일부는 옵트아웃을 전혀 제공하지 않습니다.
DPA는 회원들이 옵트인 규칙을 준수할 것을 기대하며, 이 경로를 훨씬 더 윤리적인 경로로 봅니다. Rightsify와 음악 데이터 라이선싱 회사 Global Copyright Exchange 의 CEO인 알렉스 베스톨은 "아티스트와 창작자는 참여해야 합니다."라고 말하며, 이 노력을 주도했습니다. 베스톨은 옵트인을 도덕적인 것뿐만 아니라 실용적인 접근 방식으로 봅니다. "공개적으로 사용 가능한 데이터 세트를 판매하는 것은 소송을 당하고 신뢰성을 잃을 수 있는 한 가지 방법입니다."
전직 AI 임원이자 현재 윤리적 AI 비영리 단체인 Fairly Trained 를 운영하는 Ed Newton-Rex는 옵트아웃이 "제작자에게 근본적으로 불공평하다"고 말하며, 어떤 사람들은 옵트아웃이 언제 제공되는지조차 모를 수도 있다고 덧붙였습니다. 그는 "DPA가 옵트인을 요구하는 것을 보는 것은 특히 좋은 일입니다"라고 말합니다.
AI 데이터 세트를 감사하는 자원봉사 단체인 Data Provenance Initiative 의 책임자인 Shayne Longpre는 DPA가 윤리적으로 데이터를 소싱하려는 노력을 칭찬하지만, 대부분의 현대 AI 모델이 필요로 하는 엄청난 거래량 의 데이터 때문에 옵트인 표준을 판매하기 어려울 수 있다고 의심합니다. 그는 "이 제도 하에서는 데이터가 부족하거나 많은 비용을 지불해야 합니다."라고 말합니다. "대규모 기술 회사인 소수의 플레이어만이 모든 데이터에 대한 라이선스를 제공할 여유가 있을 수 있습니다."
이 논문에서 DPA는 정부에서 의무화한 라이선스에 반대하며, 대신 데이터 생성자와 AI 회사가 직접 협상하는 "자유 시장" 접근 방식을 주장합니다. 다른 가이드라인은 더 세부적입니다. 예를 들어, 이 연합은 제작자와 권리자가 데이터에 대해 적절한 대가를 받도록 하는 다섯 가지 잠재적 보상 구조를 제안합니다. 여기에는 구독 기반 모델, "사용 기반 라이선스"(사용당 수수료 지불) 및 로열티가 수익에 연계되는 "결과 기반" 라이선스가 포함됩니다. Bestall은 "이것은 음악에서 이미지, 영화 및 TV 또는 책에 이르기까지 모든 것에 적용될 수 있습니다."라고 말합니다.
저작권을 연구하는 기술자인 빌 로젠블랫은 "보상 구조를 표준화하는 것은 잠재적으로 좋은 일입니다."라고 말합니다. "데이터셋 공급자 연합은 조건을 제시할 수 있는 매우 좋은 위치에 있습니다." 로젠블랫이 보기에 AI 회사는 라이선싱을 도입하기 위한 인센티브가 필요합니다. 법적 이유(소송에 대한 두려움, 라이선스를 의무화하는 규제 )가 가장 분명하게 설득력이 있지만, 로젠블랫은 잠재적인 라이선서가 프로세스를 가능한 한 쉽고 편리하게 만드는 것도 중요하다고 말합니다. 그는 지불 모델을 표준화하면 주류 채택으로 가는 길을 매끄럽게 하는 데 도움이 된다고 주장합니다.
DPA는 또한 AI가 생성하는 합성 데이터의 일부 사용을 지지하며, 가까운 미래에 이것이 훈련 데이터의 "대부분"을 구성할 것이라고 주장합니다. Bestall은 "일부 저작권 소유자는 아마 좋아하지 않을 것입니다."라고 말합니다. "하지만 불가피합니다." 이 연합은 합성 데이터를 만드는 데 사용되는 사전 훈련 정보의 "적절한 라이선스"와 후자가 만들어지는 방법에 대한 투명성을 옹호합니다. 또한 "편견과 윤리적 문제를 완화"하기 위해 합성 데이터 모델에 대한 정기적인 "평가"를 요구합니다.
물론, DPA는 업계의 파워 플레이어를 참여시켜야 하는데, 말하기는 쉽지만 실천하기는 어렵다. Newton-Rex는 "데이터를 윤리적으로 라이선스하는 방법에 대한 표준이 등장하고 있습니다."라고 말한다. "하지만 충분한 AI 회사가 이를 채택하지 않고 있습니다."
그럼에도 불구하고 DPA의 존재 자체가 AI의 서부 개척 시대가 끝나가고 있음을 보여줍니다. "모든 것이 너무 빨리 변하고 있습니다."라고 Bestall은 말합니다.