OpenAI가 잘못된 인기 있는 육아 포럼을 엉망으로 만들었습니다.

avatar
WIRED
09-16
이 기사는 기계로 번역되었습니다
원문 표시

아이 양육과 관련된 주제라면 상상할 수 있는 모든 것을 떠올려 보세요. 영국에서 오랫동안 운영되고, 엄청난 인기를 누리고, 논란을 불러일으키는 엄마들을 위한 육아 포럼인 Mumsnet에 그에 대한 게시물이 있을 것입니다. 20년이 넘는 역사 동안 Mumsnet은 더러운 기저귀와 게으른 남편과 같은 주제에 대해 참여도가 높은 사용자 기반이 쓴 60억 단어 이상의 아카이브를 축적했습니다. ( 돌고래에 대한 미친 듯한 불평은 말할 것도 없습니다.)

이번 봄, Mumsnet이 AI 회사가 자사 데이터를 스크래핑하고 있다는 사실을 발견한 후, 이 회사는 Mumsnet이 처음 접촉한 후 합의를 모색할 의향을 표명한 OpenAI를 포함하여 이 분야의 주요 업체들과 라이선스 계약을 체결하기로 결정했다고 밝혔습니다. OpenAI와의 협상이 결렬된 후, Mumsnet은 7월에 법적 조치를 취할 의향을 발표했습니다.

Mumsnet에 따르면, 초기 대화 중에 OpenAI 전략적 파트너십 책임자가 회사에 10억 단어가 넘는 데이터 세트가 AI 거대 기업에 관심이 있다고 말했습니다. Mumsnet의 리더십은 흥분했습니다. Mumsnet 설립자 겸 CEO인 저스틴 로버츠는 WIRED에 "우리는 그들과 많은 시간을 주고받으며 논의했습니다."라고 말했습니다. "우리는 일부 NDA에 서명해야 했고, 그들은 우리에게 많은 정보를 원했습니다."

하지만 WIRED에서 검토한 이메일 교환에 따르면, 한 달이 넘게 지나서 OpenAI는 Mumsnet에 그 당시에는 더 이상 파트너십에 관심이 없다고 말했습니다. 이유를 묻자, OpenAI 직원은 Mumsnet의 60억 단어 데이터 세트가 라이선스 계약을 보장하기에는 너무 작다고 설명했습니다. 또한 그들은 OpenAI가 주로 대중이 온라인에서 접근할 수 없는 대규모 데이터 세트에 관심이 있으며, 광범위한 인간 경험을 포착한 데이터 세트를 원한다고 언급했습니다.

WIRED에서 의견을 요청했을 때 이 회사는 이러한 감정을 반영했습니다. OpenAI 대변인인 카일라 우드는 "우리는 인간 사회를 반영하는 대규모 데이터 세트에 대한 파트너십을 추구하며 공개적으로 이용 가능한 정보에 대한 파트너십만을 추구하지 않습니다."라고 말합니다. "우리는 게시자와 제작자의 선택을 지원하여 검색 결과에서 사이트와 콘텐츠가 AI와 함께 작동하는 방식에 대한 선호도를 표현할 수 있는 방법을 제공하고 생성 AI 기반 모델을 훈련합니다."

로버츠는 이러한 발전에 "짜증을 느꼈다"고 말합니다. 그녀는 OpenAI가 처음에는 Mumsnet에 특히 관심을 보였던 것은 플랫폼의 여성이 쓴 콘텐츠가 많았기 때문이라고 회상합니다. 그녀는 "매우 고품질의 대화 데이터입니다."라고 말합니다. "90%가 여성 대화인데, 이는 매우 이례적입니다."

OpenAI는 지난해 미디어 매체 및 플랫폼과 다양한 데이터 라이선싱 계약을 맺었고, Vox Media , the Atlantic , AXEL Springer , Time , WIRED 모회사인 Condé Nast , Reddit과 같은 사용자 생성 콘텐츠로 가득 찬 플랫폼과 계약을 맺었습니다. (WordPress.com과 Tumblr의 소유주인 Automattic도 올해 초에 라이선싱 협상을 진행 중이라고 합니다.) 해당 거래의 세부 사항은 공개되지 않았기 때문에 각각의 코퍼스 규모가 얼마인지는 불분명합니다.

WIRED가 상업적 라이선스를 위해 고려할 데이터 세트의 크기에 대해 물었을 때 OpenAI는 그 정보를 공유하기를 거부했습니다. 하지만 대변인인 Kayla Wood는 퍼블리셔와의 파트너십이 "제품에 콘텐츠를 표시하고 트래픽을 유도하는 데 중점을 두고 있다"고 강조했습니다.

음악 저작권 관리 회사 Rightsify의 CEO인 알렉스 베스탈은 OpenAI가 더 큰 물고기에 집중하고 싶어한다는 사실에 놀라지 않습니다. 그는 "스타트업은 훨씬 더 유연하지만 대형 랩은 거래를 고려할 최소한의 데이터 볼륨이 있습니다."라고 말합니다.

이제 OpenAI는 영국에서 첫 번째 저작권 침해 소송의 가능성에 직면해 있습니다. 저작권 주장 외에도 Mumsnet은 이용 약관 위반을 주장하고 데이터베이스 권리 침해를 주장하고 있습니다. 즉, 소유자의 동의 없이 데이터베이스의 전체 또는 대부분을 추출한 것을 의미합니다.

Mumsnet은 7월에 법적 조치를 고려하고 있다는 내용의 첫 번째 편지를 보냈습니다. 더 최근에, 그것은 OpenAI로부터 질문 목록과 함께 답변을 받았습니다. 그녀는 "그들은 스크래핑했다는 사실을 부인하지 않았습니다."라고 말합니다. 현재 Mumsnet은 소송 과정을 계속할 계획입니다. 영국 고등법원이나 전문 지적 재산권(IP) 법원에 소송을 제기할지 아직 결정하지 않았습니다. (OpenAI는 WIRED에 Mumsnet의 불만 사항을 접수하고 답변했지만 Mumsnet의 법적 주장에 대한 의견은 제시하지 않았다고 인정했습니다.)

그동안 Mumsnet은 다른 AI 회사와 라이선스 계약을 적극적으로 추진하고 있습니다. 로버츠는 Google과 데이터 라이선스를 용이하게 하기 위해 생겨난 중개 스타트업과도 논의 중이라고 말했습니다. (Google은 WIRED의 이러한 논의 확인 요청에 응답하지 않았습니다.)

로버츠는 "저는 이런 대형 LLM이 소규모 출판사를 휩쓸고 모델을 구축할 수 있는 생태계에 대해 꽤 걱정하고 있습니다. 그러면 사람들이 웹사이트를 방문할 이유가 줄어듭니다."라고 말합니다. "사람들이 자신의 작업에 대해 보상을 받는 만족스러운 합의에 도달해야 합니다."

Mumsnet의 콘텐츠는 대부분 사용자가 생성하므로 WIRED는 거래를 성사시킬 때 사용자를 위한 어떤 종류의 지불 시스템을 고려하고 있는지 물었습니다. 로버츠는 현재 계획은 없지만 앞으로 AI에 대한 데이터 라이선싱이 엄청나게 수익성이 높아지면 고려할 것이라고 말했습니다.

그녀는 Mumsnet이 법적 조치를 검토한다는 발표 이후 그녀가 받은 의견을 바탕으로, 사용자들은 대체로 회사가 데이터 라이선스를 부여하는 목적을 이해한다고 말합니다. 그녀는 "우리는 AI가 성별 편향을 보이는 것에 대해 상당히 우려하고 있습니다."라고 말합니다. "검증된 여성 음성으로 훈련하는 데는 이유가 있습니다."

로버츠는 Mumsnet의 잠재적 법적 조치가 어떻게 전개될지에 대해 낙관적입니다. 그녀는 "우리는 좋은 기회가 있다고 생각합니다."라고 말합니다. 미국에서는 이미 AI 회사를 상대로 수십 건의 저작권 침해 소송이 제기되었습니다. 진행 중인 많은 소송에서 AI 회사는 특정 상황에서 저작권 침해를 허용하는 "공정 사용" 원칙에 따라 자신의 행동이 보호된다고 주장하며 스스로를 변호하고 있습니다. 영국에는 "공정 거래"라고 하는 유사한 개념이 있지만 범위가 상당히 제한적입니다.

결과에 관계없이, 로버츠는 그녀의 플랫폼이 입장을 취하게 되어 기쁘다. 그녀는 "이것은 아마도 다른 어떤 것보다도 사물의 원칙에 관한 것일 것입니다."라고 말한다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트