AI 데이터 가뭄 속 스타트업 크라우드소싱: 모델 학습을 위한 GPT-4 생성 데이터 불법 복제, 투자자의 우려 제기

avatar
36氪
04-17
이 기사는 기계로 번역되었습니다
원문 표시

4월 15일 외신 더인포메이션의 보도에 따르면 AI 분야에서는 스타트업이 개발한 챗봇 중 상당수가 실제로 오픈AI 등 대기업이 제공하는 데이터와 기술을 기반으로 하고 있다. 이러한 저비용 서비스는 GPT-4 및 Llama의 성능을 어느 정도 모방할 수 있지만 이러한 접근 방식은 거대 기술 기업의 사용 요구 사항을 위반할 수 있습니다. 뿐만 아니라 이러한 저비용 모방은 강력한 AI 기업의 시장 점유율 과 수익을 위협할 수도 있습니다.

AI 거대 기업들 자체도 저작권 분쟁에서 벗어날 수 없으며 일부 데이터의 무단 사용으로 인해 더 많은 분쟁과 소송이 촉발되었습니다. 다행히 업계 전반의 저작권 인식이 바뀌었고 OpenAI와 Google이 출판사 및 웹사이트와의 데이터 라이선스 계약을 체결하는 데 앞장섰습니다.

또한, 오늘날의 복잡한 시장 경쟁 속에서 투자자들도 나름의 고려 사항을 가지고 있습니다. 그들은 AI 산업의 급속한 발전을 보고 싶어할 뿐만 아니라, 기술 연구와 개발에 있어 '단순한' 스타트업 기업 지원을 꺼린다. 그들은 이러한 규칙 위반이 스타트업의 장기적인 지속 가능성과 평판에 부정적인 영향을 미칠 수 있다는 것을 두려워하기 때문입니다.

1. AI 기업이 사업을 시작하는 새로운 방법: GPT-4를 사용하여 콘텐츠 교육 모델 생성

개발자는 OpenAI의 가장 발전된 모델인 GPT-4를 연구 개발 프로세스를 가속화하는 데 도움이 되는 리소스로 활용합니다. 특정 문제에 대한 통찰력과 권장 사항을 얻기 위해 모델에 질문을 합니다. 예를 들면 다음과 같습니다. 이 코드 줄에 무슨 문제가 있나요? 그런 다음 답변은 자체 모델을 개선하는 데 사용됩니다.

개발자의 대화형 AI 구축을 돕는 한 창업자는 자신의 고객 중 약 절반이 OpenAI의 GPT-4 또는 Anthropic의 Claude 모델에서 일부 데이터를 생성하고 이를 사용하여 자체 모델을 개선했다고 추정합니다.

많은 개발자는 처음부터 모델을 학습할 필요가 없습니다. 소규모 모델의 개발 프로세스는 Meta 또는 Mistral AI와 같이 무료로 사용할 수 있는 인기 있는 오픈 소스 모델을 기반으로 하는 경우가 많습니다. 그런 다음 OpenAI 모델의 답변을 추가하여 이러한 소규모 모델을 크게 개선했습니다.

일부 회사의 경우 서면 또는 암묵적인 규칙을 위반하는 리스크 그만한 가치가 있을 수 있습니다. 경쟁이 치열한 생성 AI 분야에서는 모델을 훈련하거나 개선하기 위해 고품질 데이터를 얻는 것이 중요합니다. 모든 AI 스타트업은 훈련을 위한 데이터 소스가 없으면 뒤쳐진다는 것을 알고 있습니다.

기술 대기업도 이런 '편리성'의 유혹을 뿌리칠 수는 없다. 이에 대한 예로는 Google이 AI 모델을 훈련하는 데 사용하기 위해 YouTube 비디오를 복사하고 Meta가 AI 모델을 훈련하기 위해 저작권이 있는 도서를 요약하기 위해 아프리카 계약자를 고용하는 것이 있다고 Times는 보도했습니다. 또한 Bloomberg는 Adobe가 스타트업 Midjourney가 제공한 AI 생성 사진을 이미지 생성 소프트웨어 Firefly를 교육하는 데 사용했다는 소식을 보도했습니다.

지난해 구글 AI 수석 엔지니어는 회사가 구글 자체 모델을 훈련시키기 위해 OpenAI의 ChatGPT 데이터를 사용하는 것에 대한 우려를 제기한 후 항의의 뜻으로 사임했다고 더 인포메이션(The Information)이 보도했다.

그러나 일부 개발자는 오픈 소스 모델 사용을 적극적으로 인정하기를 꺼립니다. 이 행동이 공개되면 회사는 난처한 상황에 처하게 될 것입니다. 예를 들어 파리의 Mistral AI와 베이징의 Zero One Wish는 정보 유출 사건 이후 Meta의 오픈 소스 모델인 Llama 2를 제품 개발의 기반으로 사용했음을 인정해야 했습니다.

더 많은 회사가 다른 모델에서 파생된 모델을 개발함에 따라 구별이 불가능해질 수 있습니다. 이는 고객이 가장 진보되고 값비싼 모델보다 더 저렴하고 편리한 모델을 선택함에 따라 가격 경쟁을 벌이게 될 OpenAI와 같은 선두 기업의 경쟁 우위를 약화시킬 수 있습니다.

2. Altman은 ChatGPT 사용에 대한 제한을 완화했으며 OpenAI는 이전에 저작권 분쟁에 연루되었습니다.

OpenAI는 Anthropic 및 Google과 같은 다른 주요 AI 회사와 함께 이러한 행위를 기술적으로 금지합니다. 그럼에도 OpenAI CEO인 샘 알트만(Sam Altman)은 컨퍼런스에서 스타트업 창업자들과의 대화에서 중소기업 창업자들도 OpenAI의 기술을 어느 정도 활용할 수 있다고 언급했습니다.

Altman의 답변으로 참석한 일부 창립자들의 마음이 편해졌지만, 이 접근 방식이 OpenAI의 개발에 해를 끼치면 언제든지 마음이 바뀔 수 있습니다. OpenAI, Google, Anthropic 및 기타 대규모 개발자가 소규모 경쟁업체가 AI를 효과적으로 복사하도록 허용하는 기간이 얼마나 될지는 확실하지 않습니다.

그럼에도 불구하고 스타트업이 OpenAI 데이터를 사용하여 수행하는 작업은 OpenAI 및 기타 주요 AI 개발자가 자체 모델을 교육할 때 수행하는 작업과 유사합니다. 지난달 인터뷰에서 OpenAI의 최고 기술 책임자인 Mira Murati는 동료들이 Google 소유의 YouTube와 Meta Platforms 소유의 Facebook 및 Instagram의 데이터를 사용하여 소라를 훈련시켰는지에 대한 질문에 대답했습니다.

OpenAI가 이 데이터를 사용했다면 놀라운 일이 아닐 것입니다. 최근 New York Times 보고서에서는 OpenAI가 GPT-4 모델을 개선하기 위해 YouTube 동영상을 기록하는 음성 인식 도구인 Whisper를 어떻게 만들었는지 설명했습니다. The Information은 이전에 회사가 이전 AI 모델을 훈련하기 위해 YouTube 데이터를 비밀리에 사용했다고 보도했습니다. 이달 초 YouTube CEO Neal Mohan은 Sora와 같은 모델을 개발하기 위해 YouTube 동영상을 사용하는 OpenAI를 승인하지 않을 것이라고 밝혔습니다.

이로 인해 뉴스 출판사와 일부 작가들의 비난이 촉발되었습니다. 지난해 12월 뉴욕타임즈는 OpenAI와 최대 후원자인 마이크로소프트가 모델을 훈련할 때 뉴욕타임즈 기사를 불법 복제했다는 이유로 기소하다 제기했습니다. 소송은 OpenAI의 챗봇이 완전한 New York Times 콘텐츠의 결과물을 생성할 수 있다고 주장합니다.

이에 대해 OpenAI는 뉴스 출판사와 파트너십을 구축하려고 시도했으며 훈련 관행이 "공정한 사용"에 따른 미국 저작권 원칙에 따라 허용되었다고 주장했습니다.

그럼에도 불구하고 OpenAI와 Google은 Axel Springer를 포함한 게시자와 수백만 달러 규모의 라이선스 계약을 체결했으며 Reddit과 같은 대규모 사이트와 더 큰 계약을 체결했습니다.

그러나 모든 AI 개발자가 "회색지대"에서 방황하는 것은 아닙니다. Databricks의 수석 과학자 Jonathan Frankle은 회사가 강력한 오픈 소스 대규모 언어 모델을 개발할 때 경쟁사의 작업에 의존하지 않았다고 말했습니다. Anthropic 대변인은 또한 회사가 자체 대형 모델을 훈련하기 위해 다른 모델의 출력을 사용하지 않는다고 말했습니다.

3. 투자자들은 스타트업이 지름길을 택하는 것을 꺼려하며 합성 데이터가 새로운 교육 소스가 될 수 있습니다.

일부 투자자들은 "모퉁이를 잘라내거나" 경쟁사와 구별할 수 없는 기술을 개발하는 회사에 대해 불편함을 느낍니다. 왜냐하면 이러한 회사는 실제로 자체 기술을 보유하고 있지 않기 때문입니다. 투자자들은 동료들보다 AI 분야의 급속한 발전과 더 나은 과학적 연구 결과를 보고 싶어합니다.

수억 달러의 자금을 조달한 일부 회사는 다른 AI 회사의 오픈 소스 모델 사용을 인정하지도 않습니다. 이러한 상황은 회사의 무결성에 문제가 있다고 믿는 투자자 Li의 불만을 더욱 악화시켰습니다. Menlo 리스크 의 전무이사인 Matt Murphy는 이것이 명확한 규칙이 없는 새로운 생태계에서 일어나는 일이라고 설명했습니다.

합성 데이터는 기업이 자체 AI 모델을 사용하여 온라인 소스 콘텐츠 대신 데이터를 생성할 수 있는 대안입니다. 예를 들어 Google과 Meta는 기하학적 문제를 해결하고 컴퓨터 코드를 생성하기 위한 모델을 구축하기 위해 합성 데이터를 사용한다고 말합니다. AI는 이러한 유형의 데이터를 생성할 수 있기 때문에 인간이 생성한 콘텐츠를 사용할 때 발생하는 많은 법적 문제를 피할 수 있습니다.

한편, 수십 개의 AI 스타트업은 특정 용도를 위한 모델을 개발하기 위해 의료 및 법률 회사와 같은 산업으로부터 개인 데이터를 수집하고 있습니다.

결론: 생성적 AI 모방은 계속해서 격동적이며 OpenAI는 관용적인 태도를 가지고 있습니다.

스타트업이 개발한 많은 대규모 AI 모델은 OpenAI를 약화시키려고 노력하고 있지만 OpenAI 및 기타 회사의 데이터를 사용할 가능성이 높습니다. 이러한 접근 방식은 업계의 공공연한 비밀이 되어 기술은 동일하지만 가격이 반감 경쟁 상황이 됐다.

OpenAI와 같은 스타트업은 소규모 사용 사례에 대해 관용적인 태도를 유지하는 반면, 일부 기업은 개발 과정에서 타인의 기술을 사용한다는 사실을 여전히 적극적으로 공개하지 않습니다. 그들은 승인이 회사를 리스크 에 빠뜨릴 수 있다고 믿습니다.

어쨌든, 대형 모델 훈련을 위한 데이터 부족과 점점 더 커지는 경쟁 압력은 여전히 ​​증가하고 있습니다. 현재 합성 데이터는 아직 탐색 단계에 있으며, AI 기업의 더욱 최첨단 모델 훈련과 데이터 획득을 기대합니다.

이 기사는 WeChat 공개 계정 "Zhidixi"(ID: zhidxcom)에서 가져온 것입니다. 편집자: Giraffe, 편집자: Li Shuiqing, 36 Krypton은 허가를 받아 게시되었습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트