AI와 데이터 DAO의 "왜 지금"

이 기사는 기계로 번역되었습니다
원문 표시

OpenAI, News Corp , Reddit 간의 최근 세간의 이목을 끄는 데이터 라이센스 계약은 AI 분야에서 고품질 데이터의 필요성을 강조합니다. 프론티어 모델은 이미 많은 인터넷에서 훈련되었습니다. 예를 들어 모든 웹 페이지의 약 10%를 색인화하는 Common Crawl은 LLM 훈련에 사용되며 100조 개가 넘는 토큰을 포함합니다.

AI 모델을 더욱 개선할 수 있는 방법은 훈련할 수 있는 데이터를 확장하고 향상시키는 것입니다. 우리는 특히 분산된 방식으로 데이터를 집계하는 방법에 대한 메커니즘을 논의해 왔습니다. 우리는 특히 분산화된 방법이 새로운 데이터 세트를 생성하고 기여자와 제작자에게 경제적으로 보상하는 데 어떻게 도움이 될 수 있는지 탐구하는 데 관심이 있습니다.

지난 몇 년 동안 암호화폐 내에서 논의된 주제 중 하나는 데이터 DAO, 즉 데이터를 생성, 구성 및 관리하는 개인 집단에 대한 아이디어입니다. 이 주제는 Multicoin 등에서 다루어졌지만 AI의 급속한 발전은 새로운 "왜 지금인가?"에 대한 촉매제입니다. 데이터 DAO의

우리는 데이터 DAO가 어떻게 AI 개발을 가속화할 수 있는가?라는 질문을 추구하면서 데이터 DAO 주제에 대한 생각을 공유하고 싶었습니다.

지금 구독하세요

오늘날 AI의 데이터

오늘날 AI 모델은 News Corp 및 Reddit 거래와 같은 파트너십을 통해 또는 공개 인터넷에서 데이터 스크래핑을 통해 공개 데이터에 대해 훈련됩니다. 예를 들어, Meta의 Llama 3은 공개적으로 이용 가능한 소스에서 얻은 15조 개의 토큰에 대해 교육을 받았습니다 . 이러한 접근 방식은 대량의 데이터를 신속하게 집계하는 데 효과적이었지만 수집하는 데이터와 방법에 있어서 한계가 있습니다.

첫째, 무엇입니까? AI 개발은 데이터 품질과 수량으로 인해 병목 현상이 발생합니다. Leopold Aschenbrenner는 추가 알고리즘 개선을 제한하는 "데이터 벽"에 대해 다음과 같이 썼습니다 . "더 많은 스크랩된 데이터에 대해 더 큰 언어 모델을 사전 훈련하는 순진한 접근 방식은 곧 심각한 병목 현상을 일으키기 시작할 수 있습니다."

데이터 벽을 밀어내는 한 가지 방법은 새로운 데이터 세트의 가용성을 개방하는 것입니다. 예를 들어, 모델 회사는 대부분의 웹사이트 서비스 약관을 위반하지 않고 로그인 제한 데이터를 긁어낼 수 없으며, 정의에 따라 아직 집계되지 않은 데이터에 액세스할 수 없습니다. 기업용 Google 드라이브, 회사 Slacks, 개인 건강 데이터 또는 개인 메시지 등 오늘날 AI 교육에 도달할 수 없는 방대한 양의 개인 데이터도 있습니다.

둘째, 방법: 기존 패러다임 에서는 데이터를 집계하는 기업이 가치의 대부분을 차지합니다. Reddit의 S-1은 예상되는 주요 수익원으로 데이터 라이센싱을 특징으로 합니다. "우리는 증가하는 데이터 이점과 지적 재산권(IP) 미래 LLM 교육의 핵심 요소가 될 것으로 기대합니다." 실제 콘텐츠를 생성하는 최종 사용자는 이러한 라이선스 계약이나 AI 모델 자체로부터 어떠한 경제적 이익도 얻지 못합니다. 이러한 불일치로 인해 참여가 저해될 수 있습니다. 이미 생성 AI 회사를 고소 하거나 교육 데이터 세트를 거부하려는 움직임이 있습니다. 최종 사용자에게 지분을 전달하지 않고 모델 회사나 플랫폼의 손에 수익을 집중시키는 사회경제적 영향은 말할 것도 없습니다.

데이터 분산형 자율 조직(DAO) 효과

위에 설명된 데이터 문제를 통해 공통 스레드가 실행됩니다. 즉, 다양하고 대표적인 사용자 샘플의 확장된 기여를 통해 이익을 얻습니다. 개별 데이터 포인트는 모델 성능에 비해 가치가 미미할 수 있지만, 집합적으로 대규모 사용자 그룹이 AI 교육에 유용한 새로운 데이터 세트를 집계할 수 있습니다. 이것이 바로 데이터 DAO의 개념이 적용될 수 있는 부분입니다. 데이터 DAO를 통해 데이터 기여자는 데이터 기여로부터 경제적 이익을 볼 수 있을 뿐만 아니라 해당 데이터가 사용 및 수익화되는 방법을 관리할 수 있습니다.

데이터 DAO가 해결할 수 있는 현재 데이터 환경의 격차는 무엇입니까? 다음은 몇 가지 아이디어입니다. 이 목록은 완전한 것이 아니며 데이터 DAO에 대한 다른 기회도 확실히 있다는 점에 유의하세요.

실제 데이터

DEPIN(분산형 물리적 인프라) 세계에서 Hivemapper와 같은 네트워크는 대시캠 소유자에게 데이터 기여를 장려하고 사용자가 앱을 통해 데이터(예: 도로 폐쇄 또는 수리)를 기여하도록 장려하여 세계에서 가장 최신 글로벌 지도 데이터를 수집하는 것을 목표로 합니다. ). DEPIN을 보는 렌즈 중 하나는 하드웨어 장치 및/또는 사용자의 네트워크에서 데이터 세트가 생성되는 실제 데이터 DAO입니다. 해당 데이터는 다양한 회사의 상업적 관심 대상이며 수익은 토큰 보상의 형태로 기여자에게 돌아갑니다.

개인 건강 데이터

바이오해킹은 개인과 공동체가 스스로 실험을 통해 생물학을 연구하는 DIY 방식을 취하는 사회 운동입니다. 예를 들어, 개인은 뇌 성능을 향상시키기 위해 다양한 누트로픽을 섭취하거나, 수면을 향상시키기 위해 다양한 치료법이나 환경 변화를 테스트할 수 있으며, 실험 약물을 자신에게 주사할 수도 있습니다.

데이터 DAO는 일반적인 실험을 중심으로 참가자를 조직하고 체계적으로 결과를 수집함으로써 이러한 바이오해킹 노력에 구조와 인센티브를 제공할 수 있습니다. 예를 들어 연구실이나 제약회사 등에서 이러한 개인 건강 DAO가 얻은 수익은 자신의 개인 건강 데이터 형식으로 결과를 기여한 참가자에게 다시 전달될 수 있습니다.

인간 피드백을 통한 강화 학습

RLHF(인간 피드백을 통한 강화 학습)를 사용한 AI 모델 미세 조정에는 인간 입력을 활용하여 AI 시스템의 성능을 향상시키는 작업이 포함됩니다. 피드백 제공자 중 원하는 프로필은 모델의 결과를 효과적으로 평가할 수 있는 해당 분야의 전문가인 경우가 많습니다. 예를 들어, 연구실에서는 LLM 이더리움 클래식(ETC) 의 수학 능력을 향상시키기 위해 수학 박사 학위를 찾을 수 있습니다. 토큰 보상은 암호화폐 지불 레일을 사용하여 제공되는 글로벌 액세스는 말할 것도 없고 투기적 장점을 통해 전문가 참여를 소싱하고 장려하는 역할을 할 수 있습니다. Sapien , FractionSahara 와 같은 회사가 이 분야에서 일하고 있습니다.

개인 데이터

AI 훈련을 위해 공개적으로 사용 가능한 데이터가 고갈됨에 따라 경쟁의 기반은 개인 사용자 데이터를 포함한 독점 데이터 세트로 전환될 가능성이 높습니다. 로그인 벽 뒤나 다이렉트 메시지, 개인 문서 이더리움 클래식(ETC) 는 방대한 양의 고품질 데이터에 접근할 수 없습니다. 이러한 데이터는 개인 AI를 훈련시키는 데 효과적일 뿐만 아니라 공개 웹에서 접근할 수 없는 귀중한 정보를 포함할 수 있습니다.

그러나 이 데이터에 접근하고 활용하는 것은 법적으로나 윤리적으로 심각한 문제를 야기합니다. 데이터 DAO는 자발적인 참여자가 자신의 데이터를 업로드하고 수익을 창출하며 데이터 사용 방법을 관리할 수 있도록 함으로써 솔루션을 제공할 수 있습니다. 예를 들어 Reddit 데이터 분산형 자율 조직(DAO) 사용하면 사용자는 플랫폼 자체에서 내보낸 댓글, 게시물 및 투표 기록이 포함된 Reddit 데이터를 개인 정보 보호 방식으로 AI 회사에 판매하거나 임대할 수 있는 데이터 트레져리 에 업로드할 수 있습니다. 토큰 인센티브를 통해 사용자는 데이터에 대한 일회성 거래뿐만 아니라 데이터에 대해 훈련된 AI 모델에 의해 생성된 가치를 기반으로 수익을 얻을 수 있습니다.

공개 질문 및 과제

데이터 DAO의 잠재적 이점은 상당하지만 몇 가지 고려 사항과 과제가 있습니다.

인센티브의 왜곡된 영향

암호화폐에서 토큰 인센티브를 사용한 역사에서 한 가지 알 수 있는 점은 외부 인센티브가 사용자 행동을 변화시킨다는 것입니다. 이는 데이터 목적으로 토큰 인센티브를 활용하는 데 직접적인 영향을 미칩니다. 인센티브는 참가자 기반과 기여되는 데이터 유형을 왜곡할 수 있습니다.

토큰 인센티브의 도입은 또한 참가자들이 시스템을 조작하여 수익을 극대화하기 위해 품질이 낮거나 조작된 데이터를 제출할 가능성을 제시합니다. 이러한 데이터 DAO의 수익 기회는 데이터 품질에 따라 달라지기 때문에 이는 중요합니다. 기여도가 치우쳐지면 데이터세트의 가치가 훼손됩니다.

데이터 측정 및 보상

데이터 분산형 자율 조직(DAO) 의 핵심은 기여자가 토큰 인센티브를 통해 제출에 대해 보상을 받고, 이는 장기적으로 The DAO 에서 얻은 수익으로 수렴된다는 아이디어입니다. 그러나 데이터 가치의 주관적인 특성을 고려할 때 다양한 데이터 기여에 대해 얼마만큼 보상해야 하는지 정확히 아는 것은 어렵습니다. 예를 들어, 바이오해킹에 대한 위의 예에서는 일부 사용자의 데이터가 다른 사용자의 데이터보다 더 가치가 있습니까? 그렇다면, 그 결정 요인은 무엇입니까? 매핑 데이터의 경우 일부 지역의 매핑 정보가 다른 지역보다 더 가치가 있으며 그러한 차이를 어떻게 정량화할 수 있습니까? (모델 성능에 대한 증분 기여도를 계산하여 AI의 데이터 가치를 측정하는 연구가 활발히 이루어지고 있지만 이러한 방법은 계산 집약적일 수 있습니다.)

더욱이, 데이터의 신뢰성과 정확성을 검증하기 위한 강력한 메커니즘을 확립하는 것이 중요합니다. 이러한 조치가 없으면 시스템은 사기성 데이터 제출(예: 가짜 계정 생성)이나 Sybil 공격에 취약해질 수 있습니다. DEPIN 네트워크는 하드웨어 장치 수준에서 통합하여 이 문제를 해결하려고 시도하지만 사용자 중심 기여에 의존하는 다른 유형의 데이터 DAO는 조작에 취약할 수 있습니다.

새로운 데이터의 증분성

대부분의 개방형 웹은 이미 교육 목적으로 활용되었으므로 데이터 분산형 자율 조직(DAO) 운영자는 분산된 노력을 통해 수집된 데이터 세트가 개방형 웹에서 사용할 수 있는 기존 데이터에 실제로 증분적이고 추가되는지 여부를 고려해야 합니다. 플랫폼에서 해당 데이터에 라이선스를 부여하거나 다른 수단을 통해 조달할 수 있습니다. 위에서 설명한 아이디어는 현재 존재하는 것 이상의 새로운 데이터를 수집하는 것의 중요성을 강조하며, 이는 다음 고려 사항인 영향의 크기와 수익 기회로 이어집니다.

수익 기회 규모 조정

기본적으로 데이터 DAO는 데이터 구매자와 데이터 기여자를 연결하는 양면 시장을 구축하고 있습니다. 따라서 데이터 DAO의 성공은 데이터 비용을 지불할 의향이 있는 안정적이고 다양한 고객 기반을 확보하는 데 달려 있습니다.

데이터 DAO는 최종 수요를 식별하고 검증해야 하며, 필요한 데이터의 양과 품질을 장려하기 위해 총체적 기준과 기여자 기준으로 수익 기회가 충분히 큰지 확인해야 합니다. 예를 들어, 광고 목적으로 개인 취향과 검색 데이터를 함께 모으기 위해 사용자 데이터 분산형 자율 조직(DAO) 만드는 아이디어는 수년 동안 논의되어 왔지만 궁극적으로 그러한 네트워크가 사용자에게 전달할 수 있는 수익은 미미할 것입니다. . (비교하자면, 2023년 말 Meta의 글로벌 ARPU는 13.12달러 였습니다.) AI 기업이 훈련에 수조 달러를 지출할 계획을 갖고 있는 상황에서, 데이터에 대한 사용자당 수익은 대규모 기여를 유도할 만큼 매력적일 수 있어 흥미로운 결과를 가져올 수 있습니다. 데이터 DAO에 대한 "왜 지금"입니다.

데이터 벽 극복

데이터 DAO는 새로운 고품질 데이터 세트를 생성하고 AI의 데이터 벽을 극복할 수 있는 잠재적으로 유망한 경로 중 하나입니다. 그것이 정확히 어떻게 결실을 맺을지는 아직 알 수 없지만, 우리는 이 공간이 발전하는 것을 보게 되어 기쁩니다.

이 공간에서 일하는 건축업자라면 연락해 주세요. 우리는 여러분의 의견을 듣고 싶습니다.

리뷰를 작성해주신 Matt Lim , Tom Hamer , Anastasios Angelopoulos , Nish Bhat 에게 감사드리며, 이러한 아이디어에 도움을 주신 Variant 팀에게도 감사드립니다!

Li의 뉴스레터를 읽어주셔서 감사합니다! 새로운 게시물을 받고 내 작업을 지원하려면 무료로 구독하세요.

섹터:
출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트