제목: 내 데이터는 내 것이 아니다: 데이터 레이어의 등장
저자: 0xJeff(@Defi0xJeff)
번역: Asher(@Asher_0210)

사람들의 관심이 온라인에 집중되면서 데이터는 이 시대의 디지털 황금이 되었습니다. 2024년 전 세계 평균 스크린 사용 시간은 하루 6시간 40분으로 증가했습니다. 미국에서는 이 수치가 하루 7시간 3분에 달합니다.
이렇게 높은 참여도로 인해 생성되는 데이터의 양은 엄청납니다. 2024년 하루 3.2877TB의 데이터가 생성될 것으로 예상됩니다. 이를 환산하면 하루 약 0.4ZB(1ZB = 1,000,000,000TB)의 데이터가 새로 생성, 포착, 복제 또는 소비되고 있습니다.
그러나 많은 양의 데이터가 매일 생성되고 소비되고 있음에도 불구하고 사용자가 소유하는 데이터는 매우 적습니다:
소셜 미디어: X, 인스타그램 등의 플랫폼에서 사용자가 생성한 데이터는 회사가 통제합니다.
IoT(사물인터넷): 스마트 기기의 데이터는 일반적으로 제조업체나 서비스 제공업체가 소유합니다.
건강 데이터: 개인은 자신의 의료 기록에 대한 권리가 있지만, 건강 앱이나 웨어러블 기기에서 생성된 대부분의 데이터는 서비스 제공업체가 통제합니다.
암호화 및 소셜 데이터
암호화 분야에서는 Kaito AI의 부상이 눈에 띕니다. Kaito AI는 X 플랫폼의 소셜 데이터를 인덱싱하고 이를 프로젝트, KOL, 사상 지도자가 활용할 수 있는 감성 데이터로 변환합니다. "yap"과 "mindshare"라는 용어는 Kaito 팀이 성장 해킹 전문성(인기 있는 mindshare와 yapper 대시보드를 통해)과 Crypto Twitter에서 유기적 관심을 끌어내는 능력을 보여주기 위해 만들었습니다.
"Yap"은 X 플랫폼에서 양질의 콘텐츠 창작을 장려하는 것을 목표로 하지만, 여전히 해결해야 할 많은 문제가 있습니다:
"yaps"는 어떻게 "정확하게" 평가되나요?
Kaito를 언급하면 추가 "yaps"를 받나요?
Kaito는 진정으로 양질의 콘텐츠를 보상하는 것인지, 아니면 논란의 여지가 있는 인기 있는 의견을 더 선호하나요?
소셜 데이터 외에도 데이터 소유권, 프라이버시, 투명성에 대한 논의가 더욱 활발해지고 있습니다. 인공지능의 급속한 발전으로 새로운 문제가 대두되고 있습니다: 인공지능 모델 학습에 사용된 데이터의 소유권은 누구에게 있나요? 인공지능 생성 결과로부터 누가 혜택을 받을 수 있나요? 이러한 문제들은 Web3 데이터 레이어의 부상을 위한 길을 열어주고 있습니다 - 이는 탈중앙화되고 사용자 주도적인 데이터 생태계로의 전환을 의미합니다.
데이터 레이어의 등장
Web3 영역에서는 개인 데이터 주권을 실현하고 데이터 활용의 기회를 제공하기 위한 점점 더 강력한 데이터 레이어, 프로토콜 및 인프라 생태계가 형성되고 있습니다.
Vana

Vana의 핵심 사명은 사용자가 자신의 데이터, 특히 인공지능 맥락에서 모델 학습에 필수적인 데이터를 통제할 수 있게 하는 것입니다. Vana는 DataDAOs를 출시했는데, 이는 사용자가 공동의 이익을 위해 데이터를 모으는 커뮤니티 주도 엔티티입니다. 각 DataDAO는 특정 데이터 세트에 초점을 맞추고 있습니다:
r/datadao: Reddit 사용자 데이터에 초점을 맞추어 사용자가 자신의 기여를 통제하고 수익화할 수 있게 합니다.
Volara: X 플랫폼 데이터를 다루어 사용자가 자신의 소셜 미디어 활동에서 혜택을 받을 수 있게 합니다.
DNA DAO: 유전 데이터를 프라이버시와 소유권을 중심으로 관리하는 것을 목표로 합니다.
Vana는 데이터를 "DLP"라는 거래 가능한 자산으로 분할합니다. 각 DLP는 특정 분야의 데이터를 집계하며, 사용자는 이러한 풀에 토큰을 스테이킹하여 보상을 받을 수 있습니다. 최상위 풀은 커뮤니티 지원과 데이터 품질에 따라 보상을 받습니다. Vana의 장점은 데이터 기여의 간편성입니다. 사용자는 DataDAO를 선택한 후 API 통합을 통해 데이터를 직접 집계하거나 수동으로 업로드하고 DataDAO 토큰과 VANA 토큰으로 보상을 받을 수 있습니다.
Ocean Protocol

Ocean Protocol은 탈중앙화된 데이터 시장으로, 데이터 제공자가 자신의 데이터를 공유, 판매 또는 라이선스할 수 있고 소비자는 이 데이터를 인공지능 및 연구에 활용할 수 있습니다. Ocean Protocol은 "데이터 토큰"(ERC20 토큰)을 사용하여 데이터 세트에 대한 액세스 권한을 나타내며, 이를 통해 데이터 제공자는 액세스 조건을 유지하면서 데이터를 수익화할 수 있습니다.
Ocean Protocol에서 거래되는 데이터 유형은 다음과 같습니다:
공개 데이터: 날씨 정보, 인구 통계 또는 역사적 주식 데이터와 같은 오픈 데이터 세트로, AI 학습 및 연구에 매우 유용합니다.
개인 데이터: 의료 기록, 금융 거래, IoT 센서 데이터 또는 개인화된 사용자 데이터와 같이 엄격한 프라이버시 통제가 필요합니다.
Compute-to-Data는 Ocean Protocol의 또 다른 핵심 기능으로, 데이터를 이동하지 않고도 데이터에 대한 계산을 수행할 수 있어 민감한 데이터 세트의 프라이버시와 보안을 보장합니다.
Masa

Masa는 AI 학습 데이터를 위한 오픈 레이어를 구축하여 AI 에이전트와 개발자에게 실시간, 고품질, 저비용 데이터를 제공하는 데 초점을 맞추고 있습니다.
Masa는 Bittensor 네트워크에 두 개의 서브넷을 시작했습니다:
서브넷 42(SN42): 매일 수백만 건의 데이터 레코드를 집계하고 처리하여 AI 에이전트와 애플리케이션 개발을 위한 기반을 제공합니다.
서브넷 59(SN59) - "AI Agent Arena": 여기서 AI 에이전트는 SN42의 실시간 데이터를 활용하여 마음 점유율, 사용자 참여도, 자기 향상 등의 성과 지표를 기반으로 TAO 릴리스 물량을 놓고 경쟁합니다.
또한 Masa는 Virtuals Protocol과 협력하여 Virtuals Protocol 에이전트에게 실시간 데이터 기능을 제공하고 있습니다. 그리고 TAOCAT 토큰을 출시하여 자신의 기능을 선보이고 있습니다(현재 Binance Alpha에 상장).
Open Ledger

Open Ledger는 특히 인공지능 및 기계 학습 애플리케이션을 위해 데이터에 맞춤화된 블록체인을 구축하고 있으며, 안전하고 탈중앙화되며 검증 가능한 데이터 관리를 보장하는 것이 핵심입니다:
Datanets: Open Ledger 내부의 전문 데이터 소스 네트워크로, AI 애플리케이션을 위한 실제 세계 데이터를 큐레이팅하고 풍부하게 합니다.
SLMs: 특정 산업 또는 애플리케이션을 위해 맞춤화된 AI 모델입니다. 일반 모델에 존재하는 편향을 피하고 특정 사용 사례에서 더 정확하고 프라이버시 요구 사항을 충족하는 모델을 제공하는 것이 목표입니다.
데이터 검증: 특정 언어 모델(SLMs) 학습에 사용되는 데이터의 정확성과 신뢰성을 보장하여 이러한 모델이 특정 사용 사례에서 정확하고 신뢰할 수 있도록 합니다.
AI 학습을 위한 데이터 수요
고품질 데이터에 대한 수요가 급증하고 있어 인공지능과 자율 에이전트 발전을 추진하고 있습니다. 초기 학습 외에도 인공지능 에이전트는 지속적인 학습과 적응을 위해 실시간
데이터 시장: 중앙화 및 탈중앙화 데이터 시장의 부상은 데이터를 거래 가능한 자산으로 만드는 경제를 창출하고 있습니다. AI 데이터 관리: AI가 데이터 세트를 관리, 정리 및 향상시켜 AI 학습을 위한 데이터 품질을 높이는 데 사용되고 있습니다. AI 에이전트가 더 자율적으로 되면서 실시간 고품질 데이터에 대한 액세스와 처리 능력이 직접적인 영향을 미칠 것입니다. 이러한 수요 증가는 AI 에이전트를 위해 특별히 설계된 데이터 시장을 낳았으며, 여기서 AI 에이전트와 인간 모두 고품질 데이터에 액세스할 수 있습니다. 는 AI 에이전트의 소셜 감성 데이터와 토큰 관련 정보를 집계하여 인간과 AI 에이전트가 활용할 수 있는 인사이트로 전환합니다. 를 통해 AI 에이전트는 실시간 고품질 데이터에 액세스하여 거래 관련 통찰력을 얻을 수 있습니다. 이는 암호화폐 분야에서 가장 일반적인 사용 사례 중 하나입니다. 또한 는 월간 20만 명, 일간 2만 명의 활성 사용자를 보유하며 가장 큰 AI 에이전트 데이터 시장 중 하나이며, 토큰이 핵심입니다. 기타 주목할 만한 프로젝트로는 가 Solana 생태계 인사이트에 초점을 맞추고 있으며, 가 GitHub 및 프로젝트별 분석과 같은 틈새 데이터 대시보드에 초점을 맞추고 있습니다.





