
메타의 LLaMA-4는 높은 기대와 함께 출시되었습니다. 하지만 실망스러웠습니다. 이전 버전과 비교해 추론 능력이 약해지고, 환각 현상이 증가했으며, 전반적인 성능이 저하되었습니다. D-GN의 CEO 요한나 카빌도에 따르면, 그 이유는 컴퓨팅 능력이나 혁신의 부족이 아니라 데이터였습니다.
인터넷의 깨끗하고 다양하며 고품질의 텍스트 공급을 모두 소진한 메타는 합성 데이터, 즉 새로운 AI를 훈련하는 데 사용되는 AI 생성 콘텐츠로 전환했습니다. 이는 모델이 스스로로부터 학습하는 순환을 만들어, 각 주기마다 정확성과 깊이를 잃게 됩니다.
OpenAI, 구글, 앤트로픽 등 다른 주요 기업들도 같은 딜레마에 직면해 있습니다. 풍부한 실제 세계 훈련 데이터의 시대는 끝났습니다. 남은 것은 합성 충전재뿐입니다. 그 결과, 발전이 정체되고 있으며, 발전의 환상은 조용한 쇠퇴를 가리고 있습니다.
누가 데이터를 소유하고 있는가?
2024년 스탠포드 AI 인덱스 보고서에 따르면, 현재 8개 기업이 글로벌 AI 훈련 데이터와 인프라의 89%를 통제하고 있습니다. 이는 단순한 시장 지배력 문제가 아닙니다. 이는 AI에 내재된 지식과 배제된 관점에 영향을 미칩니다.
편향되거나 협소한 데이터셋으로 훈련된 모델은 실제 세계의 해악을 강화할 수 있습니다. 미국 의료 기록을 기반으로 한 AI 도구는 다른 국가의 환자를 오진합니다. 채용 시스템은 비서구권 이름을 가진 지원자를 불이익하고, 안면 인식 기술은 어두운 피부색, 특히 여성에 대해 덜 정확합니다. 필터는 소수자 방언을 공격적이거나 무관한 것으로 침묵시킵니다.
모델이 합성 데이터에 더욱 의존함에 따라 오류는 악화됩니다. 연구자들은 "세련된 허튼소리"를 만들어내는 재귀적 순환을 경고합니다. 2025년 초, 컬럼비아 저널리즘 리뷰는 구글 제미니가 완전히 정확한 인용을 10% 밖에 제공하지 못한다는 것을 발견했습니다. 이러한 시스템이 자체의 결함 있는 출력물을 계속 학습할수록 더 빨리 퇴보합니다.
갇혀있고 배제된
AI 기업들은 공개적으로 이용 가능한 지식의 토대 위에 모델을 구축했습니다. 하지만 이제 같은 기업들이 자사 모델을 폐쇄하고 접근을 수익화하고 있습니다.
2023년 말, 뉴욕타임스는 OpenAI와 마이크로소프트를 무단으로 콘텐츠를 사용한 혐의로 고소했습니다. 한편, 레딧과 스택 오버플로우는 배타적 라이선스 계약을 맺어 OpenAI에 이전에 모두에게 개방되었던 사용자 생성 콘텐츠에 대한 접근권을 제공했습니다.
이 전략은 명확합니다. 무료 공개 지식을 수확하고, 이를 수익화하며, API 뒤에 잠그는 것입니다. 개방형 생태계의 혜택을 누렸던 같은 기업들이 이제는 접근을 제한하면서 합성 데이터를 지속 가능한 대안으로 홍보하고 있습니다. 모델 성능 저하에 대한 증거가 산적해 있음에도 불구하고 말입니다. AI는 스스로로부터 학습해 진화할 수 없습니다. 거울 속에는 통찰력이 없습니다.
다른 길
AI의 데이터 위기를 해결하기 위해서는 더 많은 컴퓨팅이나 더 큰 모델이 필요한 것이 아니라, 데이터 수집, 가치 평가, 관리 방식의 전환이 필요합니다.
웹3 기술은 한 가지 가능한 해결책을 제시합니다. 블록체인은 데이터의 출처를 추적할 수 있습니다. 토큰화된 시스템은 자신의 지식을 기여하는 사람들에게 공정하게 보상할 수 있습니다. 모피어스 랩스 같은 프로젝트는 커뮤니티 입력을 장려함으로써 스와힐리어 언어 AI 성능을 30% 개선했습니다.
영지식 증명과 같은 개인정보 보호 도구는 또 다른 신뢰의 계층을 추가합니다. 이를 통해 개인 데이터를 노출하지 않고도 의료 기록과 같은 민감한 정보로 모델을 훈련할 수 있습니다. 이는 모델이 윤리적으로 학습하면서도 높은 성능을 유지할 수 있도록 보장합니다.
이러한 아이디어는 추측이 아닙니다. 스타트업들은 이미 탈중앙화 도구를 사용하여 전 세계에서 문화적으로 정확하고 개인정보를 존중하는 AI 시스템을 구축하고 있습니다.
미래 되찾기
AI는 사회를 형성하는 시스템을 형성하고 있습니다. 교육, 의료, 일, 그리고 소통입니다. 이제 중요한 질문은 AI가 지배할 것인지가 아니라 누가 그것의 미래를 통제할 것인지입니다.
소수의 기업이 자체 출력물을 재활용하고, 모델 품질을 저하시키며, 편향을 고착화하도록 허용할 것입니까? 아니면 투명성, 공정성, 공동 소유권을 중시하는 새로운 데이터 생태계를 구축하는 데 투자할 것입니까?
문제는 기계가 충분한 데이터를 갖고 있지 않다는 것이 아닙니다. 문제는 그들이 사용하는 데이터가 점점 더 합성적이고, 협소하며, 통제되고 있다는 것입니다. 해결책은 의미 있는 콘텐츠를 만드는 사람들에게 힘을 돌려주고 그들에게 보상하는 것입니다. 더 나은 AI는 더 나은 데이터로부터 시작됩니다. 그리고 더 나은 데이터는 우리로부터 시작됩니다.
이 게시물은 원래 메타버스 포스트에 게재되었습니다.



