합성 데이터: AI 산업의 솔루션 또는 위험

이 기사는 기계로 번역되었습니다
원문 표시

인공지능 분야가 합성 데이터를 점점 더 많이 사용하고 있지만, 이것이 지속 가능한 길일까?

현재 많은 웹사이트가 AI 기업의 데이터 수집 도구를 차단하고 있습니다. Epoch AI에 따르면 이런 추세가 계속되면 2026년에서 2032년 사이에 AI 학습 데이터가 고갈될 수 있습니다. 이러한 상황에서 Anthropic, Meta, OpenAI 등 AI 기업들은 자사 모델인 Claude 3.5 Sonnet, Llama 3.1, Orion을 학습시키기 위해 합성 데이터를 사용하기 시작했습니다.

이는 데이터 수집 비용과 시간을 줄이고 실제 데이터에 의존하지 않고도 풍부한 데이터 세트를 만들 수 있게 해줍니다. 합성 데이터는 특히 데이터 레이블링, 즉 모델의 정확한 인식과 예측을 가능하게 하는 핵심 요소에 중요한 역할을 합니다.

합성 데이터 시장은 2030년 23.4억 달러 규모에 달할 것으로 예상되며, Gartner는 올해 AI와 분석에 사용되는 데이터의 60%가 합성 데이터일 것으로 전망했습니다. 그러나 합성 데이터에 지나치게 의존하면 데이터의 품질과 다양성 문제가 발생할 수 있습니다.

Rice 대학과 Stanford 대학의 연구에 따르면 AI 모델은 합성 데이터만으로 학습하면 점점 품질과 다양성이 떨어질 수 있습니다. 또한 AI 산업은 합성 데이터가 원본 데이터의 편향성과 한계를 반영할 수 있다는 데이터 편향 문제에 직면하고 있습니다. 결함 있는 데이터로 학습한 모델은 더 많은 결함을 가진 데이터를 생성하는 부정적인 피드백 루프를 만들어낼 수 있습니다.

AI 데이터 재사용의 영원한 문제. 출처: Ilia Shumailov 등.

Allen AI 연구소의 선임 연구원 Luca Soldaini는 "원시" 합성 데이터는 신뢰할 수 없다고 말합니다. 이를 안전하게 사용하려면 면밀한 검토, 정렬 및 필터링이 필요하며, 이상적으로는 새로운 실제 데이터와 결합해야 합니다.

그러나 합성 데이터의 이점을 최대한 활용하려면 기술 업계가 데이터 품질 보장 방법을 계속 연구 개발하고 인력 문제를 해결하여 지속 가능한 발전을 이루어야 합니다.

OpenAI CEO Sam Altman은 AI가 자체적으로 충분히 좋은 합성 데이터를 생성할 수 있을 것이라 예측했지만, 이 기술은 아직 나오지 않았습니다. 기술 업계는 AI의 미래 잠재력을 최적화하기 위해 이점과 위험을 균형 있게 고려해야 합니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트