데이터는 AI 시대의 석유이며, AI 모델의 진화는 대량의 고품질 데이터 세트 없이는 불가능합니다. 그러나 오픈 소스 AI 모델의 발전은 종종 고품질 데이터 세트 부족으로 제한됩니다. 폐쇄형 AI 개발자들은 데이터 수집 비용을 줄이기 위해 많은 근로자들에게 강도 높은 정신 노동을 시키지만, 이들은 시간당 2달러도 되지 않는 보수를 받습니다. 이러한 모델로 인한 혜택은 소수에게 집중되어 기여자 간의 불평등을 악화시키고 있습니다.
Bittensor 생태계에서 Subnet 33은 고품질 데이터 세트 부족 문제를 해결하기 위해 노력하고 있습니다. 그렇다면 SN 33은 구체적으로 어떻게 운영되고 있으며, 현재 성과는 어떠한지 살펴보겠습니다.
Subnet 33 ReadyAI
Emission: 2.51%(2024-10-13)
Github: https://github.com/afterpartyai/bittensor-conversation-genome-project
Team: SN33의 팀은 2021년에 설립된 스타트업 Afterparty AI에서 왔으며, 2023년 9월 Blockchange Ventures로부터 500만 달러의 투자를 받았습니다.
목표
SN33은 개인 또는 기업에게 저비용, 리소스 최소화 데이터 구조화 및 의미 태깅 프로세스를 제공하는 것을 목표로 합니다. 이 목표를 달성하기 위해 SN33은 텍스트 데이터의 태깅과 구조화 부분에서 혁신을 이루어, 대량의 원시 대화 데이터를 AI 애플리케이션에 활용할 수 있는 구조화된 데이터로 변환하고 있습니다.
실행
SN33은 분형 데이터 마이닝 기법을 Bittensor의 검증자-채굴자 아키텍처에 결합하여 더 완전하고 신뢰할 수 있는 구조화된 데이터 세트를 얻고자 합니다.
구체적인 프로세스는 다음과 같습니다:
- 검증자:
- 자체 설정한 데이터 저장소나 CGP API에서 태깅할 원시 대화 데이터를 가져옵니다.
- 원시 대화 데이터에 태깅을 수행합니다.
- 원시 데이터를 중첩되는 여러 단편으로 분할하여 채굴자에게 배포합니다.
2. 채굴자:
- LLM을 사용하여 단편 데이터를 처리하고 태그, 참여자 프로필 및 각 의미 태그의 벡터 임베딩을 생성합니다.
- 메타데이터를 검증자에게 다시 보냅니다.
3. 검증자:
- 원시 대화 데이터의 태깅을 사실 기준으로 사용하여 채굴자의 출력 결과를 평가합니다.
- 모든 메타데이터를 데이터 저장소 또는 CGP API에 푸시합니다.
이 방법은 데이터 처리 효율을 높일 뿐만 아니라 교차 검증을 통해 데이터의 견고성을 높여 단일 오류 또는 부정확한 결과가 전체 데이터 세트에 미치는 영향을 방지합니다.
제품
ReadyAI는 SN33을 기반으로 구축된 AI 애플리케이션 개발자를 위한 도구 플랫폼입니다. ReadyAI 서비스를 통해 AI 개발자는 원시 데이터를 구조화된 데이터로 변환하여 제품 경험을 최적화할 수 있습니다.
예를 들어, 웹사이트에는 Docs Wizards 시나리오에 대한 데모가 제공되어, 사용자가 Afterparty CEO의 AI 아바타와 직접 대화하며 SN33을 이해할 수 있습니다.
또한 더 다양한 시나리오를 위해 AI 개발자는 Personas API를 통해 자신의 요구에 맞는 대화 봇을 사용자 정의할 수 있습니다.
업데이트
ReadyAI는 2024년 9월 12일 새로운 진척 사항을 발표했습니다. SN 33의 상위 채굴자들이 데이터를 처리하는 성능이 아마존의 크라우드소싱 플랫폼 Mechanical Turk(MTurk) 인간 태깅 수준을 크게 능가했고, 심지어 GPT-4o를 능가했으며 비용도 크게 낮다고 밝혔습니다.
이 실험에서는 1,270개의 대화 샘플을 선택하여 SN 33 Top 5 채굴자 모델로 태깅하고, MTurk 근로자와 GPT-4o의 성능과 비교했습니다. 실험 결과, 채굴자의 태깅 정확도는 MTurk보다 71% 높고 GPT-4o보다 37% 높았습니다. 또한 채굴자의 태깅 비용은 MTurk의 약 1/660 수준으로 크게 낮았습니다.
이 실험은 LLM이 데이터 태깅 작업에서 경쟁 우위를 가지고 있으며, SN 33이 제공하는 서비스가 GPT-4o보다 앞서 있음을 보여줍니다.
결론
고품질 데이터 세트는 AI 모델 학습 및 미세 조정에 필수적입니다. SN 33은 저비용으로 고품질, 맞춤형 데이터 세트를 제공함으로써 오픈 소스 AI 모델 발전에 큰 가치를 제공합니다. 특히 중소기업에게는 이러한 저렴한 태깅 솔루션을 통해 더 낮은 비용으로 고품질 구조화 데이터를 확보할 수 있어, AI 애플리케이션 및 자동화를 추진하고 경쟁력을 높일 수 있습니다. 이러한 혁신을 통해 더 많은 기업이 AI 발전에 참여하고 혜택을 받을 수 있게 되었습니다.