SN 33: 오픈 소스 AI에 고품질 데이터 세트 기여

이 기사는 기계로 번역되었습니다
원문 표시

데이터는 AI 시대의 생명줄이며, AI 모델 진화에 필수적입니다. 그러나 오픈소스 AI 모델 개발은 종종 대규모 고품질 데이터세트 부족으로 제한됩니다. 반면, 폐쇄형 AI 개발자들은 집중적인 인지 작업을 위해 근로자를 고용하여 데이터 수집 비용을 줄이며, 종종 시간당 2달러 미만을 지불합니다. 이러한 모델의 혜택은 소수에게 집중되어 기여자 간 불평등을 악화시킵니다.

Bittensor 생태계의 Subnet 33은 고품질 데이터세트 부족 문제를 해결하고자 합니다. SN 33은 어떻게 운영되며 현재 성과 지표는 무엇입니까?

Subnet 33 ReadyAI

Emission:2.51%(2024–10–13)

Github:https://github.com/afterpartyai/bittensor-conversation-genome-project

팀: SN33의 팀은 2021년에 설립된 스타트업 Afterparty AI에서 왔습니다. 2023년 9월, Afterparty AI는 Blockchange Ventures의 주도로 500만 달러의 투자를 받았습니다.

SN 33에 예치된 Root Network 검증인의 총 예치 금액(검증인의 총 예치 금액 * SN 33의 가중치)

목표

SN33은 개인과 기업에게 데이터 구조화 및 의미 레이블링을 위한 저비용, 자원 효율적인 프로세스를 제공하는 것을 목표로 합니다. 이를 위해 SN33은 텍스트 데이터의 주석 및 구조화 혁신을 통해 대량의 원시 대화 데이터를 AI 애플리케이션에서 활용할 수 있는 구조화된 데이터세트로 변환했습니다.

실행
SN33은 Bittensor의 검증인-채굴자 프레임워크에 프랙탈 데이터 마이닝 방법을 통합하여 더 포괄적이고 신뢰할 수 있는 구조화된 데이터세트를 생성합니다.

https://github.com/afterpartyai/bittensor-conversation-genome-project?tab=readme-ov-file#introduction-to-readyai

구체적인 프로세스는 다음과 같습니다:

검증인:
1. 자체 데이터 저장소 또는 CGP API에서 원시 데이터를 가져옵니다.
2. 데이터 기준 진실을 위한 개요 메타데이터를 생성합니다.
3. 데이터 윈도우를 생성하고 채굴자에게 배포합니다.

채굴자:
1. LLM을 사용하여 데이터 윈도우를 처리하고 메타데이터와 주석을 제공합니다.
2. 메타데이터와 주석된 데이터를 검증인에게 보냅니다.

검증인:
1. 주석된 데이터를 사실적 기준으로 채굴자의 출력을 비교하여 결과를 점수화합니다.
2. 모든 메타데이터를 자체 데이터 저장소 또는 CGP API에 푸시합니다.

이러한 접근 방식은 데이터 처리 효율성을 높일 뿐만 아니라 교차 검증을 통해 데이터의 견고성을 향상시켜 단일 오류 또는 부정확성이 전체 데이터세트에 큰 영향을 미치지 않도록 합니다.

제품:
ReadyAI는 SN33을 기반으로 구축된 도구 플랫폼으로, AI 애플리케이션 개발자를 위해 설계되었습니다. ReadyAI의 서비스를 통해 개발자는 원하는 원시 데이터를 구조화된 데이터로 변환하여 제품 경험을 최적화할 수 있습니다.

https://conversations.xyz/

예를 들어, 웹사이트에는 "Docs Wizards" 시나리오에 대한 데모가 제공되어, 사용자가 Afterparty의 CEO AI 아바타와 직접 상호 작용하여 SN33에 대해 자세히 알아볼 수 있습니다.

Super Dave AI 채팅

또한 더 복잡한 시나리오의 경우 AI 개발자는 Personas API를 사용하여 자신의 요구에 맞는 챗봇을 사용자 정의할 수 있습니다.

Personas API 예시

업데이트
2024년 9월 12일, ReadyAI는 중요한 업데이트를 발표했습니다. SN 33의 최고 성과 채굴자들이 제공한 데이터 주석 결과가 Amazon의 크라우드소싱 플랫폼 Mechanical Turk(MTurk) 인력 레이블링 품질을 71% 초과했고, GPT-4o보다 37% 높은 것으로 나타났으며, 비용은 MTurk의 약 1/660 수준이라고 밝혔습니다.

이 실험은 LLM을 데이터 주석 작업에 활용하는 경쟁력을 입증하며, SN 33의 서비스가 이 분야에서 GPT-4o보다 더 발전된 대안을 제공한다는 것을 보여줍니다.

결론
고품질 데이터세트는 AI 모델 학습 및 미세 조정에 필수적입니다. SN 33은 저렴한 비용으로 맞춤형 고품질 데이터세트를 제공하며, 이는 오픈소스 AI 모델 개발에 특히 가치 있습니다. 중소기업의 경우 이 저렴한 솔루션을 통해 품질 높은 구조화된 데이터에 더 저렴한 비용으로 접근할 수 있어 AI 애플리케이션 및 자동화를 구현하고 경쟁력을 높일 수 있습니다. 이러한 혁신을 통해 더 많은 기업이 AI 개발에 참여하고 그 발전으로부터 혜택을 받을 수 있습니다.

Medium
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트