SN 33: Đóng góp các bộ dữ liệu chất lượng cao cho AI nguồn mở

Bài viết này được dịch máy
Xem bản gốc

Dữ liệu là mạch máu của kỷ nguyên AI, thiết yếu cho sự tiến hóa của các mô hình AI. Tuy nhiên, việc phát triển các mô hình AI nguồn mở thường bị hạn chế bởi sự thiếu hụt các tập dữ liệu lớn và chất lượng cao. Ngược lại, các nhà phát triển AI nguồn đóng giảm chi phí thu thập dữ liệu bằng cách sử dụng công nhân cho các nhiệm vụ nhận thức đặc biệt, thường trả ít hơn 2 đô la một giờ. Lợi ích từ những mô hình này tập trung vào tay của một số ít người, làm trầm trọng thêm sự bất bình đẳng giữa các cộng tác viên.

Trong hệ sinh thái Bittensor, Subnet 33 nhằm giải quyết tình trạng thiếu hụt các tập dữ liệu chất lượng cao. SN 33 hoạt động như thế nào và các chỉ số hiệu suất hiện tại của nó là gì?

Subnet 33 ReadyAI

Phát hành: 2,51% (2024-10-13)

Github: https://github.com/afterpartyai/bittensor-conversation-genome-project

Đội ngũ: Đội ngũ đứng sau SN33 đến từ Afterparty AI, một công ty khởi nghiệp được thành lập vào năm 2021. Vào tháng 9 năm 2023, Afterparty AI đã huy động được 5 triệu đô la tài trợ, do Blockchange Ventures dẫn đầu.

Số Bit TAO được Thợ đào của Mạng gốc stake trên SN 33 (Số lượng = Tổng số Bit TAO được Thợ đào stake * Trọng số của Thợ đào trên SN 33)

Mục tiêu

SN33 nhằm cung cấp cho cá nhân và doanh nghiệp một quy trình có chi phí thấp và hiệu quả về tài nguyên để cấu trúc dữ liệu và gán nhãn ngữ nghĩa. Để đạt được điều này, SN33 đã phát triển các sáng tạo trong việc ghi chú và cấu trúc dữ liệu văn bản, biến đổi khối lượng lớn dữ liệu hội thoại thô thành các tập dữ liệu có cấu trúc có thể được sử dụng bởi các ứng dụng AI.

Thực hiện
SN33 tích hợp các phương pháp khai thác dữ liệu phân form vào khung Thợ đào-Khai thác của Bittensor để tạo ra các tập dữ liệu có cấu trúc toàn diện và đáng tin cậy hơn.

https://github.com/afterpartyai/bittensor-conversation-genome-project?tab=readme-ov-file#introduction-to-readyai

Quy trình cụ thể bao gồm:

Thợ đào:
1. Lấy dữ liệu thô từ kho dữ liệu riêng hoặc API CGP.
2. Tạo siêu dữ liệu tổng quan về sự thật dữ liệu.
3. Tạo cửa sổ dữ liệu và phân phối chúng cho Thợ khai thác.

Thợ khai thác:
1. Sử dụng các mô hình ngôn ngữ lớn để xử lý các cửa sổ dữ liệu và cung cấp siêu dữ liệu và ghi chú.
2. Gửi siêu dữ liệu và dữ liệu được ghi chú trở lại cho Thợ đào.

Thợ đào:
1. So sánh dữ liệu được ghi chú như một tiêu chuẩn sự thật với đầu ra của Thợ khai thác, chấm điểm kết quả của họ.
2. Đẩy tất cả siêu dữ liệu trở lại kho dữ liệu riêng hoặc API CGP.

Cách tiếp cận này không chỉ tăng hiệu quả xử lý dữ liệu mà còn tăng cường tính bền vững của dữ liệu thông qua việc kiểm tra chéo, ngăn không cho một lỗi hoặc không chính xác duy nhất ảnh hưởng đáng kể đến tập dữ liệu tổng thể.

Sản phẩm:
ReadyAI là một nền tảng công cụ được xây dựng trên SN33, được thiết kế cho các nhà phát triển ứng dụng AI. Thông qua các dịch vụ của ReadyAI, các nhà phát triển có thể chuyển đổi dữ liệu thô mong muốn của họ thành dữ liệu có cấu trúc, tối ưu hóa trải nghiệm sản phẩm của họ.

https://conversations.xyz/

Ví dụ, trang web cung cấp demo cho kịch bản "Phù thủy tài liệu", nơi người dùng có thể tương tác trực tiếp với một avatar AI của Giám đốc điều hành Afterparty để tìm hiểu thêm về SN33.

Trò chuyện với Super Dave AI

Ngoài ra, đối với các kịch bản phức tạp hơn, các nhà phát triển AI có thể sử dụng Personas API để tùy chỉnh các trợ lý trò chuyện đáp ứng nhu cầu cụ thể của họ.

Ví dụ về Personas API

Cập nhật
Vào ngày 12 tháng 9 năm 2024, ReadyAI đã công bố một bản cập nhật đáng kể, khẳng định rằng các Thợ khai thác hàng đầu của SN 33 đã cung cấp kết quả ghi chú dữ liệu vượt xa chất lượng gán nhãn bằng tay trên nền tảng đông xô của Amazon, Mechanical Turk (MTurk), và thậm chí vượt qua cả GPT-4o, tất cả với chi phí thấp hơn đáng kể.

Trong thí nghiệm này, 1.270 mẫu cuộc trò chuyện đã được gán nhãn bằng các mô hình từ 5 Thợ khai thác hàng đầu của SN 33, và hiệu suất của họ được so sánh với các nhân viên MTurk và GPT-4o. Kết quả cho thấy độ chính xác gán nhãn của Thợ khai thác cao hơn 71% so với MTurk và 37% so với GPT-4o. Ngoài ra, chi phí gán nhãn bởi Thợ khai thác cũng thấp hơn đáng kể - khoảng 1/660 so với MTurk.

Thí nghiệm này càng củng cố lợi thế cạnh tranh của việc sử dụng các mô hình ngôn ngữ lớn cho các nhiệm vụ gán nhãn dữ liệu, chứng minh rằng các dịch vụ của SN 33 cung cấp một giải pháp thay thế tiên tiến hơn so với GPT-4o trong lĩnh vực này.

Kết luận
Các tập dữ liệu chất lượng cao là thiết yếu để huấn luyện và tinh chỉnh các mô hình AI. SN 33 cung cấp các tập dữ liệu được tùy chỉnh và chất lượng cao với chi phí thấp, đặc biệt có giá trị cho việc phát triển các mô hình AI nguồn mở. Đối với các doanh nghiệp vừa và nhỏ, giải pháp này cho phép tiếp cận dữ liệu có cấu trúc chất lượng với chi phí thấp hơn, từ đó thúc đẩy các ứng dụng AI và tự động hóa, nâng cao sức cạnh tranh của họ. Những sáng tạo như vậy cho phép nhiều doanh nghiệp hơn tham gia vào việc phát triển AI và hưởng lợi từ những tiến bộ của nó.

Medium
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận