Dữ liệu là dầu mỏ của kỷ nguyên AI, sự tiến hóa của các mô hình AI không thể tách rời khỏi các tập dữ liệu khổng lồ và chất lượng cao. Tuy nhiên, sự phát triển của các mô hình AI mã nguồn mở thường bị hạn chế bởi sự thiếu hụt các tập dữ liệu chất lượng cao. Các nhà phát triển AI đóng nguồn để giảm chi phí thu thập dữ liệu, khiến nhiều người lao động phải thực hiện các công việc tinh thần cường độ cao, nhưng chỉ nhận được mức lương dưới 2 USD mỗi giờ. Những lợi ích mà các mô hình này mang lại tập trung vào tay của một số ít người, làm gia tăng sự bất bình đẳng giữa những người đóng góp.
Trong hệ sinh thái Bittensor, Subnet 33 cũng đang nỗ lực giải quyết vấn đề thiếu hụt các tập dữ liệu chất lượng cao. Vậy, SN 33 hoạt động cụ thể như thế nào? Hiện tại, họ đang có những kết quả như thế nào?
Subnet 33 ReadyAI
Emission: 2,51% (2024-10-13)
Github: https://github.com/afterpartyai/bittensor-conversation-genome-project
Đội ngũ: Đội ngũ đằng sau SN33 đến từ Afterparty AI, một công ty khởi nghiệp được thành lập vào năm 2021 và nhận được 5 triệu USD từ Blockchange Ventures vào tháng 9 năm 2023.
Mục tiêu
SN33 nhằm mục đích cung cấp cho các cá nhân hoặc doanh nghiệp quy trình cấu trúc hóa và đánh dấu ngữ nghĩa dữ liệu với chi phí thấp và tài nguyên tối thiểu. Để đạt được mục tiêu này, SN33 đã đổi mới trong việc đánh dấu và cấu trúc hóa dữ liệu văn bản, chuyển đổi khối lượng lớn dữ liệu đối thoại thô thành dữ liệu có cấu trúc có thể được các ứng dụng AI sử dụng.
Cách thực hiện
SN33 khéo léo kết hợp phương pháp khai thác dữ liệu phân form (fractal data mining) vào kiến trúc Validator-Thợ đào của Bittensor, nhằm thu được các tập dữ liệu có cấu trúc hoàn chỉnh và đáng tin cậy hơn.
Quy trình cụ thể bao gồm:
- Validator:
- Lấy một đoạn dữ liệu đối thoại thô cần được đánh dấu từ data store do họ tự thiết lập hoặc API CGP
- Đánh dấu dữ liệu đối thoại thô
- Chia dữ liệu thô thành nhiều đoạn ngắn chồng chéo lên nhau, sau đó phân phối cho các Thợ đào
2. Thợ đào:
- Sử dụng các mô hình ngôn ngữ lớn để xử lý các đoạn dữ liệu ngắn, tạo ra các nhãn, hồ sơ người tham gia và vector nhúng cho mỗi nhãn ngữ nghĩa
- Gửi lại siêu dữ liệu cho Validator
3. Validator:
- So sánh đánh dấu dữ liệu đối thoại thô với cơ sở sự thật, từ đó chấm điểm cho kết quả đầu ra của Thợ đào
- Đẩy tất cả siêu dữ liệu trở lại data store hoặc API CGP
Phương pháp này không chỉ nâng cao hiệu quả xử lý dữ liệu, mà còn tăng cường tính bền vững của dữ liệu thông qua việc kiểm tra chéo, ngăn ngừa ảnh hưởng đáng kể của một kết quả sai hoặc không chính xác đến toàn bộ tập dữ liệu.
Sản phẩm
ReadyAI được xây dựng dựa trên SN33, là nền tảng công cụ dành cho các nhà phát triển ứng dụng AI. Thông qua dịch vụ của ReadyAI, các nhà phát triển AI có thể chuyển đổi dữ liệu thô mà họ muốn sử dụng thành dữ liệu có cấu trúc, từ đó tối ưu hóa trải nghiệm sản phẩm của họ.
Ví dụ, trang web cung cấp một Demo cho kịch bản Docs Wizards, cho phép người dùng trò chuyện trực tiếp với bản thể AI của CEO Afterparty để tìm hiểu về SN33.
Ngoài ra, để đáp ứng các kịch bản phong phú hơn, nó cũng hỗ trợ các nhà phát triển AI tùy chỉnh các chatbot phù hợp với nhu cầu của họ thông qua Personas API.
Cập nhật
ReadyAI đã công bố một bước tiến mới vào ngày 12 tháng 9 năm 2024, tuyên bố rằng hiệu suất xử lý dữ liệu của các Thợ đào hàng đầu của SN 33 vượt xa mức do người lao động trên nền tảng Mechanical Turk (MTurk) của Amazon đánh dấu, thậm chí vượt cả GPT-4o, đồng thời chi phí cũng đáng kể thấp hơn.
Thử nghiệm này đã chọn 1.270 mẫu đối thoại, sử dụng các mô hình của 5 Thợ đào hàng đầu của SN 33 để đánh dấu, sau đó so sánh với hiệu suất của người lao động MTurk và GPT-4o. Kết quả cho thấy, độ chính xác của việc đánh dấu của Thợ đào cao hơn 71% so với MTurk và 37% so với GPT-4o. Hơn nữa, chi phí đánh dấu của Thợ đào cũng thấp hơn rất nhiều so với lao động thủ công, khoảng 1/660 so với MTurk.
Thử nghiệm này tiếp tục chứng minh lợi thế cạnh tranh của các mô hình ngôn ngữ lớn trong các nhiệm vụ đánh dấu dữ liệu, và dịch vụ đầu ra của SN 33 cũng dẫn đầu GPT-4o trong lĩnh vực này.
Kết luận
Các tập dữ liệu chất lượng cao là một phần không thể thiếu trong việc huấn luyện và tinh chỉnh các mô hình AI. SN 33 cung cấp các tập dữ liệu có chất lượng cao, có thể tùy chỉnh với chi phí thấp, điều này rất có giá trị đối với sự phát triển của các mô hình AI mã nguồn mở. Đặc biệt đối với các doanh nghiệp vừa và nhỏ, giải pháp đánh dấu có thể chi trả được này sẽ giúp họ có được dữ liệu có cấu trúc chất lượng cao với chi phí thấp hơn, từ đó thúc đẩy ứng dụng AI và tự động hóa, tăng cường khả năng cạnh tranh. Sự đổi mới này cho phép nhiều doanh nghiệp tham gia vào sự phát triển của AI và hưởng lợi từ nó.