Tiêu đề bài gốc: Dữ liệu của tôi không phải là của tôi: Sự xuất hiện của các Lớp Dữ liệu
Tác giả bài gốc: 0xJeff (@Defi0xJeff)
Biên dịch: Asher (@Asher_0210)

Do sự chú ý của mọi người tập trung nhiều vào trực tuyến, Dữ liệu là Vàng kỹ thuật số của thời đại này. Năm 2024, thời gian sử dụng màn hình trung bình toàn cầu là 6 giờ 40 phút mỗi ngày, tăng so với các năm trước. Ở Hoa Kỳ, con số này thậm chí còn cao hơn, đạt 7 giờ 3 phút mỗi ngày.
Với mức độ tham gia như vậy, lượng Dữ liệu được tạo ra thật kinh ngạc, năm 2024 sẽ tạo ra 3.2877 TB Dữ liệu mỗi ngày. Quy đổi ra, xét về tất cả Dữ liệu mới được tạo, thu thập, sao chép hoặc tiêu thụ, con số ước tính là khoảng 0,4 ZB Dữ liệu mỗi ngày (1 ZB = 1.000.000.000 TB).
Tuy nhiên, mặc dù lượng Dữ liệu được tạo ra và tiêu thụ hàng ngày là rất lớn, nhưng người dùng lại sở hữu rất ít:
Truyền thông xã hội: Dữ liệu trên các nền tảng như X, Instagram được kiểm soát bởi các công ty, mặc dù Dữ liệu này do người dùng tạo ra;
Internet vạn vật (IoT): Dữ liệu từ các thiết bị thông minh thường thuộc về nhà sản xuất thiết bị hoặc nhà cung cấp dịch vụ, trừ khi có thỏa thuận cụ thể khác;
Dữ liệu sức khỏe: Mặc dù cá nhân có quyền đối với hồ sơ y tế của mình, nhưng phần lớn Dữ liệu từ các ứng dụng sức khỏe hoặc thiết bị đeo lại do các công ty cung cấp các dịch vụ này kiểm soát.
Dữ liệu Crypto và Xã hội
Trong lĩnh vực Crypto, chúng ta đã chứng kiến sự trỗi dậy của Kaito AI, nó đã lập chỉ mục Dữ liệu xã hội trên nền tảng X và chuyển đổi nó thành Dữ liệu cảm xúc có thể hoạt động, phục vụ cho các dự án, KOL và những người dẫn đầu tư tưởng. Các từ "yap" và "mindshare" được nhóm Kaito quảng bá, vì họ có chuyên môn về tăng trưởng hacker (thông qua các bảng điều khiển "mindshare" và "yapper" phổ biến của họ) và khả năng thu hút sự quan tâm hữu cơ trên Crypto Twitter.
"Yap" nhằm mục đích khuyến khích tạo nội dung chất lượng cao trên nền tảng X, nhưng vẫn còn nhiều vấn đề chưa được giải quyết:
"Yaps" được "chấm điểm" chính xác như thế nào?
Nhắc đến Kaito có nhận được thêm "yaps" không?
Kaito thực sự đang thưởng cho nội dung chất lượng cao, hay lại ưu tiên các quan điểm gây tranh cãi và nóng hổi?
Ngoài Dữ liệu xã hội, cuộc thảo luận về quyền sở hữu Dữ liệu, quyền riêng tư và minh bạch cũng ngày càng sôi nổi. Với sự phát triển nhanh chóng của trí tuệ nhân tạo, những câu hỏi mới nổi lên: Ai sở hữu Dữ liệu được sử dụng để huấn luyện các mô hình trí tuệ nhân tạo? Ai có thể hưởng lợi từ kết quả do trí tuệ nhân tạo tạo ra? Những câu hỏi này đã mở đường cho sự xuất hiện của các Lớp Dữ liệu Web3 - một bước tiến hướng tới một hệ sinh thái Dữ liệu phi tập trung, do người dùng dẫn dắt.
Sự xuất hiện của các Lớp Dữ liệu
Trong lĩnh vực Web3, một hệ sinh thái ngày càng lớn mạnh của các Lớp Dữ liệu, giao thức và cơ sở hạ tầng đang hình thành, nhằm mục tiêu thực hiện chủ quyền Dữ liệu cá nhân, cho phép người dùng kiểm soát tốt hơn Dữ liệu của họ và cung cấp cơ hội kiếm tiền.
Vana

Vana có sứ mệnh cốt lõi là để người dùng kiểm soát Dữ liệu của họ, đặc biệt là trong bối cảnh trí tuệ nhân tạo, khi Dữ liệu là vô giá đối với việc huấn luyện các mô hình. Vana đã ra mắt DataDAOs, là các thực thể do cộng đồng điều hành, nơi người dùng tập hợp Dữ liệu của họ để đạt được lợi ích chung. Mỗi DataDAO tập trung vào một tập Dữ liệu cụ thể:
r/datadao: tập trung vào Dữ liệu người dùng Reddit, cho phép người dùng kiểm soát và kiếm tiền từ những đóng góp của họ;
Volara: xử lý Dữ liệu từ nền tảng X, cho phép người dùng hưởng lợi từ hoạt động truyền thông xã hội của họ;
DNA DAO: nhằm quản lý Dữ liệu di truyền với trọng tâm là quyền riêng tư và quyền sở hữu.
Vana chia Dữ liệu thành một loại tài sản có thể giao dịch, được gọi là "DLP". Mỗi DLP tập hợp Dữ liệu từ một lĩnh vực cụ thể, và người dùng có thể đặt cọc token vào các pool này để nhận thưởng, với các pool hàng đầu được thưởng dựa trên sự ủng hộ của cộng đồng và chất lượng Dữ liệu. Điểm nổi bật của Vana là tính đơn giản trong việc đóng góp Dữ liệu. Người dùng chỉ cần chọn một DataDAO, sau đó tổng hợp Dữ liệu của họ trực tiếp thông qua API hoặc tải lên thủ công, cuối cùng nhận được token DataDAO và token VANA làm phần thưởng.
Ocean Protocol

Ocean Protocol là một thị trường Dữ liệu phi tập trung, cho phép các nhà cung cấp Dữ liệu chia sẻ, bán hoặc cấp phép Dữ liệu của họ, trong khi người tiêu dùng có thể truy cập Dữ liệu này để sử dụng cho trí tuệ nhân tạo và nghiên cứu. Ocean Protocol sử dụng "datatokens" (token ERC 20) để biểu thị quyền truy cập vào các tập Dữ liệu, cho phép các nhà cung cấp Dữ liệu thương mại hóa Dữ liệu trong khi vẫn duy trì kiểm soát các điều kiện truy cập.
Các loại Dữ liệu được giao dịch trên Ocean Protocol bao gồm:
Dữ liệu công cộng, chẳng hạn như các tập Dữ liệu mở như thông tin thời tiết, thống kê dân số công cộng hoặc dữ liệu lịch sử cổ phiếu, rất có giá trị cho việc huấn luyện AI và nghiên cứu;
Dữ liệu riêng tư, bao gồm hồ sơ y tế, giao dịch tài chính, dữ liệu cảm biến IoT hoặc Dữ liệu cá nhân hóa người dùng, cần có sự kiểm soát quyền riêng tư nghiêm ngặt.
Tính năng "Compute-to-Data" của Ocean Protocol là một tính năng then chốt, cho phép tính toán trên Dữ liệu mà không cần di chuyển Dữ liệu, đảm bảo quyền riêng tư và bảo mật cho các tập Dữ liệu nhạy cảm.
Masa

Masa tập trung vào việc tạo ra một lớp mở cho Dữ liệu huấn luyện AI, cung cấp Dữ liệu thời gian thực, chất lượng cao và chi phí thấp cho các AI Agent và nhà phát triển.
Masa đã khởi chạy hai mạng con trên Bittensor Network:
Mạng con 42 (SN42): tổng hợp và xử lý hàng triệu bản ghi Dữ liệu mỗi ngày, cung cấp nền tảng cho các AI Agent và ứng dụng phát triển;
Mạng con 59 (SN59) - "Sân vận động AI Agent": một môi trường cạnh tranh, nơi các AI Agent sử dụng Dữ liệu thời gian thực từ SN42 để cạnh tranh về phần chia sẻ tâm trí, sự tham gia của người dùng và các chỉ số hiệu suất như khả năng tự nâng cao.
Ngoài ra, Masa hợp tác với Virtuals Protocol để cung cấp khả năng Dữ liệu thời gian thực cho các AI Agent của Virtuals Protocol. Họ cũng đã ra mắt token TAOCAT, thể hiện năng lực của họ (hiện đang ở Binance Alpha).
Open Ledger

Open Ledger đang xây dựng một blockchain được thiết kế riêng cho Dữ liệu, đặc biệt là cho các ứng
Thị trường dữ liệu: Sự xuất hiện của thị trường dữ liệu (tập trung và phi tập trung) đang tạo ra một nền kinh tế nơi dữ liệu trở thành tài sản có thể giao dịch;
Trí tuệ nhân tạo trong quản lý dữ liệu: Trí tuệ nhân tạo hiện đang được sử dụng để quản lý, làm sạch và tăng cường các tập hợp dữ liệu, cải thiện chất lượng dữ liệu để huấn luyện Trí tuệ nhân tạo.
Khi các AI Agent trở nên tự chủ hơn, khả năng truy cập và xử lý dữ liệu chất lượng cao theo thời gian thực của chúng sẽ ảnh hưởng trực tiếp đến hiệu quả của chúng. Nhu cầu tăng lên đã tạo ra các thị trường dữ liệu được thiết kế đặc biệt cho các AI Agent, nơi cả AI Agent và con người có thể truy cập vào dữ liệu chất lượng cao.
Thị trường dữ liệu cho AI Agent trong Web3
Cookie DAO đã tổng hợp dữ liệu cảm xúc xã hội của các AI Agent cũng như thông tin liên quan đến token, chuyển đổi chúng thành những hiểu biết có thể được vận hành bởi cả con người và AI Agent. Cookie DataSwarm API cho phép các AI Agent truy cập vào dữ liệu chất lượng cao theo thời gian thực để thu thập những hiểu biết liên quan đến giao dịch, một trong những ứng dụng phổ biến nhất trong lĩnh vực tiền điện tử. Hơn nữa, Cookie có 200.000 người dùng hoạt động hàng tháng và 20.000 người dùng hoạt động hàng ngày, trở thành một trong những thị trường dữ liệu lớn nhất dành cho AI Agent, với token COOKIE là lõi của nó.
Cuối cùng, một số dự án khác đáng chú ý trong lĩnh vực này bao gồm:
GoatIndex.ai tập trung vào các hiểu biết về hệ sinh thái Solana;
Decentralised.Co tập trung vào các bảng điều khiển dữ liệu niche như phân tích GitHub và dự án cụ thể.





