原文標題:My Data is Not Mine: The Emergence of Data Layers
原文作者:0xJeff(@Defi0xJeff)
編譯:Asher(@Asher_ 0210 )

由於當下人們的注意力大多集中在線上,數據是這個時代的數字黃金。2024 年全球平均屏幕使用時間為每天 6 小時 40 分鐘,比往年有所增加。在美國,這一數字甚至更高,達到了每天 7 小時 3 分鐘。
在如此高的參與度下,生成的數據量令人震驚,2024 年每天產生 3.2877 TB 的數據。換算下來,考慮到所有新生成、捕獲、複製或消費的數據,每天大約是 0.4 ZB 的數據(1 ZB = 1,000,000,000 TB)。
然而,儘管每天產生和消費大量數據,但用戶擁有的卻很少:
社交媒體:像 X、Instagram 等平臺上的數據由公司控制,儘管這些數據是由用戶生成的;
物聯網 (IoT):智能設備的數據通常屬於設備製造商或服務提供商,除非有具體協議另行說明;
健康數據:雖然個人對自己的醫療記錄擁有權利,但來自健康應用程序或可穿戴設備的大部分數據由提供這些服務的公司控制。
加密和社交數據
在加密領域,我們看到了 Kaito AI 的崛起,它索引了 X 平臺上的社交數據,並將其轉化為可操作的情感數據,供項目、KOL 和思想領袖使用。“yap”和“mindshare”這兩個詞是由 Kaito 團隊推廣的,因為他們在增長黑客方面的專業知識(通過他們受歡迎的 mindshare 和 yapper 儀表板)以及在 Crypto Twitter 上吸引有機興趣的能力。
“Yap”旨在激勵在 X 平臺上創作優質內容,但許多問題仍未得到解答:
“yaps”是如何“準確地”被評分的?
提到 Kaito 會獲得額外的‘yaps’嗎?
Kaito 是真正獎勵優質內容,還是更偏愛有爭議的熱門觀點?
除了社交數據,關於數據所有權、隱私和透明度的討論越來越激烈。隨著人工智能的迅速發展,新的問題浮出水面:誰擁有用於訓練人工智能模型的數據?誰能從人工智能生成的結果中獲益?這些問題為 Web3 數據層的興起鋪平了道路——這是朝著去中心化、用戶主導的數據生態系統轉型的一步。
數據層的出現
在 Web3 領域,一個日益壯大的數據層、協議和基礎設施生態系統正在形成,旨在實現個人數據主權,讓個人能夠更好地掌控自己的數據,並提供貨幣化的機會。
Vana

Vana 的核心使命是讓用戶掌控他們的數據,特別是在人工智能的背景下,數據對於訓練模型是無價的。Vana 推出了 DataDAOs,這是由社區驅動的實體,用戶在這裡彙集他們的數據以實現共同利益。每個 DataDAO 專注於特定的數據集:
r/datadao:專注於 Reddit 用戶數據,使用戶能夠控制和貨幣化他們的貢獻;
Volara:處理 X 平臺數據,讓用戶能夠從他們的社交媒體活動中受益;
DNA DAO:旨在以隱私和所有權為重心管理遺傳數據。
Vana 將數據分割成一種可交易的資產,稱為“DLP”。每個 DLP 聚合特定領域的數據,用戶可以將代幣質押到這些池中以獲得獎勵,頂級池根據社區支持和數據質量獲得獎勵。Vana 的突出之處在於其數據貢獻的簡便性。用戶只需先選擇一個 DataDAO,然後通過 API 集成直接彙總他們的數據或手動上傳數據,最後賺取 DataDAO 代幣和 VANA 代幣作為獎勵。
Ocean Protocol

Ocean Protocol 是一個去中心化的數據市場,允許數據提供者分享、出售或許可他們的數據,同時消費者可以訪問這些數據用於人工智能和研究。Ocean Protocol 使用“datatokens”(ERC 20 代幣)來表示對數據集的訪問權,允許數據提供者在保持對訪問條件的控制的同時實現數據的貨幣化。
在 Ocean Protocol 上交易的數據類型具體有:
公共數據指的是開放數據集,如天氣信息、公共人口統計或歷史股票數據,這些對 AI 訓練和研究非常有價值;
私人數據則包括醫療記錄、財務交易、物聯網傳感器數據或個性化用戶數據,這些需要嚴格的隱私控制。
Compute-to-Data 是 Ocean Protocol 的另一個關鍵特性,允許在數據上進行計算而無需移動數據,從而確保敏感數據集的隱私和安全。
Masa

Masa 專注於為 AI 訓練數據創建一個開放層,為 AI 代理和開發者提供實時、高質量和低成本的數據。
Masa 在 Bittensor 網絡上啟動了兩個子網:
子網 42(SN42):每天聚合和處理數百萬條數據記錄,為人工智能代理和應用程序開發提供基礎;
子網 59(SN59)– "AI Agent Arena":一個競爭環境,在這裡,AI 代理利用來自 SN42 的實時數據,根據心智份額、用戶參與度和自我提升等績效指標競爭 TAO 釋放量。
此外,Masa 與 Virtuals Protocol 合作,為 Virtuals Protocol 代理提供實時數據能力。它還推出了 TAOCAT 代幣,展示了其能力(目前在 Binance Alpha 上)。
Open Ledger

Open Ledger 正在構建一個專門為數據量身定製的區塊鏈,特別是針對人工智能和機器學習應用,確保安全、去中心化和可驗證的數據管理,其亮點有:
Datanets:OpenLedger 內部的專業數據源網絡,策劃和豐富用於 AI 應用的真實世界數據;
SLMs:針對特定行業或應用定製的人工智能模型。其理念是提供不僅在小眾用例中更準確,而且符合隱私要求且不易受到通用模型中存在的偏見影響的模型;
數據驗證:確保用於訓練特定語言模型(SLMs)的數據的準確性和可信度,這些模型在特定用例中是準確和可靠的。
人工智能訓練對數據的需求
對高質量數據的需求正在激增,以推動人工智能和自主代理的發展。除了初始訓練,人工智能代理還需要實時數據以進行持續學習和適應,其中關鍵挑戰與機遇為:
數據質量勝於數量:AI 模型需要高質量、多樣化和相關的數據,以避免偏見或性能不佳;
數據主權與隱私:正如 Vana 所示,用戶擁有的數據貨幣化正在受到推動,這可能會重塑 AI 訓練數據的獲取方式;
合成數據:隨著隱私問題的關注,合成數據作為一種在減輕倫理問題的同時訓練人工智能模型的方法,正越來越受到重視;
數據市場:數據市場(中心化和去中心化)的興起正在創造一個數據作為可交易資產的經濟;
數據管理中的人工智能:人工智能現在被用於管理、清理和增強數據集,提高人工智能訓練的數據質量。
隨著人工智能代理變得更加自主,它們對實時高質量數據的訪問和處理能力將直接影響其效果。這種需求的增加催生了專門為人工智能代理打造的數據市場,在這個市場中,人工智能代理和人類都可以獲取優質的數據。
Web3 代理數據市場
Cookie DAO 彙總了 AI 代理的社交情感數據以及與代幣相關的信息,將其轉化為人類和 AI 代理可以操作的洞察。Cookie DataSwarm API 使 AI 代理能夠訪問實時高質量數據,以獲取與交易相關的見解,這也是加密領域中最常見的應用之一。此外,Cookie 擁有 20 萬月活躍用戶和 2 萬日活躍用戶,是最大的 AI 代理數據市場之一,COOKIE 代幣則是其核心。
最後,該領域其他值得關注的項目為:
GoatIndex.ai 專注於 Solana 生態系統洞察;
Decentralised.Co 專注於小眾數據儀表板,如 GitHub 和項目特定分析。





