IOSG 報告:去中心化數據層能否成為 AI 時代的新基礎設施?

avatar
吳說
12-15
作者:IOSG
TL / DR
 
我們曾討論過 AI 和 Web3 能夠如何各取所長,在計算網絡、代理平臺和消費應用等各個垂直產業上相輔相成。當聚焦在數據資源這一垂直領域,Web3 代表項目為數據的獲取、共享和利用提供了新的可能性。
傳統數據提供商難以滿足 AI 和其他數據驅動產業對高質量、實時可驗證數據的需求,尤其在透明度、用戶控制和隱私保護方面存在侷限。
Web3 方案正致力重塑數據生態。MPC、零知識證明和 TLS Notary 等技術確保數據在多個來源之間流通時的真實性和隱私保護,分佈式存儲和邊緣計算則為數據的實時處理提供了更高的靈活性和效率。
其中 去中心化數據網絡 這一新興基礎設施萌生了幾個代表性項目 OpenLayer(模塊化的真實數據層),Grass(利用用戶閒置帶寬和去中心化的爬蟲節點網絡)和 Vana(用戶數據主權 Layer 1 網絡),以不同的技術路徑為 AI 訓練和應用等領域開闢新的前景。
通過眾包的容量、無信任的抽象層和基於代幣的激勵機制,去中心化數據基礎設施能夠提供比 Web2 超大規模服務商更私密、安全、高效且經濟的解決方案,並且賦予用戶對其數據和其相關資源的控制權,構建一個更加開放、安全和互通的數字生態系統。

1. 數據需求浪潮
 
數據已成為各行業創新和決策的關鍵驅動。UBS 預測全球數據量預計將在 2020 年至 2030 年 間增長超過十倍,達到 660 ZB。到 2025 年,全球每人每天將產生 463 EB(Exabytes,1 EB = 10 億 GB)的數據。數據即服務(DaaS)市場在快速擴張。根據 Grand View Research 的報告,全球 DaaS 市場在 2023 年 的估值為 143.6 億美元,預計到 2030 年 將以 28.1% 的複合年增長率增長,最終達到 768 億美元。這些高增長的數字背後是多個產業領域對高質量、實時可信賴數據的需求。

AI 模型訓練依賴大量數據輸入,用於識別模式和調整參數。訓練後也需要數據集測試模型的性能和泛化能力。此外,AI agent 作為未來可預見的新興智能應用形式,需要實時可靠的數據源,以確保準確的決策和任務執行。(Source: Leewayhertz)
商業分析的需求也在變得多樣和廣泛,併成為驅動企業創新的核心工具。比如社交媒體平臺和市場研究公司需要可靠的用戶行為數據來制定策略和洞察趨勢,整合多個社交平臺的多元數據,構建更全面的用戶畫像。
 
對於 Web3 生態,鏈上也需要可靠真實數據來支持一些新型金融產品。隨著越來越多新型資產被通證化,需要靈活且可靠的數據接口,以支持創新產品的開發和風險管理,讓智能合約可以基於可驗證的實時數據執行。此外,還有科研、物聯網(IoT)等領域。
 
新用例表明各行業對於多樣、真實、實時的數據需求激增,而傳統系統可能難以應對快速增長的數據量和不斷變化的需求。

2. 傳統數據生態的侷限性和問題
 
典型的數據生態系統包括數據收集、存儲、處理、分析和應用。中心化模式的特點是數據集中收集並存儲,由核心企業 IT 團隊管理運維,並實施嚴格的訪問控制。
 
比如,谷歌 的數據生態系統涵蓋了從搜索引擎、Gmail 到 Android 操作系統等多個數據源,通過這些平臺收集用戶數據,存儲在其全球分佈的數據中心,然後使用算法處理和分析,以支撐各種產品和服務的開發與優化。
 
在金融市場裡,以 LSEG(前 Refinitiv)為例,其數據和基礎設施通過從全球交易所、銀行和其他主要金融機構獲取實時和歷史數據,同時利用自有的 Reuters News 網絡收集市場相關新聞,運用專有算法和模型生成分析數據和風險評估,作為附加產品提供。



傳統數據架構在專業服務方面有效,但集中化模式的侷限性日益明顯。特別是在新興數據源的覆蓋、透明度和用戶隱私保護方面,傳統數據生態系統正面臨挑戰。這裡例舉幾個方面:
數據覆蓋不足:傳統數據提供商在快速捕捉和分析如社交媒體情緒、物聯網設備數據等新興數據源方面存在挑戰。中心化系統難以高效地獲取和整合來自眾多小規模或非主流來源的“長尾”數據。
 
比如 2021 年 GameStop 事件 也揭示了傳統金融數據提供商在分析社交媒體情緒的侷限性。Reddit 等平臺上的投資者情緒迅速改變了市場走勢,但像 Bloomberg 和 Reuters 這樣的數據終端未能及時捕捉到這些動態,導致市場預測難度加大。
數據可訪問性受限:壟斷限制了可訪問性。許多傳統提供商通過 API / 雲服務 開放部分數據,但高昂的訪問費用和複雜授權流程仍然增加了數據整合的難度。
 
鏈上開發者難以快速接入可靠的鏈下數據,高質量數據被少數巨頭壟斷,訪問成本高。
數據透明度和可信度問題:許多中心化數據提供商對其數據收集和處理方法缺乏透明度,且缺乏有效的機制來驗證大規模數據的真實性和完整性。大規模實時數據的驗證仍然是一個複雜的問題,中心化的本質也增加了數據被篡改或操縱的風險。
隱私保護和數據所有權:大型科技公司和大規模商用平臺廣泛使用用戶數據。用戶作為私人的數據創造者,很難從中獲得應有的價值回報。用戶通常無法瞭解他們的數據如何被收集、處理和使用,也難以決定數據的使用範圍和方式。過度收集和使用數據導致嚴重的隱私風險。
 
例如,Facebook 的 Cambridge Analytica 事件 就揭露了傳統數據提供商如何在使用數據時透明度和隱私保護方面存在巨大漏洞。
數據孤島:此外,不同來源、格式的分散數據難以快速整合,影響了全面分析的可能性。很多數據往往被鎖在組織內部,限制了跨行業和跨組織的數據共享和創新。數據孤島效應 阻礙了跨域的數據整合和分析。

比如在消費行業,品牌需要整合來自電商平臺、實體店、社交媒體和市場研究的數據,但這些數據可能由於平臺形式不統一或被隔離,難以整合。再例如,像 Uber 和 Lyft 這樣的共享出行公司,雖然它們都收集大量來自用戶的,關於交通、乘客需求和地理位置的實時數據,但由於競爭關係,這些數據無法提出並共享整合。

除此以外,還有成本效率、靈活性等問題。傳統數據商正在積極應對這些挑戰,  但異軍突起的 Web3 技術為解決這些問題提供了新的思路和可能性。

3. Web3 數據生態
 
自 2014 年 IPFS(InterPlanetary File System) 等去中心化存儲方案發布以來,業界湧現出一系列新興項目,致力於解決傳統數據生態的侷限性。我們看到去中心化數據解決方案已經形成了一個多層次、相互連接的生態系統,涵蓋了數據生命週期的各個階段,包括數據生成、存儲、交換、處理與分析、驗證與安全,以及隱私與所有權。
數據存儲:Filecoin 和 Arweave 的快速發展證明了去中心化存儲(DCS)正在成為存儲領域的範式轉變。DCS 方案通過分佈式架構減少了單點故障風險,同時以更具競爭力的成本效益吸引參與者。隨著一系列規模化應用案例的湧現,DCS 的存儲容量呈現爆發式增長(例如 Filecoin 網絡的總存儲容量在 2024 年 已達到 22 exabytes)。
 
處理和分析:Fluence 等去中心化數據運算平臺通過邊緣計算(Edge Computing)技術提高了數據處理的實時性和效率,特別適用於物聯網(IoT)和 AI 推理等對實時性要求較高的應用場景。Web3 項目利用聯邦學習、差分隱私、可信執行環境、全同態加密等技術在計算層上提供靈活的隱私保護和權衡。
 
數據市場 / 交換平臺:為了促進數據的價值重化和流通,Ocean Protocol 通過代幣化和 DEX 機制,創建了高效且開放的數據交換渠道,例如幫助傳統制造公司(奔馳母公司 Daimler)合作開發數據交換市場,以幫助供應鏈管理中的數據分享。另一方面,Streamr 則創造了適用於 IoT 和實時分析場景的無許可、訂閱式數據流網絡,在交通、物流項目中顯示了出色的潛力(例如與芬蘭智能城市項目合作)。
 
隨著數據交換和利用的日益頻繁,數據的真實性、可靠性和隱私保護成為了不可忽視的關鍵問題。這促使 Web3 生態系統持續創新迭代到數據驗證和隱私保護領域,催生了一系列突破性的解決方案。

3.1 數據驗證與隱私保護的革新

許多 web3 技術及原生項目正致力於解決數據真實性和私有數據保護問題。除了 ZK,MPC 等技術發展被廣泛應用,其中傳輸層安全協議公證(TLS Notary)作為一種新興的驗證方法尤其值得關注。TLS Notary 簡介傳輸層安全協議(TLS)是一種廣泛用於網絡通信的加密協議,旨在確保客戶端和服務器之間的數據傳輸的安全性、完整性和保密性。它是現代網絡通信中常見的加密標準,被用於 HTTPS、電子郵件、即時通訊等多個場景。


十年前誕生之際,TLS Notary 的最初目標是通過在客戶端(Prover)、服務器以外引入第三方“公證人”來驗證 TLS 會話的真實性。
 
使用密鑰分割技術,TLS 會話的主密鑰被分為兩部分,分別由客戶端和公證人持有。這種設計允許公證人作為可信第三方參與驗證過程,但不能訪問實際通信內容。這種公證機制旨在檢測中間人攻擊、防止欺詐性證書,確保通信數據在傳輸過程中沒有被篡改,並允許受信任的第三方確認通信的合法性,同時保護通信隱私。
 
由此,TLS Notary 提供了安全的數據驗證,並有效平衡了驗證需求和隱私保護。
 
在 2022 年,TLS Notary 項目由以太坊基金會的隱私和擴展探索(PSE)研究實驗室重新構建。新版本的 TLS Notary 協議從頭開始用 Rust 語言重寫,融入了更多先進的加密協議(如 MPC),新的協議功能允許用戶向第三方證明他們從服務器接收到的數據的真實性,同時不洩露數據具體內容。在保持原有 TLS Notary 核心驗證功能的同時,大幅提升了隱私保護能力,使其更適合當前和未來的數據隱私需求。

3.2 TLS Notary 的變體與擴展
 
近年來 TLS Notary 技術也在持續演進,在基礎上發展產生了多個變體,進一步增強了隱私和驗證功能:
zkTLS:TLS Notary 的隱私增強版本,結合了 ZKP 技術,允許用戶生成網頁數據的加密證明,而無需暴露任何敏感信息。它適用於需要極高隱私保護的通信場景。
 
3P-TLS(Three-Party TLS):引入了客戶端、服務器和審計者三方,在不洩露通信內容的情況下,允許審計者驗證通信的安全性。這一協議在需要透明度但同時要求隱私保護的場景中非常有用,如合規審查或金融交易的審計。
 
Web3 項目們使用這些加密技術來增強數據驗證和隱私保護,打破數據壁壘,解決數據孤島和可信傳輸問題,讓用戶得以不洩露隱私地證明如社媒賬號擁有權、用以金融借貸的購物記錄、銀行信用記錄、職業背景和學歷認證等信息,例如:
Reclaim Protocol 使用 zkTLS 技術,生成 HTTPS 流量的零知識證明,允許用戶從外部網站安全導入活動、聲譽和身份數據,而無需暴露敏感信息。
 
zkPass 結合 3P-TLS 技術,允許用戶無洩露地驗證真實世界的私有數據,廣泛應用於 KYC、信用服務等場景,並且與 HTTPS 網絡兼容。
 
Opacity Network 基於 zkTLS,允許用戶安全地證明他們在各個平臺(如 Uber、Spotify、Netflix 等)活動,而無需直接訪問這些平臺的 API,實現跨平臺活動證明。



Web3 數據驗證作為數據生態鏈條上的一個重要環節,應用前景十分廣闊,其生態的興榮正引導著一個更開放、動態和以用戶為中心的數字經濟。然而,真實性驗證技術的發展僅僅是構建新一代數據基礎設施的開始。 

4. 去中心化數據網絡
 
一些項目則結合上述的數據驗證技術,在數據生態的上游,即數據溯源、數據的分佈式採集和可信傳輸上做出更深入的探索。下面重點討論幾個代表性項目:OpenLayer、Grass 和 Vana,它們在構建新一代數據基礎設施方面展現出獨特的潛力。

4.1 OpenLayer
 
OpenLayer 是 a16z Crypto 2024 春季加密創業加速器項目之一,作為首個模塊化的真實數據層,致力於提供一個創新的模塊化解決方案,用於協調數據的收集、驗證和轉換,以同時滿足 Web2 和 Web3 公司的需求。OpenLayer 已吸引了包括 Geometry Ventures、LongHash Ventures 在內的知名基金和天使投資者的支持。
 
傳統數據層存在多重挑戰:缺乏可信驗證機制,依賴中心化架構導致訪問性受限,不同系統間的數據缺乏互操作性和流動性,同時也沒有公平的數據價值分配機制。
 
一個更加具體的問題是,當 AI 訓練數據正在變得日益稀缺。在公共互聯網中,許多網站開始通過爬蟲限制措施來防止 AI 公司大規模獲取數據。
 
而在私密專有數據方面,情況則更為複雜。許多有價值的數據由於其敏感性質而以隱私保護的方式存儲,缺乏有效的激勵機制。在這種現狀下,用戶無法安全地通過提供私人數據獲得直接收益,因此不願意共享這些敏感數據。

為了解決這些問題,OpenLayer 結合數據驗證技術搭建了一個模塊化真實數據層(Modular Authentic Data Layer),並以去中心化經濟激勵的方式來協調數據收集、驗證和轉換過程,為 Web2 和 Web3 公司提供一個更安全、高效率、靈活的數據基礎設施。

4.1.1 OpenLayer 模塊化設計的核心組件
 
OpenLayer 提供了一個模塊化的平臺以簡化數據的收集、可信驗證和轉換過程流程:
 
a) OpenNodes
 
OpenNodes 是 OpenLayer 生態系統中負責去中心化數據收集的核心組件,通過用戶的移動應用、瀏覽器擴展等渠道收集數據,不同的運營商節點可以根據其硬件規格執行最適合的任務而優化回報。
 
OpenNodes 支持三種主要的數據類型,以滿足不同類型任務的需求:
公開可用的互聯網數據(如金融數據、天氣數據、體育數據和社交媒體流)
用戶私人數據(如 Netflix 觀看歷史、Amazon 訂單記錄等)
來自安全來源的自報告數據(如由專有所有者簽名或特定可信硬件驗證的數據)
 
開發者可以輕鬆添加新的數據類型,指定新的數據源、需求和數據檢索方法,用戶可以選擇提供去識別化的數據以換取獎勵。這種設計使得系統可以不斷擴展以適應新的數據需求,多樣化的數據源使得 OpenLayer 能夠為各種應用場景提供全面的數據支持,也降低了數據提供的門檻。

b) OpenValidators
 
OpenValidators 負責收集之後的數據驗證,允許數據消費者確認用戶提供的數據與數據源的完全匹配。所有提供的驗證方法可以進行加密證明的,驗證結果可以在事後被證實。同一類型的證明,有多個不同的提供商提供服務。開發者可以根據自己的需求選擇最適合的驗證提供商。
 
在初始用例中,特別是針對來自互聯網 API 的公共或私有數據,OpenLayer 以 TLS Notary 作為驗證解決方案,從任何 Web 應用程序導出數據,並在不損害隱私的情況下證明數據的真實性。
 
不侷限於 TLS Notary,得益於其模塊化設計,驗證系統可以輕鬆接入其他驗證方法,以適應不同類型的數據和驗證需求包括但不限於:
1. Attested TLS connections:利用可信執行環境(TEE)建立經過認證的 TLS 連接,確保數據在傳輸過程中的完整性和真實性。
 
2. Secure Enclaves:使用硬件級別的安全隔離環境(如 Intel SGX)來處理和驗證敏感數據,提供更高級別的數據保護。
 
3. ZK Proof Generators:集成 ZKP,允許在不洩露原始數據的情況下驗證數據的屬性或計算結果。

c) OpenConnect
 
OpenConnect 是 OpenLayer 生態系統中負責數據轉換、實現可用性的核心模塊,處理來自各種來源的數據,確保數據在不同系統間的互操作性,以滿足不同應用的需求。例如:
將數據轉換為鏈上預言機(Oracle)格式,便於智能合約直接使用。
將非結構化原始數據轉換為結構化數據,為 AI 訓練等目的進行預處理。
 
對於來自用戶私人賬戶的數據,OpenConnect 提供了數據脫敏功能以保護隱私,也提供了組件來增強數據共享過程中的安全性,減少數據洩露和濫用。為滿足 AI 和區塊鏈等應用對實時數據的需求,OpenConnect 支持高效的實時數據轉換。
 
當下,通過 Eigenlayer 的集成,OpenLayer AVS 運營商監聽數據請求任務,負責抓取數據並進行驗證,然後將結果報告回系統,通過 EigenLayer 質押或重質押資產,為其行為提供經濟擔保。如惡意行為被證實,將面臨質押資產被罰沒的風險。作為 EigenLayer 主網上最早的 AVS(主動驗證服務)之一,OpenLayer 已吸引了超過 50 個運營商和 40 億美元 的再質押資產。
 
總體來說,OpenLayer 所構建的去中心化數據層在不犧牲實用性和效率的前提下,擴展了可用數據的範圍和多樣性,同時通過加密技術和經濟激勵,確保了數據的真實性和完整性。其技術對於尋求獲取鏈下信賴的 Web3 Dapp、需要真實輸入來訓練和推斷 AI 模型,以及希望根據其身份和聲譽來細分和定價用戶的公司都有廣泛的實際應用。用戶也得以價值化他們的私有數據。

4.2 Grass
 
Grass 是由 Wynd Network 開發的旗艦項目,旨在創建一個去中心化的網絡爬蟲和 AI 訓練數據平臺。在 2023 年末,Grass 項目完成了由 Polychain Capital 和 Tribe Capital 領投的 350 萬美元種子輪融資。緊接著,在 2024 年 9 月,項目又迎來了由 HackVC 領投的 A 輪融資,Polychain、Delphi、Lattice 和 Brevan Howard 等知名投資機構也參與其中。
 
我們提到 AI 訓練需要新的數據輸入,而其中一個解決方案是使用多 IP 來突破數據訪問的權限,為 AI 進行數據餵養。Grass 由此出發,創造了一個分佈式爬蟲節點網絡,專門致力於去中心化物理基礎設施的方式,利用用戶的閒置帶寬為 AI 訓練收集並提供可驗證數據集。節點通過用戶的互聯網連接路由 web 請求,訪問公開網站並編譯結構化數據集。它使用邊緣計算技術進行初步數據清理和格式化,提高數據質量。
 
Grass 採用了 Solana Layer 2 Data Rollup 架構,建立在 Solana 之上以提高處理效率。Grass 使用驗證器接收、驗證和批處理來自節點的 web 交易,生成 ZK 證明以確保數據真實性。驗證後的數據存儲在數據賬本(L2)中,並鏈接到相應的 L1 鏈上證明。

4.2.1 Grass 主要組件
 
a) Grass 節點
 
與 OpenNodes 類似,C 端用戶 安裝 Grass 應用或瀏覽器擴展並運行,利用閒置帶寬進行網絡爬蟲操作,節點通過用戶的互聯網連接路由 web 請求,訪問公開網站並編譯結構化數據集,使用邊緣計算技術進行初步數據清理和格式化。用戶根據貢獻的帶寬和數據量獲得 GRASS 代幣獎勵。
 
b) 路由器 (Routers)
 
連接 Grass 節點和驗證器,管理節點網絡並中繼帶寬。Routers 被激勵運營並獲得獎勵,獎勵比例與通過其中繼的總驗證帶寬成正比。
 
c) 驗證器 (Validators)
 
接收、驗證和批處理來自路由器的 web 交易,生成 ZK 證明,使用獨特的密鑰集來建立 TLS 連接,為與目標 web 服務器的通信選擇適當的密碼套件。Grass 目前採用中心化驗證器,未來計劃轉向驗證器委員會。
 
d) ZK 處理器 (ZK Processor)
 
接收來自驗證者生成的每個節點會話數據的證明,批處理所有 web 請求的有效性證明並提交到 Layer 1 (Solana)。
 
e) Grass 數據賬本 (Grass L2)
 
存儲完整的數據集,並鏈接到相應的 L1 鏈(Solana)上證明。
 
f) 邊緣嵌入模型
 
負責將非結構化 web 數據轉換為可用於 AI 訓練的結構化模型。



分析對比 Grass 和 OpenLayer
 
OpenLayer 和 Grass 都利用分佈式網絡為公司提供了訪問開放互聯網數據和需要身份驗證的封閉信息的機會。以激勵機制促進了數據共享和高質量數據的生產。兩者都致力於創建一個去中心化數據層(Decentralized Data Layer)以解決數據獲取訪問和驗證的問題,但採用了略有不同的技術路徑和商業模式。

技術架構的不同
 
Grass 使用 Solana Layer 2 Data Rollup 架構,目前採用中心化的驗證機制,使用單一的驗證器。而 OpenLayer 作為首批 AVS,基於 EigenLayer 構建,利用經濟激勵和罰沒機制實現 去中心化的驗證機制。並採用模塊化設計,強調數據驗證服務的可擴展性和靈活性。

產品差異
 
兩者都提供了類似的 To C 產品,允許用戶通過節點進行數據的價值變現。在 To B 側,Grass 提供了一個有趣的數據市場模型,並使用 L2 來驗證並存儲完整的數據,來自 AI 公司提供結構化、高質量、可驗證的訓練集。而 OpenLayer 並沒有暫時專用的數據存儲組件,但提供更廣泛的實時數據流驗證服務(Vaas),除了為 AI 提供數據,也適用於需要快速響應的場景,比如作為 Oracle 為 RWA / DeFi 預測市場項目喂價,提供實時社交數據等。
 
因此,如今 Grass 的目標客戶群主要面向 AI 公司和數據科學家,提供大規模、結構化的訓練數據集,也服務於需要大量網絡數據的研究機構和企業;而 OpenLayer 則暫時面向需要鏈下數據源的鏈上開發者、需要實時、可驗證的數據流的 AI 公司,以及支持創新的用戶獲取策略,如驗證產品使用歷史的 Web2 公司。

未來的潛在競爭
 
然而,考慮到行業發展趨勢,兩個項目的功能確實有可能在未來趨同。Grass 不久後可能也將提供實時的結構化數據。而 OpenLayer 作為一個模塊化平臺,未來也有可能擴展到數據集管理擁有自己的 data ledger,因此兩者的競爭領域可能會逐漸重疊。
 
並且,兩個項目都可能會考慮加入數據標註(data labelling)這一關鍵環節。Grass 在這方面可能會更快推進,因為他們擁有龐大的節點網絡 - 據報道已超過 220 萬 個活躍節點。這一優勢使 Grass 有潛力提供基於人類反饋的強化學習(RLHF)服務,利用大量標註數據來優化 AI 模型。
 
然而,OpenLayer 憑藉其在數據驗證和實時處理方面的專長,其在私人數據的專注,可能會在數據質量和可信度方面保持優勢。此外,OpenLayer 作為 EigenLayer 的 AVS 之一,可能在去中心化驗證機制上有更深入的發展。
 
儘管兩個項目可能在某些領域展開競爭,但它們各自的獨特優勢和技術路線也可能導致它們在數據生態系統中佔據不同的利基市場。


4.3 VAVA
 
作為一個以用戶為中心的數據池網絡,Vana 同樣致力於為 AI 和相關應用提供高質量數據。相比 OpenLayer 和 Grass,Vana 採用了更不同的技術路徑和商業模式。Vana 在 2024 年 9 月完成 500 萬美元融資,由 Coinbase Ventures 領投,此前獲得 Paradigm 領投的 1800 萬美元 A 輪融資,其他知名投資者包括 Polychain、Casey Caruso 等。
 
最初於 2018 年 作為 MIT 的一個研究項目啟動,Vana 旨在成為一個專門為用戶私人數據設計的 Layer 1 區塊鏈。其在數據所有權和價值分配上做出的創新使用戶能夠從基於其數據訓練的 AI 模型中獲利。Vana 的核心在於通過無需信任、私密且可見的數據 數據流動性池(Data Liquidity Pool) 和創新的 Proof of Contribution 機制來實現私人數據的流通和價值化:

4.3.1 數據流動性池(Data Liquidity Pool)
 
Vana 引入了一個獨特的數據流動性池(DLP)概念:作為 Vana 網絡的核心組件,每個 DLP 都是一個獨立的點對點網絡,用於聚合特定類型的數據資產。用戶可以將他們的私人數據(如購物記錄、瀏覽習慣、社交媒體活動等)上傳至特定 DLP,並靈活選擇是否將這些數據授權給特定的第三方使用。數據通過這些流動性池被整合和管理,這些數據經過去識別化處理,確保用戶隱私的同時允許數據參與商業應用,例如用於 AI 模型訓練或市場研究。
 
用戶向 DLP 提交數據並獲得相應的 DLP 代幣(每一個 DLP 都有特定的代幣)獎勵,這些代幣不僅代表用戶數據的總貢獻,還賦予用戶對 DLP 的治理權和未來利潤分配權。用戶不僅可以分享數據,還可以從數據的後續調用中獲取持續的收益(並提供可視化追蹤)。與傳統的單次數據售賣不同,Vana 允許數據持續參與經濟循環。

4.3.2 Proof of Contribution 機制
 
Vana 的另一個核心創新之一是 Proof of Contribution(貢獻證明)機制。這是 Vana 確保數據質量的關鍵機制,讓每個 DLP 可以根據其特性控制獨特的貢獻證明函數,以驗證數據的真實性和完整性,並評估數據對 AI 模型性能提升的貢獻。這一機制確保用戶的數據貢獻得到量化和記錄,從而為用戶提供獎勵。
 
與加密貨幣中的“工作量證明”(Proof of Work)類似,Proof of Contribution 根據用戶貢獻的數據質量、數量以及被使用的頻次來為用戶分配收益。通過智能合約自動執行,確保貢獻者獲得與其貢獻匹配的獎勵。

Vana 的技術架構
 
1. 數據流動性層(Data Liquidity Layer)
這是 Vana 的核心層,負責數據的貢獻、驗證和記錄到 DLPs,將數據作為可轉移的數字資產引入鏈上。DLP 創建部署 DLP 智能合約,設定數據貢獻目的、驗證方法和貢獻參數。數據貢獻者和託管者提交數據進行驗證,貢獻證明(PoC)模塊會執行數據驗證和價值評估,根據參數給予治理權和獎勵。
 
2. 數據可移植層(Data Portability Layer)
這是數據貢獻者和開發者的開放數據平臺,也是 Vana 的應用層。Data Portability Layer 為數據貢獻者和開發者提供一個協作空間,以使用 DLPs 中積累的數據流動性構建應用。為 User-Owned 模型分佈式訓練、AI Dapp 開發提供基礎設施。
 
3. 通用連接組(Connectome)
一個去中心化賬本,也是一個貫穿整個 Vana 生態系統的實時數據流圖,使用權益證明共識(Proof of Stake)記錄 Vana 生態系統中的實時數據交易。確保 DLP 代幣的有效轉移併為應用提供跨 DLP 數據訪問。與 EVM 兼容,允許與其他網絡、協議和 DeFi 應用程序互操作。


Vana 提供了一條較為不同的路徑,專注於用戶數據的流動性和價值賦能,這種去中心化的數據交換模式不僅適用於 AI 訓練、數據市場等場景,也為 Web3 生態系統中用戶數據的跨平臺互通與授權提供了一個新的解決方案,最終創建一個開放的互聯網生態系統,讓用戶擁有並管理自己的數據,以及由這些數據創造的智能產品。

5. 去中心化數據網絡的價值主張
 
數據科學家克萊夫·哈姆比(Clive Humby)在 2006 年 說過數據是新時代的石油。近 20 年間,我們見證了“提煉”技術的飛速發展。大數據分析、機器學習等技術使得數據價值得到了空前釋放。根據 IDC 的預測,到 2025 年,全球數據圈將增長到 163 ZB,其中大部分將來自個人用戶,隨著 IoT、可穿戴設備、AI 與個性化服務等新興科技的普及,未來大量需要用的數據將也將來源於個人。

傳統方案的痛點:Web3 的解鎖創新
 
Web3 數據解決方案通過分佈式節點網絡,突破了傳統設施的侷限,實現了更廣泛、更高效的數據採集,同時提升了特定數據的實時獲取效率和驗證可信度。在此過程中,Web3 技術確保了數據的真實性和完整性,並能有效保護用戶隱私,從而實現更公平的數據利用模式。這種去中心化的數據架構,推動了數據獲取的 民主化。
 
不管是 OpenLayer 和 Grass 的用戶節點模式,還是 Vana 通過用戶私人數據的貨幣化,除了提高特定數據採集的效率,也讓普通用戶共享數據經濟的紅利,創造一種用戶與開發者雙贏的模式,讓用戶真正掌控和獲益於他們的數據和相關資源。
 
通過代幣經濟激勵,Web3 數據方案重新設計了激勵模型,創造了一個更公平的數據價值分配機制。吸引大量用戶、硬件資源與資本的注入,從而協同調節優化了整個數據網絡的運行。
 
相比傳統數據解決方案,它們也擁有 模塊化與可擴展性:比如 OpenLayer 的模塊化設計,為未來的技術迭代和生態擴展提供了靈活性。得益於技術特性,優化 AI 模型訓練的數據獲取方式,提供更豐富、更多樣化的數據集。

從數據生成、存儲、驗證到交換與分析,Web3 驅動的解決方案通過獨有技術優勢解決了傳統設施的諸多弊端,同時也賦予用戶對個人數據的變現能力,引發數據經濟模式的根本轉變。隨著技術進一步發展演進和應用場景的擴大,去中心化數據層有望與其他 Web3 數據解決方案一起,成為下一代關鍵基礎設施,為廣泛的數據驅動型產業提供支持。

 


來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
1
收藏
評論