撰文:Geng Kai、Eric,DFG
引言
自 2023 年以來,AI 和 DePIN 都是 Web3 中的熱門趨勢,其中 AI 的市值為300 億美元,而 DePIN 的市值為230 億美元。這兩個類別非常龐大,每個類別都涵蓋了各種不同的協議,這些協議服務於不同的領域和需求,應該單獨涵蓋。然而,本文旨在討論兩者之間的交集,並研究該領域協議的發展。
在 AI 技術堆棧中,DePIN 網絡通過計算資源為 AI 提供實用性。大型科技公司的發展導致GPU 短缺,這導致其他正在構建自己的 AI 模型的開發人員缺乏足夠的 GPU 進行計算。這通常會導致開發人員選擇中心化雲提供商,但由於必須簽署不靈活的長期高性能硬件合同,導致效率低下。
DePIN 本質上提供了一種更加靈活且更具成本效益的替代方案,它使用代幣獎勵來激勵符合網絡目標的資源貢獻。人工智能中的 DePIN 將 GPU 資源從個人所有者眾包到數據中心,為需要訪問硬件的用戶形成統一的供應。這些 DePIN 網絡不僅為需要計算能力的開發人員提供可定製性和按需訪問,還為可能難以通過閒置獲利的 GPU 所有者提供額外收入。
市場上有如此多的 AI DePIN 網絡,可能很難識別它們之間的差異並找到所需的正確網絡。在下一部分中,我們將探討每種協議的作用以及它們試圖實現的目標,以及它們已經實現的一些具體亮點。
AI DePIN網絡概述
這裡提到的每個項目都有一個類似的目的——GPU 計算市場網絡。本文這一部分的目的是研究每個項目的亮點、它們的市場重點以及它們所取得的成就。通過首先了解它們的關鍵基礎設施和產品,我們可以深入瞭解它們之間的差異,這將在下一節中介紹。
Render是提供 GPU 計算能力的 P2P 網絡的先驅,之前專注於為內容創作渲染圖形,後來通過集成Stable Diffusion等工具集,將其範圍擴展到包括從神經反射場 (NeRF) 到生成 AI 的 AI計算任務。
有趣之處:
由擁有奧斯卡獲獎技術的雲圖形公司 OTOY 創立
GPU 網絡已被派拉蒙影業、PUBG、星際迷航等娛樂行業的大公司所使用
與 Stability AI 和 Endeavor 合作,利用 Render 的 GPU 將他們的 AI 模型與 3D 內容渲染工作流程相集成
批准多個計算客戶端,集成更多 DePIN 網絡的 GPU
Akash將自己稱為“託管版 Airbnb”,將自己定位為支持存儲、GPU 和 CPU 計算的傳統平臺(如 AWS)的“超級雲”替代品。利用Akash 容器平臺和Kubernetes 管理的計算節點等開發人員友好型工具,它能夠跨環境無縫部署軟件,從而能夠運行任何雲原生應用程序。
有趣之處:
針對從通用計算到網絡託管的廣泛計算任務
AkashML 允許其 GPU 網絡在 Hugging Face 上運行超過 15,000 個模型,同時與 Hugging Face 集成
Akash 上託管著一些值得注意的應用程序,例如 Mistral AI 的 LLM 模型聊天機器人、Stability AI 的SDXL文本轉圖像模型,以及 Thumper AI 的新基礎模型AT-1
構建元宇宙、人工智能部署和聯邦學習的平臺正在利用 Supercloud
io.net提供對分佈式 GPU 雲集群的訪問,這些集群專門用於 AI 和 ML 用例。它聚合了來自數據中心、加密礦工和其他去中心化網絡等領域的 GPU。該公司之前是一家量化交易公司,在高性能 GPU 價格大幅上漲後,該公司轉向了目前的業務。
有趣之處:
其 IO-SDK 與 PyTorch 和 Tensorflow 等框架兼容,其多層架構可根據計算需求自動動態擴展
支持創建3 種不同類型的集群,可在 2 分鐘內啟動
強有力的合作努力,以整合其他 DePIN 網絡的 GPU,包括 Render、Filecoin、Aethir 和 Exabits
Gensyn提供專注於機器學習和深度學習計算的 GPU 計算能力。它聲稱與現有方法相比,通過結合使用諸如用於驗證工作的學習證明、用於重新運行驗證工作的基於圖形的精確定位協議以及涉及計算提供商的質押和削減的 Truebit 式激勵遊戲等概念,實現了更高效的驗證機制。
有趣之處:
預計 V100 等效 GPU 的每小時成本約為 0.40 美元/小時,從而大幅節省成本
通過證明堆疊,可以對預先訓練的基礎模型進行微調,以完成更具體的任務
這些基礎模型將是去中心化的、全球擁有的,除了硬件計算網絡之外還提供額外的功能
Aethir專門搭載企業 GPU,專注於計算密集型領域,主要是人工智能、機器學習 (ML)、雲遊戲等。其網絡中的容器充當執行基於雲的應用程序的虛擬端點,將工作負載從本地設備轉移到容器,以實現低延遲體驗。為了確保為用戶提供優質服務,他們根據需求和位置將 GPU 移近數據源,從而調整資源。
有趣之處:
除了人工智能和雲遊戲,Aethir 還擴展到雲手機服務,並與 APhone 合作推出去中心化的雲智能手機
與 NVIDIA、Super Micro、HPE、富士康和 Well Link 等大型 Web2 公司建立了廣泛的合作伙伴關係
Web3 中的多個合作伙伴,例如 CARV、Magic Eden、Sequence、Impossible Finance 等
Phala Network充當 Web3 AI 解決方案的執行層。其區塊鏈是一種無需信任的雲計算解決方案,通過使用其可信執行環境 (TEE) 設計來處理隱私問題。其執行層不是用作 AI 模型的計算層,而是使 AI 代理能夠由鏈上的智能合約控制。
有趣之處:
充當可驗證計算的協處理器協議,同時也使 AI 代理能夠鏈上資源
其人工智能代理合約可通過 Redpill 獲得 OpenAI、Llama、Claude 和 Hugging Face 等頂級大型語言模型
未來將包括 zk-proofs、多方計算 (MPC)、全同態加密 (FHE) 等多重證明系統
未來支持H100等其他TEE GPU ,提升計算能力
項目比較
Render | Akash | io.net | Gensyn | Aethir | Phala | |
硬件 | GPU & CPU | GPU & CPU | GPU & CPU | GPU | GPU | CPU |
業務重點 | 圖形渲染和AI | 雲計算、渲染和AI | AI | AI | 人工智能、雲遊戲和電信 | 鏈上 AI 執行 |
AI任務類型 | 推理 | Both | Both | 訓練 | 訓練 | 執行 |
工作定價 | 基於表現的定價 | 反向拍賣 | 市場定價 | 市場定價 | 招標系統 | 權益計算 |
區塊鏈 | Solana | Cosmos | Solana | Gensyn | Arbitrum | Polkadot |
數據隱私 | 加密&散列 | mTLS 身份驗證 | 數據加密 | 安全映射 | 加密 | TEE |
工作費用 | 每項工作 0.5-5% | 20% USDC, 4% AKT | 2% USDC,0.25% 準備金費用 | 費用低廉 | 每個session 20% | 與質押金額成比例 |
安全 | 渲染證明 | 權益證明 | 計算證明 | 權益證明 | 渲染能力證明 | 繼承自中繼鏈 |
完成證明 | - | - | 時間鎖證明 | 學習證明 | 渲染工作證明 | TEE 證明 |
質量保證 | 爭議 | - | - | 核實者和舉報人 | 檢查器節點 | 遠程證明 |
GPU 集群 | 否 | 是 | 是 | 是 | 是 | 否 |
重要性
集群和並行計算的可用性
分佈式計算框架實現了 GPU 集群,在不影響模型準確性的情況下提供更高效的訓練,同時增強了可擴展性。訓練更復雜的 AI 模型需要強大的計算能力,這通常必須依靠分佈式計算來滿足其需求。從更直觀的角度來看,OpenAI 的 GPT-4 模型擁有超過 1.8 萬億個參數,在 3-4 個月內使用 128 個集群中的約 25,000 個 Nvidia A100 GPU 進行訓練。
此前,Render 和 Akash 僅提供單一用途的 GPU,這可能會限制其對 GPU 的市場需求。不過,大多數重點項目現在都已整合了集群以實現並行計算。io.net 與 Render、Filecoin 和 Aethir 等其他項目合作,將更多 GPU 納入其網絡,並已成功在 24 年第一季度部署了超過 3,800 個集群。儘管 Render 不支持集群,但它的工作原理與集群類似,將單個幀分解為多個不同的節點,以同時處理不同範圍的幀。Phala 目前僅支持 CPU,但允許將 CPU 工作器集群化。
將集群框架納入 AI 工作流程網絡非常重要,但滿足 AI 開發人員需求所需的集群 GPU 數量和類型是一個單獨的問題,我們將在後面的部分中討論。
數據隱私
開發 AI 模型需要使用大量數據集,這些數據集可能來自各種來源,形式各異。個人醫療記錄、用戶財務數據等敏感數據集可能面臨暴露給模型提供商的風險。三星因擔心敏感代碼上傳到平臺會侵犯隱私而內部禁止使用 ChatGPT,微軟的 38TB 私人數據洩露事故進一步凸顯了在使用 AI 時採取足夠安全措施的重要性。因此,擁有各種數據隱私方法對於將數據控制權交還給數據提供商至關重要。
所涵蓋的大多數項目都使用某種形式的數據加密來保護數據隱私。數據加密可確保網絡中從數據提供者到模型提供者(數據接收者)的數據傳輸受到保護。Render 在將渲染結果發佈回網絡時使用加密和哈希處理,而 io.net 和 Gensyn 則採用某種形式的數據加密。Akash 使用 mTLS 身份驗證,僅允許租戶選擇的提供商接收數據。
然而,io.net 最近與 Mind Network 合作推出了完全同態加密 (FHE),允許在無需先解密的情況下處理加密數據。通過使數據能夠安全地傳輸用於培訓目的而無需洩露身份和數據內容,這項創新可以比現有的加密技術更好地確保數據隱私。
Phala Network 引入了 TEE,即連接設備主處理器中的安全區域。通過這種隔離機制,它可以防止外部進程訪問或修改數據,無論其權限級別如何,即使是對機器具有物理訪問權限的個人。除了 TEE 之外,它還在其 zkDCAP 驗證器和jtee命令行界面中結合了 zk-proofs 的使用,以便與 RiscZero zkVM 集成的程序。
計算完成證明和質量檢查
這些項目提供的 GPU 可為一系列服務提供計算能力。由於這些服務範圍廣泛,從渲染圖形到 AI 計算,因此此類任務的最終質量可能不一定總是符合用戶的標準。可以使用完成證明的形式來表示用戶租用的特定 GPU 確實用於運行所需的服務,並且質量檢查對請求完成此類工作的用戶有益。
計算完成後,Gensyn 和 Aethir 都會生成證明以表明工作已完成,而 io.net 的證明則表明租用的 GPU 的性能已得到充分利用且沒有出現問題。Gensyn 和 Aethir 都會對已完成的計算進行質量檢查。對於 Gensyn,它使用驗證者重新運行生成的證明的部分內容以與證明進行核對,而舉報人則充當對驗證者的另一層檢查。同時,Aethir 使用檢查節點來確定服務質量,對低於標準的服務進行處罰。Render 建議使用爭議解決流程,如果審查委員會發現節點存在問題,則削減該節點。Phala 完成後會生成 TEE 證明,確保 AI 代理在鏈上執行所需的操作。
硬件統計數據
Render | Akash | io.net | Gensyn | Aethir | Phala | |
GPU數量 | 38177 | - | - | |||
CPU數量 | 5433 | - | - | 30000+ | ||
H100/A100數量 | - | - | - | |||
H100費用/小時 | - | $1.46 | $1.19 | - | - | - |
A100費用/小時 | - | $1.37 | $1.50 | $0.55 (預計) | $0.33 (預計) | - |
高性能 GPU 的要求
由於 AI 模型訓練需要性能最佳的 GPU,因此他們傾向於使用 Nvidia 的 A100 和 H100 等 GPU,儘管後者在市場上的價格很高,但它們提供最佳質量。看看 A100 如何不僅能夠訓練所有工作負載,而且還能以更快的速度完成訓練,這隻能說明市場對這種硬件的重視程度。由於 H100 的推理性能比 A100 快 4 倍,因此它現在已成為首選 GPU,尤其是對於正在訓練自己的 LLM 的大型公司而言。
對於去中心化的 GPU 市場提供商來說,要想與 Web2 同行競爭,它不僅要提供更低的價格,還要滿足市場的實際需求。2023年,Nvidia 向中心化的大型科技公司交付了超過 50 萬臺 H100,這使得獲取儘可能多的同等硬件以與大型雲提供商競爭變得成本高昂且困難重重。因此,考慮這些項目可以以低成本帶入其網絡的硬件數量對於將這些服務擴展到更大的客戶群非常重要。
雖然每個項目都在 AI 和 ML 計算方面有業務,但它們在提供計算的能力方面有所不同。Akash 總共只有 150 多個 H100 和 A100 單元,而 io.net 和 Aethir 則分別獲得了 2000 多個單元。通常,從頭開始預訓練 LLM 或生成模型需要集群中至少 248 到 2000 多個 GPU,因此後兩個項目更適合大型模型計算。
根據此類開發人員所需的集群大小,目前市場上這些去中心化 GPU 服務的成本已經比中心化 GPU 服務低得多。Gensyn 和 Aethir 都宣稱能夠以每小時不到 1 美元的價格租用相當於 A100 的硬件,但這仍需要隨著時間的推移得到證明。
網絡連接的 GPU 集群擁有大量 GPU,每小時成本較低,但與 NVLink 連接的 GPU 相比,它們的一個問題是內存受限。NVLink支持多個 GPU 之間的直接通信,無需在 CPU 和 GPU 之間傳輸數據,即可實現高帶寬和低延遲。與網絡連接的 GPU 相比,NVLink 連接的 GPU 最適合具有許多參數和大型數據集的 LLMS,因為它們需要高性能和密集計算。
儘管如此,對於那些具有動態工作負載需求或需要靈活性和跨多個節點分配工作負載能力的用戶來說,去中心化 GPU 網絡仍可為分佈式計算任務提供強大的計算能力和可擴展性。通過提供比中心化雲或數據提供商更具成本效益的替代方案,這些網絡為構建更多 AI 和 ML 用例打開了寡頭壟斷局面,而不像中心化 AI 模型那樣。
提供消費級 GPU/CPU
儘管 GPU 是渲染和計算所需的主要處理單元,但 CPU 在訓練 AI 模型方面也發揮著重要作用。CPU 可用於訓練的多個部分,包括數據預處理一直到內存資源管理,這對開發人員開發模型非常有用。消費級 GPU 還可用於不太密集的任務,例如對已經預先訓練好的模型進行微調或以更實惠的成本在較小的數據集上訓練較小規模的模型。
儘管 Gensyn 和 Aethir 等項目主要專注於企業級 GPU,但考慮到超過 85% 的消費者 GPU 資源處於閒置狀態,Render、Akash 和 io.net 等其他項目也可以服務於這一部分市場。提供這些選項可以讓他們開發自己的市場利基,讓他們專注於大規模密集型計算、更通用的小規模渲染或兩者之間的混合。
結論
AI DePIN 領域仍然相對較新,面臨著自身的挑戰。他們的解決方案因其可行性而受到批評,並遭遇挫折。例如,io.net 被指控偽造其網絡上的 GPU 號碼,後來通過引入工作量證明流程來驗證設備並防止女巫攻擊,解決了這個問題。
儘管如此,這些去中心化 GPU 網絡中執行的任務和硬件數量仍顯著增加。這些網絡上執行的任務量不斷增加,凸顯了對 Web2 雲提供商硬件資源替代品的需求不斷增長。同時,這些網絡中硬件提供商的激增凸顯了以前未充分利用的供應。這一趨勢進一步證明了 AI DePIN 網絡的產品市場契合度,因為它們有效地解決了需求和供應方面的挑戰。
展望未來,人工智能的發展軌跡指向一個蓬勃發展的數萬億美元的市場,我們認為這些分散的 GPU 網絡將在為開發人員提供經濟高效的計算替代方案方面發揮關鍵作用。通過利用其網絡不斷彌合需求和供應之間的差距,這些網絡將為人工智能和計算基礎設施的未來格局做出重大貢獻。