人工智慧訓練與推理技術堆疊：從晶片到感知

08-21

本文為機器翻譯

展示原文

人工智能的快速發展離不開復雜的技術基礎設施。這種人工智能技術堆棧是一種分層的硬件和軟件架構，構成了當今人工智能革命的支柱。在這裡，我們深入研究堆棧的主要層，並解釋它們各自如何促進人工智能的開發和實施。最後，我們反思了在評估加密和人工智能交叉領域的機會（尤其是 GPU 網絡等 DePin（去中心化物理基礎設施）項目）的背景下理解這些原語的重要性。

硬件層：硅基

其基礎是硬件，即驅動人工智能的物理計算能力。

CPU（中央處理器）是計算的基礎處理器。它們擅長執行順序任務，對於通用計算至關重要，包括數據預處理、小規模 AI 任務和協調其他組件。

GPU（圖形處理單元）最初是為渲染圖形而設計的，由於能夠同時執行許多簡單計算，GPU 已成為 AI 不可或缺的一部分。這種並行處理能力使其成為訓練深度學習模型的理想選擇，如果沒有 GPU 的進步，現代 GPT 就不可能實現。

AI 加速器是專為 AI 工作負載設計的專用芯片。它們優化常見的 AI 操作，為訓練和推理任務提供高性能和能效。

FPGA（現場可編程門陣列）通過其可重新編程的特性提供了靈活性。它們可以針對特定的 AI 任務進行優化，特別是在低延遲至關重要的推理場景中。

低級軟件：中介

AI 技術棧的這一層至關重要，因為它彌合了高級 AI 框架與底層硬件之間的差距。CUDA 、ROCm、OneAPI 和 SNPE促進了高級框架與特定硬件架構之間的聯繫，從而實現了性能優化。

CUDA是 NVIDIA 的專有軟件層，是該公司在 AI 硬件市場取得顯著優勢的基石。NVIDIA 的主導地位不僅僅是其卓越的硬件，更是其軟件和由此產生的生態系統整合的網絡效應力量的證明。

CUDA 的影響力源自其在 AI 技術棧中的深厚根基，它提供了大量優化庫，這些庫已成為該領域的事實上的標準。這種軟件護城河創造了強大的網絡效應：在培訓期間精通 CUDA 的 AI 研究人員和開發人員在學術界和工業界推廣其使用。

由此產生的良性循環鞏固了 NVIDIA 的市場領導地位，因為基於 CUDA 的工具和庫的生態系統對於 AI 從業者來說變得越來越不可或缺。

這種軟件與硬件的共生關係不僅鞏固了 NVIDIA 在 AI 計算領域的領先地位，還賦予了該公司強大的定價權，這在通常商品化的硬件市場中是罕見的。

CUDA 的主導地位和其競爭對手的相對默默無聞可以歸因於多種因素的匯合，這些因素造成了巨大的進入壁壘。NVIDIA 在 GPU 加速計算領域的先發優勢使 CUDA 能夠在競爭對手站穩腳跟之前建立起強大的生態系統。儘管 AMD 和英特爾等一些競爭對手擁有出色的硬件，但他們的軟件層缺乏庫、工具，並且無法與現有技術堆棧無縫集成，這就是 NVIDIA/CUDA 與任何其他競爭對手之間存在巨大差距的原因。

編譯者：翻譯者

TVM（張量虛擬機）、MLIR（多級中間表示）和 PlaidML 為跨不同硬件架構優化 AI 工作負載的挑戰提供了不同的方法。

TVM 誕生於華盛頓大學的研究，它能夠針對從高性能 GPU 到資源受限的邊緣設備等各種設備優化深度學習模型，因此迅速獲得了關注。它的優勢在於其端到端優化管道，這在推理場景中已被證明特別有效。它完全抽象了底層供應商和硬件的差異，因此推理工作負載可以在非統一硬件（從 NVIDIA 設備到 AMD、IntelETC）上無縫運行。

然而，除了推理之外，事情變得更加複雜。人工智能訓練的聖盃——可替代計算——仍未解決。然而，在這方面有幾個舉措值得一提。

MLIR 是 Google 的項目，它採用了一種更基礎的方法。通過為多個抽象級別提供統一的中間表示，它旨在簡化整個編譯器基礎架構，同時針對推理和訓練用例。

PlaidML 目前由英特爾領導，是這場競賽中的一匹黑馬。該公司專注於跨各種硬件架構（包括傳統 AI 加速器以外的硬件架構）的可移植性，這表明未來 AI 工作負載將遍佈各個計算平臺。

如果這些編譯器中的任何一個能夠很好地集成到技術堆棧中，這樣它就不會損害模型性能，也不需要開發人員進行任何額外的修改，這些舉措可能會危及 CUDA 的護城河，因為它們為各種 AI 框架和硬件後端提供了共同的基礎。然而，目前，MLIR 和 PlaidML 還不夠成熟，也沒有很好地集成到 AI 技術堆棧中，因此它們對 CUDA 的主導地位並不構成明顯的威脅。

分佈式計算：協調器

Ray 和 Horovod 代表了 AI 領域分佈式計算的兩種不同方法，每種方法都解決了大規模 AI 應用中可擴展處理的關鍵需求。

Ray 由加州大學伯克利分校的 RISELab 開發，是一種通用分佈式計算框架。它非常靈活，可以分配除機器學習之外的各種類型的工作負載。Ray 基於參與者的模型使開發人員能夠輕鬆並行化 Python 代碼，這使其特別適用於強化學習和其他需要複雜、異構工作流程的 AI 任務。

Horovod 最初由 Uber 開發，專注於分佈式深度學習。它提供了一種簡單、高效的方式來跨多個 GPU 和節點擴展深度學習訓練。Horovod 的優勢在於其易用性和針對神經網絡數據並行訓練的性能優化。它與 TensorFlow、PyTorch 和其他主要框架無縫集成，允許開發人員以最少的代碼更改分發他們現有的訓練腳本。

結束語：加密貨幣角度

對於旨在構建分佈式計算系統的 DePin 項目來說，與現有 AI 堆棧的集成確實至關重要。集成可確保與當前 AI 工作流程和工具的兼容性，從而降低採用門檻。

加密領域中 GPU 網絡的現狀本質上是作為去中心化的 GPU 租賃平臺，這代表著邁向更復雜的分佈式 AI 基礎設施的初步步驟。現有網絡並非作為分佈式雲，而是更像 Airbnb 市場。雖然這些平臺對某些應用有用，但它們無法支持真正的分佈式訓練，而這是推進大規模 AI 開發的關鍵要求。

當前的分佈式計算標準（如 Ray 和 Horovod）並非以全球分佈式網絡為前提而設計的，要使去中心化網絡真正發揮作用，我們需要在這一層上建立另一個框架。懷疑論者甚至認為，Transformers 與分佈式訓練方法不兼容，因為它們需要密集的通信，並且在學習過程中優化全局函數。另一方面，樂觀主義者正試圖提出新的分佈式計算框架，以便與全球分佈式硬件很好地配合使用。Yotta是試圖解決這一問題的初創公司之一。

NeuroMesh則更進一步。其重新設計機器學習過程的方法尤其具有創新性。通過利用預測編碼網絡 (PCN) 將全局損失函數替換為局部誤差最小化，Neuromesh 解決了分佈式 AI 訓練中的一個根本瓶頸。這種方法不僅實現了前所未有的並行化，而且還使 AI 訓練在 RTX 4090 GPU 等更廣泛使用的硬件上可行，從而使 AI 訓練變得民主化。也就是說，4090 GPU 具有與 H100 類似的計算能力，但是由於帶寬不足，它們在訓練過程中沒有得到充分利用。隨著 PCN 降低帶寬的重要性，利用這些低端 GPU 成為可能，從而可以顯著節省成本並提高效率。

另一家雄心勃勃的加密 x AI 初創公司GenSyn已設定了構建一套編譯器的目標，這些編譯器可以使計算可用於 AI 訓練——本質上允許任何類型的計算硬件無縫用於 AI 工作負載。打個比方，TVM 用於推理，而 GenSyn 則試圖將其用於訓練過程。如果成功，它可以極大地擴展分散式 AI 計算網絡的功能，使它們能夠通過有效利用各種硬件來處理更復雜、更多樣化的 AI 任務。這個登月願景雖然由於跨不同硬件架構進行優化的複雜性和技術風險很高而具有挑戰性，但它符合更靈活、更可擴展的 AI 基礎設施的大趨勢。如果他們實現這一願景，克服在異構系統之間保持性能等障礙，這項技術可以通過為 AI 訓練提供與硬件無關的替代方案，削弱 CUDA 和 NVIDIA 的護城河。

在推理方面： Hyperbolic的方法將可驗證推理與異構計算資源的去中心化網絡相結合，體現了這種務實的策略。通過利用 TVM 等編譯器標準，Hyperbolic 可以利用各種硬件配置，同時保持性能和可靠性。它可以聚合來自多個供應商（從 NVIDIA 到 AMD、IntelETC）的芯片，包括消費級硬件和高性能硬件。

加密與人工智能交叉領域的這些發展預示著未來人工智能計算將變得更加分佈式、高效和易於訪問。這些項目的成功不僅取決於其技術優勢，還取決於其與現有人工智能工作流程無縫集成的能力，以及解決人工智能從業者和企業的實際問題的能力。

AI 訓練和推理技術棧：從硅到感知最初發表在 Medium 上的IOSG Ventures中，人們通過強調和回應這個故事繼續討論。