人工智慧训练与推理技术堆叠：从晶片到感知

08-21

本文为机器翻译

展示原文

人工智能的快速发展离不开复杂的技术基础设施。这种人工智能技术堆栈是一种分层的硬件和软件架构，构成了当今人工智能革命的支柱。在这里，我们深入研究堆栈的主要层，并解释它们各自如何促进人工智能的开发和实施。最后，我们反思了在评估加密和人工智能交叉领域的机会（尤其是 GPU 网络等 DePin（去中心化物理基础设施）项目）的背景下理解这些原语的重要性。

硬件层：硅基

其基础是硬件，即驱动人工智能的物理计算能力。

CPU（中央处理器）是计算的基础处理器。它们擅长执行顺序任务，对于通用计算至关重要，包括数据预处理、小规模 AI 任务和协调其他组件。

GPU（图形处理单元）最初是为渲染图形而设计的，由于能够同时执行许多简单计算，GPU 已成为 AI 不可或缺的一部分。这种并行处理能力使其成为训练深度学习模型的理想选择，如果没有 GPU 的进步，现代 GPT 就不可能实现。

AI 加速器是专为 AI 工作负载设计的专用芯片。它们优化常见的 AI 操作，为训练和推理任务提供高性能和能效。

FPGA（现场可编程门阵列）通过其可重新编程的特性提供了灵活性。它们可以针对特定的 AI 任务进行优化，特别是在低延迟至关重要的推理场景中。

低级软件：中介

AI 技术栈的这一层至关重要，因为它弥合了高级 AI 框架与底层硬件之间的差距。CUDA 、ROCm、OneAPI 和 SNPE促进了高级框架与特定硬件架构之间的联系，从而实现了性能优化。

CUDA是 NVIDIA 的专有软件层，是该公司在 AI 硬件市场取得显著优势的基石。NVIDIA 的主导地位不仅仅是其卓越的硬件，更是其软件和由此产生的生态系统整合的网络效应力量的证明。

CUDA 的影响力源自其在 AI 技术栈中的深厚根基，它提供了大量优化库，这些库已成为该领域的事实上的标准。这种软件护城河创造了强大的网络效应：在培训期间精通 CUDA 的 AI 研究人员和开发人员在学术界和工业界推广其使用。

由此产生的良性循环巩固了 NVIDIA 的市场领导地位，因为基于 CUDA 的工具和库的生态系统对于 AI 从业者来说变得越来越不可或缺。

这种软件与硬件的共生关系不仅巩固了 NVIDIA 在 AI 计算领域的领先地位，还赋予了该公司强大的定价权，这在通常商品化的硬件市场中是罕见的。

CUDA 的主导地位和其竞争对手的相对默默无闻可以归因于多种因素的汇合，这些因素造成了巨大的进入壁垒。NVIDIA 在 GPU 加速计算领域的先发优势使 CUDA 能够在竞争对手站稳脚跟之前建立起强大的生态系统。尽管 AMD 和英特尔等一些竞争对手拥有出色的硬件，但他们的软件层缺乏库、工具，并且无法与现有技术堆栈无缝集成，这就是 NVIDIA/CUDA 与任何其他竞争对手之间存在巨大差距的原因。

编译者：翻译者

TVM（张量虚拟机）、MLIR（多级中间表示）和 PlaidML 为跨不同硬件架构优化 AI 工作负载的挑战提供了不同的方法。

TVM 诞生于华盛顿大学的研究，它能够针对从高性能 GPU 到资源受限的边缘设备等各种设备优化深度学习模型，因此迅速获得了关注。它的优势在于其端到端优化管道，这在推理场景中已被证明特别有效。它完全抽象了底层供应商和硬件的差异，因此推理工作负载可以在非统一硬件（从 NVIDIA 设备到 AMD、IntelETC）上无缝运行。

然而，除了推理之外，事情变得更加复杂。人工智能训练的圣杯——可替代计算——仍未解决。然而，在这方面有几个举措值得一提。

MLIR 是 Google 的项目，它采用了一种更基础的方法。通过为多个抽象级别提供统一的中间表示，它旨在简化整个编译器基础架构，同时针对推理和训练用例。

PlaidML 目前由英特尔领导，是这场竞赛中的一匹黑马。该公司专注于跨各种硬件架构（包括传统 AI 加速器以外的硬件架构）的可移植性，这表明未来 AI 工作负载将遍布各个计算平台。

如果这些编译器中的任何一个能够很好地集成到技术堆栈中，这样它就不会损害模型性能，也不需要开发人员进行任何额外的修改，这些举措可能会危及 CUDA 的护城河，因为它们为各种 AI 框架和硬件后端提供了共同的基础。然而，目前，MLIR 和 PlaidML 还不够成熟，也没有很好地集成到 AI 技术堆栈中，因此它们对 CUDA 的主导地位并不构成明显的威胁。

分布式计算：协调器

Ray 和 Horovod 代表了 AI 领域分布式计算的两种不同方法，每种方法都解决了大规模 AI 应用中可扩展处理的关键需求。

Ray 由加州大学伯克利分校的 RISELab 开发，是一种通用分布式计算框架。它非常灵活，可以分配除机器学习之外的各种类型的工作负载。Ray 基于参与者的模型使开发人员能够轻松并行化 Python 代码，这使其特别适用于强化学习和其他需要复杂、异构工作流程的 AI 任务。

Horovod 最初由 Uber 开发，专注于分布式深度学习。它提供了一种简单、高效的方式来跨多个 GPU 和节点扩展深度学习训练。Horovod 的优势在于其易用性和针对神经网络数据并行训练的性能优化。它与 TensorFlow、PyTorch 和其他主要框架无缝集成，允许开发人员以最少的代码更改分发他们现有的训练脚本。

结束语：加密货币角度

对于旨在构建分布式计算系统的 DePin 项目来说，与现有 AI 堆栈的集成确实至关重要。集成可确保与当前 AI 工作流程和工具的兼容性，从而降低采用门槛。

加密领域中 GPU 网络的现状本质上是作为去中心化的 GPU 租赁平台，这代表着迈向更复杂的分布式 AI 基础设施的初步步骤。现有网络并非作为分布式云，而是更像 Airbnb 市场。虽然这些平台对某些应用有用，但它们无法支持真正的分布式训练，而这是推进大规模 AI 开发的关键要求。

当前的分布式计算标准（如 Ray 和 Horovod）并非以全球分布式网络为前提而设计的，要使去中心化网络真正发挥作用，我们需要在这一层上建立另一个框架。怀疑论者甚至认为，Transformers 与分布式训练方法不兼容，因为它们需要密集的通信，并且在学习过程中优化全局函数。另一方面，乐观主义者正试图提出新的分布式计算框架，以便与全球分布式硬件很好地配合使用。Yotta是试图解决这一问题的初创公司之一。

NeuroMesh则更进一步。其重新设计机器学习过程的方法尤其具有创新性。通过利用预测编码网络 (PCN) 将全局损失函数替换为局部误差最小化，Neuromesh 解决了分布式 AI 训练中的一个根本瓶颈。这种方法不仅实现了前所未有的并行化，而且还使 AI 训练在 RTX 4090 GPU 等更广泛使用的硬件上可行，从而使 AI 训练变得民主化。也就是说，4090 GPU 具有与 H100 类似的计算能力，但是由于带宽不足，它们在训练过程中没有得到充分利用。随着 PCN 降低带宽的重要性，利用这些低端 GPU 成为可能，从而可以显著节省成本并提高效率。

另一家雄心勃勃的加密 x AI 初创公司GenSyn已设定了构建一套编译器的目标，这些编译器可以使计算可用于 AI 训练——本质上允许任何类型的计算硬件无缝用于 AI 工作负载。打个比方，TVM 用于推理，而 GenSyn 则试图将其用于训练过程。如果成功，它可以极大地扩展分散式 AI 计算网络的功能，使它们能够通过有效利用各种硬件来处理更复杂、更多样化的 AI 任务。这个登月愿景虽然由于跨不同硬件架构进行优化的复杂性和技术风险很高而具有挑战性，但它符合更灵活、更可扩展的 AI 基础设施的大趋势。如果他们实现这一愿景，克服在异构系统之间保持性能等障碍，这项技术可以通过为 AI 训练提供与硬件无关的替代方案，削弱 CUDA 和 NVIDIA 的护城河。

在推理方面： Hyperbolic的方法将可验证推理与异构计算资源的去中心化网络相结合，体现了这种务实的策略。通过利用 TVM 等编译器标准，Hyperbolic 可以利用各种硬件配置，同时保持性能和可靠性。它可以聚合来自多个供应商（从 NVIDIA 到 AMD、IntelETC）的芯片，包括消费级硬件和高性能硬件。

加密与人工智能交叉领域的这些发展预示着未来人工智能计算将变得更加分布式、高效和易于访问。这些项目的成功不仅取决于其技术优势，还取决于其与现有人工智能工作流程无缝集成的能力，以及解决人工智能从业者和企业的实际问题的能力。

AI 训练和推理技术栈：从硅到感知最初发表在 Medium 上的IOSG Ventures中，人们通过强调和回应这个故事继续讨论。