인공지능의 급속한 발전은 복잡한 기술 인프라에 의해 뒷받침되었습니다. 하드웨어와 소프트웨어의 계층적 아키텍처인 이 AI 기술 스택은 오늘날의 AI 혁명의 중추를 형성합니다. 여기서 우리는 스택의 주요 계층을 탐구하고 각각이 AI 개발 및 구현에 어떻게 기여하는지 설명합니다. 마지막으로 우리는 특히 GPU 네트워크와 같은 DePin(분산형 물리적 인프라) 프로젝트와 같은 암호화 및 AI 교차점에서 기회를 평가하는 맥락에서 이러한 기본 요소를 이해하는 것의 중요성에 대해 생각해봅니다.
하드웨어 계층: 실리콘 재단
기본적으로는 AI를 구동하는 하드웨어, 즉 물리적인 컴퓨팅 능력이 있습니다.
CPU(Central Processing Unit)는 컴퓨팅의 기본 프로세서입니다. 순차적 작업에 뛰어나며 데이터 전처리, 소규모 AI 작업, 다른 구성 요소 조정을 포함한 범용 컴퓨팅에 필수적입니다.
GPU(그래픽 처리 장치)는 원래 그래픽을 렌더링하기 위해 설계되었으며, GPU는 많은 간단한 계산을 동시에 수행할 수 있는 능력으로 인해 AI에 필수적이 되었습니다. 이러한 병렬 처리 능력은 딥 러닝 모델을 훈련하는 데 이상적이며 GPU의 발전 없이는 현대 GPT가 불가능했을 것입니다.
AI 가속기는 AI 워크로드를 위해 특별히 설계된 특수 칩입니다. 일반적인 AI 작업을 최적화하여 훈련 및 추론 작업 모두에 높은 성능과 에너지 효율성을 제공합니다.
FPGA(Field-Programmable Gate Arrays)는 재프로그래밍이 가능한 특성을 통해 유연성을 제공합니다. 특히 낮은 지연 시간이 중요한 추론 시나리오에서 특정 AI 작업에 최적화할 수 있습니다.
저수준 소프트웨어: 중개자
AI 기술 스택의 이 계층은 상위 수준 AI 프레임워크와 기본 하드웨어 간의 격차를 메우기 때문에 중요합니다. CUDA, ROCm, OneAPI 및 SNPE는 상위 수준 프레임워크와 특정 하드웨어 아키텍처 간의 접촉을 용이하게 하여 최적화된 성능을 구현합니다.
NVIDIA의 독점 소프트웨어 계층인 CUDA는 AI 하드웨어 시장에서 회사의 놀라운 우세의 초석으로 자리 잡고 있습니다. NVIDIA의 지배력은 단순히 우수한 하드웨어의 기능이 아니라 소프트웨어와 그에 따른 생태계 통합과 관련하여 네트워크 효과의 힘에 대한 증거입니다.
CUDA의 영향력은 AI 기술 스택에 깊이 자리 잡은 데서 비롯되며, 이 분야에서 사실상의 표준이 된 광범위한 최적화된 라이브러리를 제공합니다. 이 소프트웨어 참호는 강력한 네트워크 효과를 만들어냈습니다. 훈련 중에 CUDA에 정통한 AI 연구자와 개발자는 학계와 산업 모두에서 CUDA 사용을 확산합니다.
이러한 선순환은 CUDA 기반 도구와 라이브러리의 생태계가 AI 실무자에게 점점 더 없어서는 안 될 부분이 되면서 NVIDIA의 시장 리더십을 더욱 강화합니다.
이러한 소프트웨어와 하드웨어의 공생은 NVIDIA가 AI 컴퓨팅의 최전선에 있는 지위를 굳건히 하는 데 도움이 되었을 뿐만 아니라, 전형적으로 상품화된 하드웨어 시장에서 흔치 않은 성과로, 이 회사는 상당한 가격 결정력을 갖게 되었습니다.
CUDA의 우세와 경쟁사의 상대적 모호함은 진입 장벽을 크게 만든 여러 요인이 합쳐진 데 기인할 수 있습니다. GPU 가속 컴퓨팅 분야에서 NVIDIA의 선점우위 덕분에 CUDA는 경쟁사가 발판을 마련하기 전에 강력한 생태계를 구축할 수 있었습니다. AMD와 Intel과 같은 일부 경쟁사가 놀라운 하드웨어를 보유하고 있음에도 불구하고, 소프트웨어 계층에는 라이브러리와 툴링이 부족하고 기존 기술 스택과 완벽하게 통합되지 않아 NVIDIA/CUDA와 다른 경쟁사 간에 엄청난 격차가 있는 것입니다.
컴파일러: 번역자
TVM(Tensor Virtual Machine), MLIR(Multi-Level Intermediate Representation), PlaidML은 다양한 하드웨어 아키텍처에서 AI 워크로드를 최적화하는 과제에 대해 고유한 접근 방식을 제공합니다.
워싱턴 대학의 연구에서 탄생한 TVM은 고성능 GPU부터 리소스가 제한된 에지 디바이스까지 광범위한 디바이스에 대한 딥 러닝 모델을 최적화하는 능력으로 빠르게 주목을 받고 있습니다. 이 기술의 강점은 엔드투엔드 최적화 파이프라인에 있으며, 추론 시나리오에서 특히 효과적임이 입증되었습니다. 기본 공급업체와 하드웨어의 차이점을 완전히 추상화하여 추론 워크로드를 NVIDIA 디바이스부터 AMD, Intel 이더리움 클래식(ETC) 비균일한 하드웨어에서 원활하게 실행할 수 있습니다.
그러나 추론을 넘어서면 상황은 더 복잡해집니다. 성배인 AI 훈련을 위한 대체 가능(fungible) 컴퓨팅은 아직 해결되지 않은 상태입니다. 그러나 이 맥락에서 언급할 만한 몇 가지 이니셔티브가 있습니다.
Google의 프로젝트인 MLIR은 보다 기본적인 접근 방식을 취합니다. 여러 수준의 추상화에 대한 통합된 중간 표현을 제공함으로써 추론 및 훈련 사용 사례를 모두 대상으로 전체 컴파일러 인프라를 간소화하는 것을 목표로 합니다.
현재 Intel의 리더십 하에 있는 PlaidML은 이 경쟁에서 다크호스로 자리매김하고 있습니다. 전통적인 AI 가속기를 넘어선 다양한 하드웨어 아키텍처에서 이식성에 중점을 두고 있어 AI 워크로드가 컴퓨팅 플랫폼 전반에 걸쳐 편재하는 미래를 말해줍니다.
이러한 컴파일러 중 하나가 기술 스택에 잘 통합되어 모델 성능을 저하시키지 않고 개발자 측에서 추가 수정이 필요하지 않으면 이러한 이니셔티브는 다양한 AI 프레임워크와 하드웨어 백엔드에 대한 공통 기반을 제공하여 CUDA의 우위를 위협할 수 있습니다. 그러나 현재 MLIR과 PlaidML은 충분히 성숙하지 않았고 AI 기술 스택에 잘 통합되지 않았으므로 CUDA의 지배력에 대한 명백한 위협은 아닙니다.
분산 컴퓨팅: 오케스트레이터
Ray와 Horovod는 AI 분야에서 분산 컴퓨팅에 대한 두 가지 뚜렷한 접근 방식을 나타내며, 각각 대규모 AI 애플리케이션에서 확장 가능한 처리에 대한 중요한 요구 사항을 해결합니다.
UC 버클리의 RISELab에서 개발한 Ray는 범용 분산 컴퓨팅 프레임워크입니다. 유연성이 뛰어나 머신 러닝을 넘어 다양한 유형의 워크로드를 분산할 수 있습니다. Ray의 액터 기반 모델을 사용하면 개발자가 Python 코드를 쉽게 병렬화할 수 있어 강화 학습 및 복잡하고 이기종 워크플로가 필요한 기타 AI 작업에 특히 유용합니다.
원래 Uber에서 개발한 Horovod는 분산형 딥 러닝에 초점을 맞춥니다. 여러 GPU와 노드에서 딥 러닝 트레이닝을 확장하는 간단하고 효율적인 방법을 제공합니다. Horovod의 강점은 신경망의 데이터 병렬 트레이닝을 위한 사용 편의성과 성능 최적화에 있습니다. TensorFlow, PyTorch 및 기타 주요 프레임워크와 완벽하게 통합되어 개발자가 최소한의 코드 변경으로 기존 트레이닝 스크립트를 배포할 수 있습니다.
마무리 생각: Crypto Angle
기존 AI 스택과의 통합은 분산 컴퓨팅 시스템을 구축하려는 DePin 프로젝트에 실제로 중요합니다. 통합은 현재 AI 워크플로 및 도구와의 호환성을 보장하여 채택 장벽을 낮춥니다.
본질적으로 분산형 GPU 렌털 플랫폼으로 기능하는 암호화 공간에서 GPU 네트워크의 현재 상태는 보다 정교한 분산형 AI 인프라로의 예비 단계를 나타냅니다. 분산형 클라우드로 작동하는 대신 기존 네트워크는 Airbnb 마켓플레이스와 더 비슷합니다. 이러한 플랫폼은 특정 애플리케이션에 유용하지만 대규모 AI 개발을 발전시키는 데 중요한 요구 사항인 진정한 분산형 교육을 지원 숏 .
Ray와 Horovod와 같은 현재의 분산 컴퓨팅 표준은 글로벌 분산 네트워크의 전제로 설계되지 않았습니다. 분산 네트워크가 진정으로 작동하려면 이 계층에서 다른 프레임워크가 필요합니다. 회의론자들은 Transformers가 집중적인 통신 요구 사항과 학습 프로세스에서 글로벌 기능을 최적화하기 때문에 분산된 교육 접근 방식과 호환되지 않는다고 말합니다. 반면에 낙관론자들은 글로벌 분산 하드웨어와 잘 작동할 수 있는 새로운 분산 컴퓨팅 프레임워크를 고안하려고 노력하고 있습니다. Yotta 는 이 문제를 해결하려는 신생 기업 중 하나입니다.
NeuroMesh는 한 걸음 더 나아갑니다. 머신 러닝 프로세스를 재설계하는 접근 방식은 특히 혁신적입니다. Neuromesh는 예측 코딩 네트워크(PCN)를 활용하여 전역 손실 함수를 로컬 오류 최소화로 대체함으로써 분산형 AI 학습의 근본적인 병목 현상을 해결합니다. 이 접근 방식은 전례 없는 병렬화를 가능하게 할 뿐만 아니라 RTX 4090 GPU와 같이 더 널리 사용 가능한 하드웨어에서 실행 가능하게 만들어 AI 학습을 민주화합니다. 즉, 4090 GPU는 H100과 유사한 컴퓨팅 성능을 가지고 있지만 대역폭이 부족하여 학습 프로세스에서 많이 활용되지 않았습니다. PCN이 대역폭의 중요성을 줄임에 따라 이러한 하위 GPU를 활용하여 상당한 비용 절감과 효율성 향상을 가져올 수 있습니다.
또 다른 야심찬 크립토 x AI 스타트업인 GenSyn은 AI 훈련을 위해 컴퓨팅을 대체 가능(fungible) 만들 수 있는 컴파일러 세트를 구축하는 목표를 설정했습니다. 기본적으로 모든 유형의 컴퓨팅 하드웨어를 AI 워크로드에 원활하게 사용할 수 있도록 합니다. 비유하자면, 추론을 위한 TVM이 무엇인지 GenSyn은 훈련 프로세스를 위해 구축하려고 합니다. 성공한다면 분산형 AI 컴퓨팅 네트워크의 기능을 극적으로 확장하여 광범위한 하드웨어를 효율적으로 활용하여 더 복잡하고 다양한 AI 작업을 처리할 수 있습니다. 다양한 하드웨어 아키텍처에서 최적화하는 복잡한 특성과 높은 기술적 위험으로 인해 어려운 이 문샷 비전은 보다 유연하고 확장 가능한 AI 인프라를 향한 광범위한 추세와 일치합니다. 이 비전을 실행하여 이기종 시스템에서 성능을 유지하는 것과 같은 장애물을 극복한다면 이 기술은 AI 훈련을 위한 하드웨어 독립적인 대안을 제공함으로써 CUDA와 NVIDIA의 우위를 약화시킬 수 있습니다.
추론과 관련하여: 검증 가능한 추론을 분산된 이기종 컴퓨팅 리소스 네트워크와 결합하는 Hyperbolic 의 접근 방식은 이러한 실용적인 전략을 보여줍니다. TVM과 같은 컴파일러 표준을 활용함으로써 Hyperbolic은 성능과 안정성을 유지하면서 광범위한 하드웨어 구성을 활용할 수 있습니다. 소비자 수준 하드웨어와 고성능 하드웨어 모두에서 여러 공급업체(NVIDIA에서 AMD, Intel 이더리움 클래식(ETC) )의 칩을 집계할 수 있습니다.
암호화-AI 교차로에서의 이러한 발전은 AI 연산이 더욱 분산되고, 효율적이며, 접근하기 쉬워질 수 있는 미래를 시사합니다. 이러한 프로젝트의 성공은 기술적 장점뿐만 아니라 기존 AI 워크플로와 원활하게 통합하고 AI 실무자와 기업의 실질적인 우려 사항을 해결하는 능력에 달려 있습니다.
AI 훈련 및 추론 기술 스택: 실리콘에서 지각력까지(AI training and Inference Tech Stack: From Silicon to Sentience) 는 원래 미디엄(Medium) 의 아이오에스지 벤처스(IOSG Ventures) 에 게재되었으며, 사람들은 이 스토리를 강조하고 응답함으로써 대화를 이어가고 있습니다.