저자: Teng Yan, Chain of Thought 번역: 진써차이징(Jinse) xiaozou
아직도 저를 괴롭히는 가장 큰 후회 중 하나는 누가 봐도 의심할 여지 없이 가장 확실한 투자 기회였음에도 불구하고 한 푼도 투자하지 않았다는 점입니다. 아니요, 차세대 솔라나 킬러나 재미있는 모자를 쓴 개 밈 코인에 대해 말하는 것이 아닙니다.
하지만... 엔비디아.
불과 1년 만에 NVDA의 시총 미화 1조 달러에서 미화 3조 달러로 3배나 증가해 같은 기간 비트코인 시가총액을 넘어섰습니다.
물론 인공지능에 대한 과대광고는 빼놓을 수 없지만, 상당 부분 현실에 근거를 두고 있다. NVIDIA는 2024회계연도 매출이 2023회계연도 대비 126% 증가한 600억 달러를 달성했다고 발표했습니다. 이는 놀라운 성과입니다.
그렇다면 내가 왜 그것을 놓쳤는가?
저는 2년 동안 암호화 분야에만 전념해왔으며, 인공지능 분야에 대해서는 관심을 기울이지 않고 외부 세계를 눈여겨보지 않았습니다. 나는 오늘날에도 여전히 나를 괴롭히는 큰 실수를 저질렀습니다.
하지만 다시는 같은 실수를 저지르지 않겠습니다.
오늘날 Crypto AI는 매우 유사하게 느껴집니다. 우리는 혁신의 폭발 직전에 있습니다. 이것은 무시하기에는 19세기 중반 캘리포니아 골드 러시와 너무 흡사합니다. 산업과 도시는 하룻밤 사이에 생겨났고, 인프라는 엄청난 속도로 발전했으며, 과감하게 생각하고 행동하는 사람들에 의해 부를 창출했습니다.
초기 NVIDIA와 마찬가지로 Crypto AI도 돌이켜보면 분명한 기회였을 것입니다.
이 기사의 첫 번째 부분에서는 Crypto AI가 오늘날 투자자와 빌더에게 가장 흥미로운 약자 기회인 이유를 설명하겠습니다.
간략한 개요는 다음과 같습니다.
아직도 많은 사람들이 그것을 판타지라고 생각합니다.
암호화폐 AI는 아직 초기 단계에 있으며 최고조에 달하려면 아직 1~2년 정도 걸릴 수 있습니다.
이 분야에는 최소 2,300억 달러 이상의 성장 기회가 있습니다.
본질적으로 Crypto AI 는 암호화 인프라를 기반으로 하는 AI입니다. 이는 더 넓은 암호화폐 시장보다는 인공 지능의 기하급수적인 성장 궤적을 따를 가능성이 더 높다는 것을 의미합니다. 따라서 뒤쳐지지 않으려면 Arxiv에 대한 최신 AI 연구를 따르고 차세대 멋진 제품과 서비스를 만들고 있다고 믿는 창업자들과 대화하는 것이 중요합니다.
이 기사의 두 번째 부분에서는 Crypto AI의 가장 유망한 네 가지 하위 분야를 살펴보겠습니다.
탈중앙화 컴퓨팅: 훈련, 추론 및 GPU 시장
데이터 네트워크
검증 가능한 AI
온체인 실행되는 AI 에이전트
이 기사는 Crypto AI 공간의 창립자 및 팀과 몇 주간의 심층 연구 및 대화의 정점입니다. 이 글은 모든 영역을 철저하게 다루지는 않습니다. 대신, 여러분의 호기심을 자극하고, 연구 수준을 향상시키며, 투자 사고를 안내하기 위해 고안된 높은 수준의 로드맵이라고 생각하시면 됩니다.
1. 암호화폐 AI 환경
저는 탈중앙화 AI 스택을 여러 계층이 있는 생태계로 상상합니다. 그 한쪽 끝은 탈중앙화 AI 모델 교육을 지원하는 탈중앙화 시작됩니다.
그런 다음 암호화, 암호화 경제 인센티브 및 평가 네트워크의 조합을 사용하여 각 추론(입력 및 출력 모두)을 검증합니다. 이러한 검증된 출력은 온체인 자율적으로 실행할 수 있는 인공 지능 에이전트는 물론 사용자가 진정으로 신뢰할 수 있는 소비자 및 기업 AI 애플리케이션으로 전달됩니다.
오케스트레이션 네트워크는 모든 것을 하나로 묶어 전체 생태계에서 원활한 통신과 협업을 가능하게 합니다.
이 비전에서 인공 지능을 구축하는 사람은 누구나 특정 요구 사항에 따라 하나 이상의 스택 계층을 활용할 수 있습니다. 모델 훈련을 위해 탈중앙화 컴퓨팅을 활용하든, 고품질 출력을 보장하기 위해 평가 네트워크를 사용하든, 스택은 다양한 옵션을 제공합니다.
블록체인의 본질적인 구성성으로 인해 우리는 자연스럽게 모듈식 미래 로 나아갈 것이라고 믿습니다. 각 계층은 올인원 통합 접근 방식을 취하는 대신 다양한 기능에 최적화된 프로토콜을 사용하여 고도로 전문화되고 있습니다.
탈중앙화 AI 스택의 모든 계층에는 대량 스타트업이 있으며, 이들 중 대부분은 지난 1~3년 이내에 설립되었습니다. 이 분야가 아직 초기 단계에 있다는 것은 분명합니다.
내가 본 가장 포괄적이고 최신의 Crypto AI 스타트업 맵은 Casey와 그녀의 팀이 topology.vc에서 관리하고 있습니다. 이는 이 분야를 추적하는 모든 사람에게 귀중한 리소스입니다.
Crypto AI 하위 필드를 더 깊이 탐구하면서 나는 계속해서 스스로에게 묻습니다. 기회는 무엇입니까? 나는 작은 것에는 관심이 없습니다. 수천억 달러 규모의 시장을 찾고 있습니다.
(1) 시장 규모
먼저 시장 규모를 살펴보자. 틈새 시장을 평가할 때 나는 스스로에게 묻습니다. 완전히 새로운 시장을 창출하는 것인가, 아니면 기존 시장을 파괴하는 것인가?
탈중앙화. 이는 현재 약 6,800억 달러 규모로 시총 2032년에는 2조 5,000억 달러에 이를 것으로 예상되는 기존 클라우드 컴퓨팅 시장을 살펴보면 그 잠재력을 평가할 수 있는 파괴적인 범주입니다.
인공지능 에이전트와 같은 전례 없는 새로운 시장은 수량화하기가 더 어렵습니다. 과거 데이터가 없으면 평가에는 추측과 해결 중인 문제에 대한 평가가 필요합니다. 때로는 새로운 시장처럼 보이는 것이 실제로는 문제에 대한 해결책을 찾기 위한 노력일 뿐이라는 점을 기억하는 것이 중요합니다.
(2) 타이밍
타이밍이 전부입니다. 기술은 시간이 지남에 따라 향상되고 비용이 낮아지는 경향이 있지만 그 속도는 다양합니다.
특정 부문의 기술이 얼마나 성숙해졌나요? 대량 채택할 준비가 되어 있습니까? 아니면 아직 연구 단계에 있으며 실제 적용에는 몇 년이 더 걸리나요? 타이밍은 해당 산업이 즉각적인 관심을 받을 만한 가치가 있는지 또는 "기다려 볼 가치가 있는지"를 결정합니다.
FHE(완전 동형 암호화)를 예로 들어보겠습니다. 그 잠재력은 부인할 수 없지만 현재 개발 속도가 너무 느려 널리 사용되지 않습니다. 주류 채택을 보기까지는 몇 년이 걸릴 수 있습니다. 먼저 규모에 더 가까운 영역에 집중함으로써 추진력과 기회를 구축하는 영역에 시간과 에너지를 투자할 수 있습니다.
이러한 범주를 규모 대 시간 그래프에 매핑하면 다음과 같이 보일 것입니다. 이것은 하드 가이드가 아닌 개념 지도라는 점을 기억하세요. 미묘한 차이가 많이 있습니다. 예를 들어 검증 가능한 추론에서는 서로 다른 방법(예: zkML 및 opML)이 서로 다른 사용 준비 수준을 갖습니다.
그렇긴 하지만, 나는 AI가 너무 커서 오늘날 “틈새”처럼 보이는 분야라도 중요한 시장으로 발전할 수 있다고 믿습니다.
기술 발전이 항상 직선으로 진행되는 것은 아니며 종종 급격하게 진행된다는 점도 주목할 가치가 있습니다. 갑자기 터지면 타이밍과 시장 규모에 대한 나의 견해가 바뀔 것입니다.
이 프레임 갖춘 상태에서 각 하위 필드를 자세히 살펴보겠습니다.
2. 영역 1: 탈중앙화 컴퓨팅
탈중앙화 컴퓨팅은 탈중앙화 인공 지능의 중추입니다.
GPU 시장, 탈중앙화 훈련 및 탈중앙화 추론은 밀접하게 연결되어 있습니다.
공급 측면은 일반적으로 중소 규모 데이터 센터와 소비자 GPU에서 나옵니다.
수요 측면은 작지만 여전히 성장하고 있습니다. 오늘날에는 가격에 민감하고 지연 시간에 민감하지 않은 사용자와 소규모 AI 스타트업에서 비롯됩니다.
현재 Web3 GPU 시장이 직면한 가장 큰 과제는 Web3 GPU가 제대로 작동하도록 하는 것입니다.
탈중앙화 네트워크에서 GPU를 조정하려면 고급 엔지니어링 기술과 잘 설계되고 안정적인 네트워크 아키텍처가 필요합니다.
2.1 GPU 시장/컴퓨팅 네트워크
여러 Crypto AI 팀은 수요를 충족할 수 없는 GPU 부족에 대응하여 전 세계의 잠재적인 해시레이트 활용하기 위해 탈중앙화 네트워크를 구축하고 있습니다.
GPU 시장의 핵심 가치 제안에는 세 가지 측면이 있습니다.
중개인이 없고 공급 측면이 개방되어 있기 때문에 AWS보다 "90% 낮은" 가격으로 컴퓨팅에 액세스할 수 있습니다. 기본적으로 이러한 마켓플레이스를 통해 세계에서 가장 낮은 한계 컴퓨팅 비용을 활용할 수 있습니다.
유연성 향상: 고정된 계약, KYC 프로세스, 대기 시간이 없습니다.
검열 저항
시장 공급 측면 문제를 해결하기 위해 이러한 시장의 해시레이트 다음에서 비롯됩니다.
수요가 찾기 어려운 중소 규모 데이터 센터 또는 다양화를 원하는 비트코인 채굴자를 위한 엔터프라이즈급 GPU (예: A100, H100). 또한 기술 성장 계획의 일환으로 데이터 센터를 건설하는 대규모 정부 지원 인프라 프로젝트에 참여하는 팀을 알고 있습니다. 이러한 GPU 제공업체는 GPUT를 네트워크에 유지하도록 인센티브를 받는 경우가 많으며, 이는 GPU의 분할 상환 비용을 상쇄하는 데 도움이 됩니다.
토큰 보상을 받는 대가로 자신의 컴퓨터를 네트워크에 연결하는 수백만 명의 게이머와 가정 사용자를 위한 소비자급 GPU입니다 .
반면, 오늘날 탈중앙화 컴퓨팅에 대한 수요는 다음과 같습니다.
가격에 민감하고 지연 시간에는 민감하지 않은 사용자입니다. 이 부문은 속도보다 가격을 우선시합니다. 새로운 분야를 탐구하는 연구자, 독립적인 AI 개발자, 실시간 처리가 필요하지 않고 비용에 민감한 기타 사용자를 생각해 보십시오. 예산 제약으로 인해 이들 중 다수는 AWS 또는 Azure와 같은 기존 하이퍼스케일 서버에 만족하지 못할 수 있습니다. 그들은 인구 사이에 널리 분포되어 있기 때문에 이 그룹을 유인하려면 타겟 마케팅이 중요합니다.
소규모 AI 스타트업은 주요 클라우드 제공업체와 장기 계약을 체결하지 않고도 유연하고 확장 가능한 컴퓨팅 리소스를 확보해야 하는 과제에 직면해 있습니다. 하이퍼스케일 종속에 대한 대안을 적극적으로 모색하는 이 부문을 유치하려면 업무 개발이 매우 중요합니다.
탈중앙화 인공 지능 제품을 구축하지만 자체 해시레이트 공급 장치가 없는 암호화폐 AI 스타트업은 네트워크 중 하나의 리소스를 활용해야 합니다.
클라우드 게임: AI에 의해 직접적으로 구동되지는 않지만 클라우드 게임은 GPU 리소스를 점점 더 요구하고 있습니다.
기억해야 할 핵심 사항은 개발자가 항상 비용과 안정성을 우선시한다는 것입니다.
진짜 문제는 공급이 아니라 수요다.
이 분야의 스타트업은 종종 GPU 공급 네트워크의 규모를 성공의 신호로 지적합니다. 그러나 이것은 오해의 소지가 있습니다. 기껏해야 허영심의 척도일 뿐입니다.
실제 제약은 공급이 아니라 수요입니다. 추적해야 할 핵심 지표는 사용 가능한 GPU 수가 아니라 실제로 임대한 GPU 수와 활용도 입니다.
토큰은 공급 부트스트랩을 훌륭하게 수행하여 빠르게 확장하는 데 필요한 인센티브를 생성합니다. 그러나 본질적으로 수요 문제를 해결하지는 않습니다. 실제 테스트는 제품을 잠재 수요를 실현하기에 충분한 상태로 만드는 것입니다.
Haseeb Qureshi(Dragonfly)는 이 점에 대해 다음과 같이 잘 말했습니다.
컴퓨팅 네트워크를 실제로 작동하게 만들기
대중의 믿음과는 달리, 현재 web3 분산 GPU 시장이 직면하고 있는 가장 큰 장애물은 제대로 작동하도록 하는 것입니다.
이것은 사소한 질문이 아닙니다.
분산 네트워크에서 GPU를 조정하는 것은 매우 복잡 하며 리소스 할당, 동적 작업 부하 확장, 노드와 GPU 간 부하 분산, 대기 시간 관리, 데이터 전송, 내결함성, 지리적으로 분산된 다양한 하드웨어 처리 등 많은 과제를 안고 있습니다. 나는 계속할 수 있었다.
이를 달성하려면 사려 깊은 엔지니어링과 안정적이고 잘 설계된 네트워크 아키텍처가 필요합니다.
더 잘 이해하려면 Google의 Kubernetes를 생각해 보세요. 이는 분산 GPU 네트워크가 직면한 과제와 매우 유사한 분산 환경의 로드 밸런싱 및 확장과 같은 프로세스를 자동화하는 컨테이너 오케스트레이션의 표준으로 널리 간주됩니다. Kubernetes 자체는 10년이 넘는 Google의 경험을 바탕으로 구축되었으며, 그 후에도 제대로 작동하려면 수년간의 끊임없는 반복이 필요했습니다.
현재 온라인에 있는 일부 GPU 컴퓨팅 시장은 소규모 작업 부하를 처리할 수 있지만 일단 확장하려고 하면 문제가 발생합니다. 나는 이것이 그들의 건축 기반이 제대로 설계되지 않았기 때문이라고 생각합니다.
탈중앙화 컴퓨팅 네트워크의 또 다른 과제/기회는 신뢰성을 보장하는 것입니다. 즉, 각 노드가 실제로 청구된 컴퓨팅 성능을 제공하는지 확인하는 것입니다. 현재 이는 네트워크 평판에 의존하며 어떤 경우에는 해시레이트 공급자의 순위가 평판 점수에 따라 결정됩니다. 블록체인은 무신뢰 검증 시스템에 매우 적합한 것 같습니다. Gensyn 및 Spheron과 같은 스타트업은 무신뢰 접근 방식을 사용하여 이 문제를 해결하려고 합니다.
오늘날에도 많은 web3 팀이 이러한 과제를 해결하기 위해 고군분투하고 있습니다. 이는 기회의 문이 활짝 열려 있음을 의미합니다.
탈중앙화 컴퓨팅 시장 규모
탈중앙화 컴퓨팅 네트워크 시장은 얼마나 큽니까?
오늘날 이는 아마도 6,800억 달러에서 2조 5천억 달러 규모의 클라우드 컴퓨팅 산업 중 극히 일부에 불과할 것입니다. 그러나 사용자에게 추가되는 마찰에도 불구하고 비용이 기존 공급업체보다 낮은 한 항상 수요가 있을 것입니다.
토큰 보조금과 가격에 민감한 사용자를 위한 공급 잠금 해제로 인해 단기에서 중기적으로 비용이 낮게 유지될 것이라고 생각합니다(예: 게임용 노트북을 임대하여 월 20달러 또는 50달러로 추가 현금을 벌 수 있는 경우, 행복할 것입니다).
그러나 탈중앙화 컴퓨팅 네트워크의 실제 성장 잠재력과 TAM의 진정한 확장은 다음과 같은 경우에 나타날 것입니다.
인공지능 모델의 탈중앙화 훈련이 현실화됩니다.
추론에 대한 수요가 폭발적으로 증가하고 있으며 기존 데이터 센터는 수요를 따라잡을 수 없습니다. 이런 일이 이미 일어나고 있습니다. Jensen Huang은 추론에 대한 수요가 "10억 배" 증가할 것이라고 말했습니다.
적절한 서비스 수준 계약(SLA)이 제공되어 기업 채택 에 대한 주요 장벽을 해결합니다. 현재 탈중앙화 컴퓨팅을 통해 사용자는 다양한 수준의 서비스 품질(예: 가동 시간 점유비율)을 경험할 수 있습니다. SLA를 통해 이러한 네트워크는 표준화된 안정성과 성능 지표를 제공할 수 있으므로 탈중앙화 컴퓨팅을 기존 클라우드 컴퓨팅 공급자에 대한 실행 가능한 대안으로 만들 수 있습니다.
탈중앙화 무허가 컴퓨팅은 탈중앙화 AI 생태계, 즉 인프라의 기본 계층입니다.
GPU 공급망이 확장되고 있지만 우리는 아직 인간 지능 시대의 여명기에 있다고 믿습니다. 컴퓨팅에 대한 수요는 끝이 없을 것입니다.
모든 운영 GPU 시장의 재평가를 촉발할 수 있는 변곡점이 곧 도래할 수 있다는 점에 유의하는 것이 중요합니다.
기타 참고 사항:
순수 플레이 GPU 시장은 탈중앙화 플랫폼 간의 치열한 경쟁과 Vast.ai 및 Lambda와 같은 web2 AI 신흥 클라우드 서비스의 부상으로 혼잡합니다.
작은 노드(예: 4 x H100)는 제한된 사용으로 인해 큰 수요가 없지만 더 큰 클러스터를 판매하는 사람을 찾는 행운을 빕니다. 여전히 수요가 있습니다.
하나의 지배적인 플레이어가 탈중앙화 프로토콜에 대한 모든 해시레이트 공급 장치를 통합할 것인가, 아니면 여러 시장에 해시레이트 로 유지될 것인가? 저는 통합이 일반적으로 인프라 효율성 향상으로 이어지기 때문에 전자를 선호합니다. 하지만 시간이 걸릴 것이고 그 사이에도 분열과 혼란은 계속될 것이다.
개발자는 배포 및 구성을 다루기보다는 애플리케이션 개발에 집중하기를 원합니다. 시장은 이러한 복잡성을 추상화하고 컴퓨팅 액세스를 최대한 원활하게 만들어야 합니다.
2.2 탈중앙화 훈련
확장의 법칙이 적용된다면 단일 데이터 센터에서 차세대 최첨단 AI 모델을 교육하는 것은 언젠가는 불가능해질 것입니다.
AI 모델을 훈련하려면 GPU 간에 대량 의 데이터를 전송해야 합니다. 분산 GPU 간의 낮은 데이터 전송(상호 연결) 속도가 가장 큰 장애물인 경우가 많습니다.
연구자들은 여러 가지 방법을 동시에 탐색하고 있으며 획기적인 발전을 이루고 있습니다(예: Open DiLoCo, DisTrO). 이러한 발전은 이 분야의 발전을 축적하고 가속화할 것입니다.
탈중앙화 교육의 미래는 최첨단 AGI 중심 모델보다는 틈새 애플리케이션을 위한 작고 전문화된 모델을 설계하는 데 있을 수 있습니다.
OpenAI o1과 같은 모델로 전환하면 추론 수요가 급증하여 탈중앙화 추론 네트워크에 대한 기회가 창출될 것입니다.
이것을 상상해 보세요: 비밀 엘리트 연구소에서 개발된 것이 아니라 수백만 명의 일반 사람들에 의해 형성되는 세계를 변화시키는 대규모 인공 지능 모델입니다. 일반적으로 Call of Duty에서 극장과 같은 폭발을 일으키는 GPU를 사용하는 게이머들은 이제 자신의 하드웨어를 훨씬 더 웅장한 것, 즉 중앙 게이트 키퍼 없이 공동으로 소유하는 오픈 소스 인공 지능 모델에 빌려주고 있습니다.
그러한 미래에는 기초 규모 모델이 최고의 AI 연구소에만 국한되지 않습니다.
하지만 이 비전을 오늘날의 현실에 기반을 두자. 현재 대부분의 대규모 인공 지능 훈련은 여전히 중앙 집중식 데이터 센터에 집중되어 있으며 이는 한동안 표준이 될 수 있습니다.
OpenAI와 같은 회사는 대규모 클러스터를 확장하고 있습니다. Elon Musk는 최근 xAI가 곧 200,000개의 H100 GPU에 해당하는 데이터 센터를 구축할 것이라고 발표했습니다.
그러나 이는 단지 원시 GPU 수에 관한 것이 아닙니다. MFU(모델 FLOPS 활용도)는 GPU의 최대 용량이 얼마나 효율적으로 사용되는지 추적하는 2022 PaLM 연구 기사에서 Google이 제안한 측정항목입니다. 놀랍게도 MFU는 일반적으로 35~40% 사이를 맴돌고 있습니다.
왜 그렇게 낮은가요? 무어의 법칙에 따르면 지난 몇 년간 GPU 성능이 갑자기 급등했지만, 네트워크, 메모리, 스토리지 등의 개선이 크게 뒤쳐져 병목 현상이 발생하고 있습니다. 따라서 GPU는 종종 조절된 상태로 데이터를 기다리고 있습니다.
오늘날의 AI 교육은 효율성 이라는 한 단어 때문에 여전히 매우 집중되어 있습니다.
대규모 모델 학습은 다음 기술에 따라 달라집니다.
데이터 병렬성: 여러 GPU에 걸쳐 분할된 데이터 세트에 걸쳐 작업을 병렬로 실행하여 훈련 프로세스를 가속화합니다.
모델 병렬성: 메모리 제약을 우회하여 모델의 일부를 여러 GPU에 분산합니다.
이러한 방법을 사용하려면 GPU가 지속적으로 데이터를 교환해야 하며 상호 연결 속도 (네트워크의 컴퓨터 간에 데이터가 전송될 수 있는 속도)가 중요해집니다.
최첨단 인공 지능 모델을 교육하는 데 드는 비용이 10억 달러를 초과하는 경우 모든 효율성 개선이 중요합니다.
고속 상호 연결을 통해 중앙 집중식 데이터 센터는 GPU 간에 데이터를 신속하게 전송할 수 있으며 훈련 시간 동안 탈중앙화 설정으로는 비교할 수 없는 대량 비용 절감 효과를 얻을 수 있습니다.
느린 상호 연결 속도 극복
인공지능 분야에서 일하는 사람들과 이야기를 나눠보면, 많은 사람들이 탈중앙화 훈련이 전혀 효과가 없다고 말할 것입니다.
탈중앙화 설정에서는 GPU 클러스터가 물리적으로 공존하지 않으므로 클러스터 간의 데이터 전송 속도가 훨씬 느려지고 병목 현상이 발생합니다. 훈련을 위해서는 GPU가 모든 단계에서 데이터를 동기화하고 교환해야 합니다. 서로 멀리 떨어져 있을수록 대기 시간이 길어집니다. 지연 시간이 길수록 학습 속도가 느려지고 비용이 높아집니다.
중앙 집중식 데이터 센터에서는 며칠이 걸릴 수 있지만 탈중앙화 데이터 센터에서는 2주까지 연장될 수 있으며 비용도 더 높습니다. 이것은 단순히 실현 가능하지 않습니다.
하지만 이제 곧 바뀔 예정입니다.
좋은 소식은 분산 훈련에 대한 연구 관심이 급증하고 있다는 것입니다. 대량 연구와 발표된 논문에서 알 수 있듯이 연구자들은 여러 가지 접근 방식을 동시에 탐색하고 있습니다. 이러한 발전은 축적되고 병합되어 현장의 발전을 가속화할 것입니다.
또한 우리가 한계를 얼마나 확장할 수 있는지 확인하기 위한 생산 테스트에 관한 것입니다.
일부 탈중앙화 훈련 기술은 이미 느린 상호 연결된 환경에서 더 작은 모델을 처리할 수 있습니다. 이제 최첨단 연구를 통해 이러한 방법을 대형 모델에 적용하는 추세가 진행되고 있습니다.
예를 들어 Prime Intellect 의 오픈 소스 DiCoLo 기사는 동기화 전에 500개의 로컬 단계를 수행하여 대역폭 요구 사항을 500배까지 줄이는 GPU "아일랜드"와 관련된 실용적인 접근 방식을 보여줍니다. Google DeepMind의 소형 모델 연구로 시작된 것은 11월에 100억 개의 매개변수 모델 훈련으로 확장되었으며 현재는 완전히 오픈 소스입니다.
Nous Research는 최적화 프로그램 프레임 사용하여 1.2B 매개변수 모델을 훈련하는 동안 GPU 간 통신 요구 사항을 눈에 띄게 10,000배 줄이는 DisTrO 프레임 로 기준을 높이고 있습니다.
그리고 그 추진력은 계속해서 형성되고 있습니다. 지난 12월 Nous는 손실 곡선(시간이 지남에 따라 모델 오류가 감소하는 방식)과 수렴률(모델 성능이 얼마나 빨리 안정화되는지)이 포함된 15B 매개변수 모델의 사전 학습을 발표하여 중앙 집중식 학습의 일반적인 결과와도 일치하는 것이 더욱 좋습니다. 예, 중앙 집중화보다 낫습니다.
SWARM 병렬화 및 DTFMHE 는 다양한 유형의 장치, 심지어 속도와 연결 수준이 다른 장치에서도 대규모 AI 모델을 훈련하는 또 다른 접근 방식입니다.
다양한 GPU 하드웨어를 관리하는 것은 탈중앙화 네트워크에서 흔히 볼 수 있는 메모리 제한이 있는 소비자 GPU를 포함하여 또 다른 과제입니다. 모델 병렬성(장치 간 모델 레이어 분할)과 같은 기술이 이에 도움이 될 수 있습니다.
탈중앙화 교육의 미래
현재 탈중앙화 훈련 방법의 모델 크기는 최첨단 모델의 모델 크기보다 여전히 훨씬 작습니다(GPT-4는 약 1조 개의 매개변수를 가지고 있는 것으로 알려졌으며 이는 Prime Intellect의 10B 모델보다 100배 더 큽니다). 진정한 규모를 달성하려면 모델 아키텍처, 더 나은 네트워크 인프라, 장치 전반에 걸친 더 스마트한 작업 분배의 혁신이 필요합니다.
우리는 큰 꿈을 꿀 수 있습니다. 탈중앙화 훈련이 가장 큰 중앙 집중식 데이터 센터가 소집할 수 있는 것보다 더 많은 GPU 컴퓨팅 성능을 집계하는 세상을 상상해 보십시오.
Pluralis Research(주목할 가치가 있는 탈중앙화 훈련에 초점을 맞춘 엘리트 팀)는 이것이 가능할 뿐만 아니라 불가피하다고 믿습니다. 중앙 집중식 데이터 센터는 공간 및 전력 가용성과 같은 물리적 제약으로 인해 제한되는 반면, 탈중앙화 네트워크는 진정으로 무제한의 글로벌 리소스 풀을 활용할 수 있습니다.
NVIDIA의 Jensen Huang조차도 비동기식 탈중앙화 교육이 AI 확장의 진정한 잠재력을 실현할 수 있음을 인정합니다. 분산 훈련 네트워크는 내결함성도 더 뛰어납니다.
따라서 가능한 미래 세계에서는 세계에서 가장 강력한 AI 모델이 탈중앙화 방식으로 훈련될 것입니다 .
매우 흥미로운 전망이지만 아직 완전히 확신할 수는 없습니다. 가장 큰 모델의 탈중앙화 교육이 기술적으로나 경제적으로 실현 가능하다는 강력한 증거가 필요합니다.
저는 이것에서 큰 가능성을 봅니다. 탈중앙화 교육의 가장 좋은 점은 매우 큰 AGI 기반 최첨단 모델과 경쟁하는 것이 아니라 대상 사용 사례를 위해 설계된 작고 전문화된 오픈 소스 모델 에 있을 수 있다는 것입니다. 특정 아키텍처, 특히 비변압기 모델은 탈중앙화 적합한 것으로 입증되었습니다.
퍼즐의 또 다른 부분이 바로 토큰입니다. 탈중앙화 교육이 대규모로 가능해지면 토큰은 기여자에게 인센티브를 제공하고 보상을 제공하여 이러한 네트워크를 효과적으로 부트스트랩하는 데 중요한 역할을 할 수 있습니다.
이 비전을 실현하는 길은 아직 멀지만 진전은 고무적입니다. 미래 모델이 단일 데이터 센터의 용량 이상으로 확장됨에 따라 탈중앙화 교육의 발전은 대규모 기술 회사와 최고의 AI 연구실을 포함한 모든 사람에게 도움이 될 것입니다.
미래는 분산되어 있습니다. 기술이 그렇게 광범위한 잠재력을 갖고 있다면, 역사는 그 기술이 항상 예상했던 것보다 더 좋고 더 빠르게 작동한다는 것을 보여줍니다.
2.3. 탈중앙화 추론
현재 AI의 컴퓨팅 성능은 대부분 대규모 모델 훈련에 집중되어 있습니다. 누가 최고의 기본 모델을 개발하고 궁극적으로 AGI를 달성할 수 있는지 알아보기 위해 최고의 인공 지능 연구소 간에 지속적인 경쟁이 진행되고 있습니다.
하지만 내 의견은 이렇습니다. 앞으로 몇 년 안에 훈련 중심의 컴퓨팅은 추론으로 전환될 것입니다. AI가 의료부터 엔터테인먼트까지 우리가 매일 사용하는 애플리케이션에 점점 더 통합되면서 추론을 지원하는 데 필요한 컴퓨팅 리소스의 양은 엄청날 것입니다.
이것은 단지 추측이 아닙니다. 추론 시간 컴퓨팅 확장은 인공 지능 분야의 최신 유행어입니다. OpenAI는 최근 최신 모델 01(코드명: Strawberry)의 프리뷰/미니 버전을 출시했습니다. 이것이 큰 변화인가요? 먼저 이 질문에 답하기 위해 어떤 조치를 취해야 하는지 스스로에게 물어보고 차근차근 진행해 나가는 데는 시간이 걸립니다.
이 모델은 크로스워드 퍼즐과 같이 대량 계획이 필요한 보다 복잡한 작업과 더 깊은 추론이 필요한 문제를 위해 설계되었습니다. 속도가 느리고 응답을 생성하는 데 더 많은 시간이 걸리지만 결과는 더 사려 깊고 미묘합니다. 또한 실행 비용도 훨씬 더 비쌉니다(GPT-4보다 25배 더 비쌉니다).
초점의 변화는 분명합니다. AI 성능의 다음 도약은 더 큰 모델을 훈련하는 것뿐만 아니라 추론 중 계산 애플리케이션을 확장하는 것에서도 나올 것입니다.
더 알고 싶다면 다음과 같은 일부 연구 기사를 참조하세요.
반복적인 샘플링을 통해 추론 계산을 확장하면 다양한 작업 전반에 걸쳐 큰 개선이 이루어질 수 있습니다.
추론을 위한 확장된 지수법칙도 있습니다.
강력한 모델이 훈련되면 해당 모델의 추론 작업(모델이 수행하는 작업)을 탈중앙화 오프로드할 수 있습니다. 이는 다음과 같은 이유로 의미가 있습니다.
추론에는 훈련보다 훨씬 적은 리소스가 필요합니다. 훈련 후에는 양자화, 가지치기 또는 증류와 같은 기술을 사용하여 모델을 압축하고 최적화할 수 있습니다. 일상적인 소비자 장치에서 실행되도록 분류될 수도 있습니다. 추론을 지원하기 위해 고급 GPU가 필요하지 않습니다.
이런 일이 이미 일어났습니다. Exo Labs는 MacBook 및 Mac Mini와 같은 소비자급 하드웨어에서 450B 매개변수 Llama3 모델을 실행하는 방법을 알아냈습니다. 여러 장치에 추론을 분산하여 대규모 워크로드를 효율적이고 비용 효율적으로 처리합니다.
더 나은 사용자 경험. 사용자에게 더 가까운 곳에서 계산을 실행하면 대기 시간이 줄어듭니다. 이는 게임, AR 또는 자율 주행 자동차와 같은 실시간 애플리케이션에 매우 중요합니다. 매 밀리초가 중요합니다.
탈중앙화 추론을 AI용 CDN(콘텐츠 전달 네트워크)으로 생각하십시오. 웹 사이트를 신속하게 제공하기 위해 가까운 서버에 연결하는 대신 탈중앙화 추론은 로컬 컴퓨팅 성능을 활용하여 기록적인 시간 내에 AI 응답을 제공합니다. 탈중앙화 추론을 사용함으로써 AI 애플리케이션은 더욱 효율적이고 반응성이 뛰어나며 신뢰성이 높아집니다.
추세는 분명합니다. Apple의 새로운 M4 Pro 칩은 최근까지 하드코어 게이머의 영역이었던 Nvidia의 RTX 3070 Ti와 경쟁합니다. 우리의 하드웨어는 점점 더 고급 AI 워크로드를 처리할 수 있는 능력을 갖추고 있습니다.
암호화폐의 부가가치
탈중앙화 추론 네트워크가 성공하려면 강력한 경제적 인센티브가 있어야 합니다. 네트워크의 노드는 해시레이트 기여에 대해 보상을 받아야 합니다. 시스템은 보상이 공정하고 효율적으로 분배되도록 보장해야 합니다. 추론 작업의 대기 시간을 줄이고 내결함성을 향상하려면 지리적 다양성이 필요합니다.
탈중앙화 네트워크를 구축하는 가장 좋은 방법은 무엇입니까? 암호화.
토큰은 참가자의 이익을 조정하는 강력한 메커니즘을 제공하여 모든 사람이 네트워크 확장 및 토큰 가치 증가라는 동일한 목표를 향해 노력할 수 있도록 합니다.
토큰은 또한 네트워크의 성장을 가속화합니다. 이는 얼리 어답터에게 보상을 제공하고 첫날부터 참여를 유도함으로써 대부분의 네트워크 성장을 방해했던 고전적인 닭과 달걀 문제를 해결하는 데 도움이 됩니다.
비트코인과 이더 의 성공은 이를 증명합니다. 그들은 지구상에서 가장 큰 해시레이트 풀을 축적했습니다.
다음은 탈중앙화 추론 네트워크가 될 것입니다. 지리적 다양성으로 인해 대기 시간을 줄이고 내결함성을 높이며 AI를 사용자에게 더 가깝게 만듭니다. 암호화를 통해 인센티브를 제공하므로 기존 네트워크보다 더 빠르고 효과적으로 확장됩니다.
(계속해서 지켜봐 주시기 바랍니다.)