좋은 아침이에요! 드디어 왔습니다.
우리가 작성한 전체 문서는 상당히 방대하므로 모든 사람이 더 쉽게 이해할 수 있도록(그리고 이메일 서비스 제공업체의 크기 제한을 초과하지 않도록) 여러 부분으로 나누어 다음 달에 걸쳐 점진적으로 공유하기로 결정했습니다. 이제 시작해보자!
한 번도 잊을 수 없었던 큰 실수.
이 사건은 시장에 관심을 가진 사람이라면 누구나 볼 수 있는 당연한 기회였지만, 한 푼도 투자하지 않고 놓쳤기 때문에 아직도 나를 괴롭힌다.
아니요, 이것은 차세대 솔라나 킬러도 아니고, 웃긴 모자를 쓴 강아지의 밈코인도 아닙니다.
그것은...엔비디아입니다.
단 1년 만에 엔비디아의 시총 1조 달러에서 3조 달러로 치솟았고, 주가는 3배나 올랐으며, 같은 기간 비트코인을 능가하기도 했습니다.
물론 이것의 일부는 AI 열풍에 의해 주도됩니다. 그러나 더 중요한 것은 이러한 성장이 실제로 확고한 기반을 갖고 있다는 것입니다. 2024회계연도 엔비디아의 매출은 2023년보다 126% 증가한 600억 달러에 이를 것으로 예상됩니다. 이러한 놀라운 성장의 이면에는 일반 인공지능(AGI) 군비 경쟁에서 기회를 포착하기 위해 GPU 구매를 서두르고 있는 글로벌 대형 기술 기업들이 있습니다.
왜 놓쳤나요?
지난 2년 동안 나의 관심은 전적으로 암호화폐 분야에만 집중되어 있었고 AI 분야의 발전에는 관심을 기울이지 않았습니다. 이것은 제가 지금까지 후회하고 있는 큰 실수였습니다.
하지만 이번에는 같은 실수를 반복하지 않겠습니다.
오늘의 Crypto AI는 데자뷰를 느끼는 듯한 느낌을 줍니다.
우리는 혁신 폭발 직전에 있습니다. 이는 19세기 중반 캘리포니아 골드러시와 매우 흡사합니다. 산업과 도시가 하루아침에 생겨났고 기반 시설이 빠르게 발전했으며 과감하게 위험을 감수한 사람들은 부를 얻었습니다.
초기의 NVIDIA와 마찬가지로 Crypto AI도 돌이켜보면 너무나 분명해 보일 것입니다.
Crypto AI: 무한한 잠재력을 지닌 투자 기회
제 논문의 첫 번째 부분에서 저는 Crypto AI가 오늘날 투자자와 개발자 모두에게 가장 흥미로운 잠재적 기회인 이유를 설명했습니다. 주요 내용은 다음과 같습니다.
· 아직도 많은 사람들이 이곳을 "공중의 성"으로 여기고 있습니다.
· Crypto AI는 현재 초기 단계에 있으며 최고조에 달하려면 아직 1~2년 정도 걸릴 수 있습니다.
· 이 분야의 성장 잠재력은 최소 2,300억 달러에 달합니다.
Crypto AI는 핵심적으로 인공 지능과 암호화 인프라를 결합합니다. 이는 더 넓은 암호화폐 시장을 따르기보다는 AI의 기하급수적인 성장 궤적을 따를 가능성을 더 높입니다. 따라서 앞서 나가려면 Arxiv에 대한 최신 AI 연구를 따르고 차세대 혁신을 구축하고 있다고 믿는 창립자들과 대화해야 합니다.
Crypto AI의 4가지 핵심 영역
제 논문의 두 번째 부분에서는 Crypto AI의 가장 유망한 네 가지 하위 분야를 분석하는 데 중점을 둘 것입니다.
1. 탈중앙화 컴퓨팅: 모델 훈련, 추론 및 GPU 거래 시장
2.데이터 네트워크
3. 검증 가능한 AI
4. 온체인 실행되는 AI 에이전트
이 기사는 Crypto AI 분야의 창립자 및 팀과 몇 주간의 심층적인 연구 및 커뮤니케이션의 결과입니다. 각 영역에 대한 상세한 분석이 아니라, 여러분의 호기심을 자극하고, 연구 방향을 최적화하는 데 도움을 주며, 투자 결정을 안내할 수 있도록 설계된 높은 수준의 로드맵입니다.
Crypto AI의 생태학적 청사진
저는 탈중앙화 AI 생태계를 계층화된 구조로 상상합니다. 한쪽 끝에서는 탈중앙화 컴퓨팅과 개방형 데이터 네트워크로 시작하여 탈중앙화 AI 모델 교육을 위한 기반을 제공합니다.
모든 추론 입력 및 출력은 암호화, 암호경제적 인센티브 및 평가 네트워크를 통해 검증됩니다. 이러한 검증된 결과는 온체인 자율적으로 실행되는 AI 에이전트는 물론 사용자가 신뢰할 수 있는 소비자 및 기업 수준 AI 애플리케이션으로 전달됩니다.
조정 네트워크는 전체 생태계를 연결하여 원활한 커뮤니케이션과 협업을 가능하게 합니다.
이 비전에서 AI 개발에 참여하는 모든 팀은 자신의 필요에 따라 생태계의 하나 이상의 수준에 액세스할 수 있습니다. 모델 훈련을 위해 탈중앙화 컴퓨팅을 활용하든 고품질 출력을 보장하기 위해 네트워크를 평가하든 생태계는 다양한 옵션을 제공합니다.
블록체인의 구성성 덕분에 우리는 모듈 미래를 향해 나아가고 있다고 믿습니다. 각 계층은 고도로 전문화되며 프로토콜은 올인원 솔루션이 아닌 특정 기능에 맞게 최적화됩니다.
최근 몇 년 동안 탈중앙화 AI 기술 스택의 각 계층에서 대량 스타트업이 등장하며 '캄브리아기 스타일'의 폭발적인 성장을 보여주고 있습니다. 대부분의 회사는 설립된 지 1~3년 밖에 되지 않습니다. 이는 우리가 아직 이 업계의 초기 단계에 있음을 보여줍니다.
내가 본 Crypto AI 스타트업 생태계 지도 중에서 가장 포괄적이고 최신 버전은 Casey와 그녀의 팀이 topology.vc에서 관리하고 있습니다. 이는 이 분야의 발전 상황을 추적하려는 모든 사람에게 없어서는 안 될 자료입니다.
Crypto AI의 다양한 하위 분야를 더 깊이 탐구하면서 나는 항상 궁금해합니다. 여기에 기회가 얼마나 큰가? 저는 작은 시장에 초점을 맞추는 것이 아니라 수천억 달러로 확장할 수 있는 거대한 기회에 초점을 맞추고 있습니다.
1. 시장규모
시장 규모를 평가할 때 나는 스스로에게 묻습니다. 이 하위 분야가 완전히 새로운 시장을 창출하는가, 아니면 기존 시장을 혼란에 빠뜨리는가?
전형적인 파괴적인 분야인 탈중앙화. 기존 클라우드 컴퓨팅 시장을 통해 그 잠재력을 가늠해 볼 수 있다. 현재 클라우드 컴퓨팅 시장은 약 6,800억 달러 규모이며, 2032년에는 2조 5,000억 달러에 이를 것으로 예상됩니다.
대조적으로, AI 에이전트와 같은 완전히 새로운 시장은 수량화하기가 더 어렵습니다. 과거 데이터가 부족하기 때문에 문제 해결 능력에 대해 직관적인 판단과 합리적인 추측을 통해서만 추정할 수 있습니다. 하지만 때로는 완전히 새로운 시장인 것처럼 보이는 제품이 실제로는 단지 "문제에 대한 해결책을 찾는 것"의 산물일 수도 있다는 점을 경계해야 합니다.
2. 타이밍
성공의 열쇠는 타이밍이다. 일반적으로 기술은 시간이 지남에 따라 향상되고 저렴해지지만, 발전 속도는 분야에 따라 크게 다릅니다.
특정 하위 분야의 기술은 얼마나 성숙해졌나요? 대규모 애플리케이션에 충분히 성숙되었는가? 아니면 아직 연구 단계에 머물러 실제 적용까지는 수년이 걸릴까요? 타이밍은 해당 영역이 즉각적인 관심을 받을 만한 가치가 있는지 또는 옆에 있어야 하는지 여부를 결정합니다.
FHE(Fully Homomorphic Encryption)를 예로 들어 보겠습니다. 그 잠재력은 부인할 수 없지만 현재의 기술 성능은 대규모 적용을 달성하기에는 여전히 너무 느립니다. 주류 시장에 출시되기까지는 몇 년이 걸릴 수 있습니다. 따라서 저는 기술이 대규모 채택에 가까운 영역에 우선순위를 두고 추진력이 형성되는 기회에 시간과 에너지를 집중할 것입니다.
이러한 하위 필드가 "시장 규모 대 타이밍" 차트에 표시된 경우 레이아웃은 다음과 같을 수 있습니다. 이는 단지 개념적 스케치일 뿐이며 엄격한 가이드는 아니라는 점을 기억하는 것이 중요합니다. 각 영역 내에도 복잡성이 있습니다. 예를 들어 검증 가능한 추론에서는 서로 다른 방법(예: zkML 및 opML)이 서로 다른 기술 성숙도 단계에 있습니다.
그럼에도 불구하고 나는 AI의 미래가 엄청나게 클 것이라고 굳게 믿는다. 오늘날 "틈새"로 보이는 분야라도 미래에는 중요한 시장으로 발전할 수 있습니다.
동시에 우리는 기술 진보가 항상 선형적인 방식으로 발전하는 것은 아니며 종종 비약적으로 발전한다는 점도 깨달아야 합니다. 새로운 기술적 혁신이 등장하면 그에 따라 시장 타이밍과 규모에 대한 나의 견해도 조정될 것입니다.
위의 프레임 기반으로 우리는 Crypto AI의 각 하위 분야를 하나씩 해체하고 개발 잠재력과 투자 기회를 탐색할 것입니다.
도메인 1: 탈중앙화 컴퓨팅
요약
· 탈중앙화 컴퓨팅은 전체 탈중앙화 AI의 핵심 기둥입니다.
· GPU 시장, 탈중앙화 훈련 및 탈중앙화 추론은 서로 밀접하게 연관되어 있으며 협력하여 발전합니다.
· 공급 측면은 주로 중소 규모 데이터 센터와 일반 소비자 GPU 장비에서 나옵니다.
· 수요 측면은 현재 규모는 작지만 가격에 민감하고 대기 시간이 짧은 사용자와 일부 소규모 AI 스타트업을 중심으로 점차 성장하고 있습니다.
· 현재 Web3 GPU 시장이 직면한 가장 큰 과제는 이러한 네트워크를 효율적으로 작동시키는 방법입니다.
· 탈중앙화 네트워크에서 GPU 사용을 조정하려면 고급 엔지니어링 기술과 강력한 네트워크 아키텍처 설계가 필요합니다.
1.1 GPU 시장/컴퓨팅 네트워크
현재 일부 Crypto AI 팀은 GPU 수요가 공급을 훨씬 초과하는 현재 상황에 대처하기 위해 전 세계적으로 활용도가 낮은 컴퓨팅 리소스 풀을 활용하기 위해 탈중앙화 GPU 네트워크를 구축하고 있습니다.
이들 GPU 시장의 핵심 가치는 다음 세 가지로 요약할 수 있다.
컴퓨팅 비용은 AWS보다 최대 90% 낮을 수 있습니다. 이러한 낮은 비용은 두 가지 측면에서 비롯됩니다. 하나는 중개인을 제거하고 다른 하나는 공급 측면을 개방하는 것입니다. 이러한 시장을 통해 사용자는 세계에서 가장 낮은 한계 비용으로 컴퓨팅 리소스에 액세스할 수 있습니다.
1. 장기 계약을 체결할 필요도 없고, 신원 확인(KYC)도 필요 없으며, 승인을 기다릴 필요도 없습니다.
2. 검열에 대한 저항
3. 시장의 공급 측면 문제를 해결하기 위해 이러한 마켓플레이스는 다음 소스로부터 컴퓨팅 리소스를 얻습니다.
· 엔터프라이즈 GPU: A100 및 H100과 같은 고성능 GPU는 일반적으로 중소 규모의 데이터 센터(독립적으로 운영할 때 충분한 고객을 찾는 데 어려움을 겪음) 또는 수익 흐름을 다각화하려는 비트코인 채굴업체에서 제공됩니다. 또한 기술 개발의 일환으로 대량 데이터 센터를 구축하는 대규모 정부 지원 인프라 프로젝트를 활용하는 팀이 있습니다. 이러한 공급업체는 장비의 감가상각 비용을 상쇄하기 위해 GPU를 네트워크에 계속 연결하도록 장려하는 경우가 많습니다.
· 소비자 GPU: 수백만 명의 게이머와 가정 사용자가 자신의 컴퓨터를 네트워크에 연결하고 토큰 보상을 통해 돈을 벌 수 있습니다.
현재 탈중앙화 컴퓨팅의 수요 측면에는 주로 다음 유형의 사용자가 포함됩니다.
1. 예산이 제한된 연구원, 독립적인 AI 개발자 등 가격에 민감하고 짧은 대기 시간을 요구하는 사용자 그들은 실시간 처리 능력보다 비용에 더 관심을 갖고 있습니다. 예산 제약으로 인해 AWS나 Azure와 같은 기존 클라우드 서비스 대기업의 높은 비용을 감당할 수 없는 경우가 많습니다. 이 그룹을 타겟으로 한 정밀한 마케팅은 매우 중요합니다.
2. 소규모 AI 스타트업: 이러한 회사는 유연하고 확장 가능한 컴퓨팅 리소스가 필요하지만 대규모 클라우드 서비스 제공업체와 장기 계약을 체결하고 싶어하지 않습니다. 이 그룹을 유치하려면 기존 클라우드 컴퓨팅에 대한 대안을 적극적으로 찾고 있으므로 업무 협업을 강화해야 합니다.
3. 암호화폐 AI 스타트업: 이 회사들은 탈중앙화 AI 제품을 개발하고 있지만, 자체 컴퓨팅 리소스가 없다면 이러한 탈중앙화 네트워크에 의존해야 합니다.
4. 클라우드 게임: AI와 직접적인 관련은 없지만 클라우드 게임의 GPU 리소스 수요가 빠르게 증가하고 있습니다.
기억해야 할 핵심 사항은 개발자가 항상 비용과 안정성을 우선시한다는 것입니다 .
진짜 과제: 공급이 아닌 수요
많은 스타트업에서는 GPU 공급 네트워크 규모를 성공의 신호로 여기지만 실제로는 "허영 지표"일 뿐입니다.
실제 병목 현상은 공급 측면이 아닌 수요 측면에서 발생합니다. 성공의 핵심 척도는 네트워크에 GPU가 몇 개 있는지가 아니라 GPU 활용도와 임대되는 GPU의 실제 개수입니다.
토큰 인센티브 메커니즘은 공급 측면을 시작하는 데 매우 효과적이며 네트워크에 참여할 리소스를 빠르게 유치할 수 있습니다. 그러나 수요 부족을 직접적으로 해결하지는 않습니다. 실제 테스트는 제품이 잠재 수요를 자극할 만큼 좋은 상태로 연마될 수 있는지 여부입니다.
Dragonfly의 Haseeb Qureshi가 말했듯이 이것이 핵심입니다.
컴퓨팅 네트워크가 실제로 작동하도록 만들기
현재 Web3 분산 GPU 시장이 직면한 가장 큰 과제는 실제로 이러한 네트워크를 효율적으로 실행하는 방법입니다.
이것은 간단한 문제가 아닙니다.
분산 네트워크에서 GPU를 조정하는 것은 리소스 할당, 동적 작업 부하 확장, 노드와 GPU의 로드 밸런싱, 대기 시간 관리, 데이터 전송, 내결함성, 다양한 하드웨어 처리 방법 등 여러 기술적 어려움을 수반하는 매우 복잡한 작업입니다. 전 세계의 장치. 이러한 문제가 누적되어 엄청난 엔지니어링 문제가 발생합니다.
이러한 문제를 해결하려면 매우 견고한 엔지니어링 기술과 강력하고 잘 설계된 네트워크 아키텍처가 필요합니다.
이를 더 잘 이해하려면 Google의 Kubernetes 시스템을 고려해 보세요. Kubernetes는 분산 GPU 네트워크가 직면한 문제와 매우 유사한 분산 환경에서 로드 밸런싱 및 확장과 같은 작업을 자동화하는 컨테이너 오케스트레이션의 표준으로 널리 간주됩니다. 쿠버네티스는 구글의 10년 이상의 분산 컴퓨팅 경험을 바탕으로 개발됐다는 점은 주목할 만하다. 그럼에도 지속적인 반복을 통해 완성되기까지는 수년이 걸렸다.
현재 이미 온라인에 있는 일부 GPU 컴퓨팅 시장은 소규모 작업 부하를 처리할 수 있지만, 일단 더 큰 규모로 확장하려고 하면 문제가 노출될 것입니다. 이는 아키텍처 설계에 근본적으로 결함이 있기 때문일 수 있습니다.
신뢰성 문제: 도전과 기회
탈중앙화 컴퓨팅 네트워크가 해결해야 할 또 다른 중요한 문제는 노드의 신뢰성을 보장하는 방법, 즉 각 노드가 실제로 주장하는 컴퓨팅 성능을 제공하는지 여부를 확인하는 방법입니다. 현재 이 검증 프로세스는 대부분 네트워크의 평판 시스템에 의존하며 때로는 평판 점수를 기준으로 컴퓨팅 제공업체의 순위가 결정됩니다. 블록체인 기술은 무신뢰 검증 메커니즘을 구현할 수 있기 때문에 이 분야에서 자연스러운 이점을 가지고 있습니다. Gensyn 및 Spheron과 같은 일부 스타트업에서는 무신뢰 방법을 통해 이 문제를 해결하는 방법을 모색하고 있습니다.
많은 Web3 팀은 여전히 이러한 과제를 해결하기 위해 고군분투하고 있습니다. 이는 이 분야의 기회가 여전히 광대하다는 것을 의미합니다.
탈중앙화 컴퓨팅 시장의 규모
그렇다면 탈중앙화 컴퓨팅 네트워크 시장은 얼마나 큽니까?
현재 이는 약 6,800억 달러에서 2조 5,000억 달러에 달하는 글로벌 클라우드 컴퓨팅 시장의 아주 작은 부분만을 차지할 가능성이 높습니다. 그러나 탈중앙화 컴퓨팅 비용이 기존 클라우드 서비스 제공업체의 비용보다 낮다면 사용자 경험에 추가적인 마찰이 있더라도 수요가 있을 것입니다.
저는 탈중앙화 컴퓨팅의 비용이 단기에서 중기적으로 낮게 유지될 것이라고 믿습니다. 이는 주로 두 가지 측면에 기인합니다. 하나는 토큰 보조금이고 다른 하나는 가격에 민감하지 않은 사용자의 공급 잠금 해제입니다. 예를 들어, 게임용 노트북을 임대하여 한 달에 20달러든 50달러든 추가 돈을 벌 수 있다면 만족할 것입니다.
탈중앙화 컴퓨팅 네트워크의 진정한 성장 잠재력과 시장 규모의 상당한 확장은 다음과 같은 몇 가지 주요 요소에 달려 있습니다.
1. 탈중앙화 AI 모델 훈련의 타당성: 탈중앙화 네트워크가 AI 모델 훈련을 지원할 수 있다면 엄청난 시장 수요를 가져올 것입니다.
2. 추론 수요 폭발: AI 추론에 대한 수요가 급증함에 따라 기존 데이터센터로는 이러한 수요를 충족하지 못할 수도 있습니다. 실제로 이러한 추세는 이미 나타나기 시작했습니다. NVIDIA의 Jensen Huang은 추론 수요가 "10억 배" 증가할 것이라고 말했습니다.
3. 서비스 수준 계약(SLA) 도입: 현재 탈중앙화 컴퓨팅은 주로 "최선의 노력" 방식으로 서비스를 제공하므로 사용자는 서비스 품질(예: 가동 시간)의 불확실성에 직면할 수 있습니다. SLA를 통해 이러한 네트워크는 표준화된 안정성과 성능 지표를 제공하여 기업 채택에 대한 주요 장벽을 무너뜨리고 탈중앙화 컴퓨팅을 기존 클라우드 컴퓨팅에 대한 실행 가능한 대안으로 만들 수 있습니다.
탈중앙화 무허가 컴퓨팅은 탈중앙화 AI 생태계의 기본 계층이자 가장 중요한 인프라 중 하나입니다.
GPU 등 하드웨어 공급망이 확대되고 있지만, 우리는 아직 '인간 지능 시대'의 여명기에 서 있다고 생각합니다. 미래에는 컴퓨팅 파워에 대한 수요가 끝이 없을 것입니다.
GPU 시장의 가격 재조정을 촉발할 수 있는 중요한 변곡점을 주시하십시오. 이 변곡점이 곧 다가올 수도 있습니다.
기타 참고 사항:
· 순수 GPU 시장의 경쟁은 탈중앙화 플랫폼 간의 경쟁뿐만 아니라 Web2 AI 신흥 클라우드 플랫폼(예: Vast.ai 및 Lambda)의 강력한 부상에 직면해 있습니다.
· 소규모 노드(예: H100 GPU 4개)는 시장 수요가 제한되어 있으며 수요가 많지 않습니다. 그러나 대규모 클러스터를 판매하는 공급업체를 찾는 경우 여전히 수요가 매우 높기 때문에 거의 불가능합니다.
· 탈중앙화 프로토콜의 컴퓨팅 자원 공급은 지배적인 플레이어에 의해 통합될 것인가, 아니면 계속해서 여러 시장에 분산될 것인가? 나는 전자를 선호하며 최종 결과는 멱법칙 분포가 될 것이라고 믿습니다. 통합은 종종 인프라의 효율성을 향상시키기 때문입니다. 물론 이 과정에는 시간이 걸리며 그 사이 시장 분열과 혼란은 계속될 것이다.
개발자는 배포 및 구성 문제를 처리하는 데 시간을 보내기보다는 애플리케이션 구축에 집중하는 것을 선호합니다. 따라서 컴퓨팅 시장은 이러한 복잡성을 단순화하고 사용자가 컴퓨팅 리소스를 얻기 위한 마찰을 최소화해야 합니다.
1.2 탈중앙화 훈련
요약
· 스케일링 법칙이 성립한다면, 향후 단일 데이터 센터에서 차세대 최첨단 AI 모델을 훈련하는 것은 물리적으로 불가능해집니다.
· AI 모델을 훈련하려면 대량 의 GPU 간 데이터 전송이 필요하며, 분산 GPU 네트워크의 낮은 상호 연결 속도가 가장 큰 기술적 장애물인 경우가 많습니다.
· 연구원들은 다양한 솔루션을 탐색하고 있으며 몇 가지 획기적인 발전을 이루었습니다(예: Open DiLoCo 및 DisTrO). 이러한 기술 혁신은 중첩된 효과를 가지며 탈중앙화 훈련의 발전을 가속화할 것입니다.
· 탈중앙화 훈련의 미래는 AGI를 위한 최첨단 모델보다는 특정 영역을 위해 설계된 작고 전문화된 모델에 더 초점을 맞출 수 있습니다.
· OpenAI의 o1 및 기타 모델의 인기로 인해 추론에 대한 수요가 폭발적인 성장을 가져올 것이며 이는 또한 탈중앙화 추론 네트워크에 큰 기회를 창출합니다.
이것을 상상해 보세요. 비밀스러운 최고 연구소가 아니라 수백만 명의 일반 사람들이 개발한 세계를 변화시키는 대규모 AI 모델입니다. 게이머의 GPU는 더 이상 "Call of Duty"의 멋진 그래픽을 렌더링하는 데만 사용되는 것이 아니라 더 야심찬 목표, 즉 중앙 집중식 게이트키퍼 없이 공동으로 소유하는 오픈 소스 AI 모델을 지원하는 데 사용됩니다.
그러한 미래에 기본 규모의 AI 모델은 더 이상 최고 연구실의 독점적인 영역이 아니라 보편적인 참여의 결과입니다.
그러나 현실로 돌아가면 대부분의 대규모 AI 교육은 여전히 중앙 집중식 데이터 센터에 집중되어 있으며 이러한 추세는 앞으로도 변하지 않을 수 있습니다.
OpenAI와 같은 회사는 대규모 GPU 클러스터를 지속적으로 확장하고 있습니다. Elon Musk는 최근 xAI가 H100 200,000개에 해당하는 총 GPU 용량을 갖춘 데이터 센터를 완성할 예정이라고 밝혔습니다.
하지만 문제는 단지 GPU 개수에만 있는 것이 아닙니다. Google은 2022년 PaLM 논문에서 GPU 최대 컴퓨팅 성능의 실제 활용도를 측정하는 데 사용되는 모델 FLOPS 활용도(MFU)라는 핵심 지표를 제안했습니다. 놀랍게도 이 활용률은 대개 35~40%에 불과합니다.
왜 그렇게 낮은가요? 무어의 법칙이 발전하면서 GPU 성능이 급속히 향상됐지만, 네트워크, 메모리, 저장장치 등의 발전은 한참 뒤처져 심각한 병목현상을 일으키고 있다. 결과적으로 GPU는 데이터 전송이 완료되기를 기다리며 유휴 상태가 되는 경우가 많습니다.
현재 AI 훈련이 중앙 집중화되는 근본적인 이유는 효율성이라는 단 하나뿐입니다.
대규모 모델 학습에는 다음과 같은 핵심 기술이 사용됩니다.
· 데이터 병렬성: 병렬 처리를 위해 데이터 세트를 여러 GPU로 분할하여 훈련 프로세스 속도를 높입니다.
· 모델 병렬성: 모델의 다양한 부분을 여러 GPU에 분산하여 메모리 제한을 극복합니다.
이러한 기술은 GPU 간에 데이터를 자주 교환해야 하므로 상호 연결 속도(즉, 네트워크를 통해 데이터를 전송할 수 있는 속도)가 중요합니다.
최첨단 AI 모델을 훈련하는 데 최대 10억 달러의 비용이 소요될 수 있으므로 효율성 향상의 모든 부분이 중요합니다.
고속 상호 연결 기술을 갖춘 중앙 집중식 데이터 센터는 GPU 간 빠른 데이터 전송을 가능하게 하여 훈련 시간 동안 상당한 비용 절감 효과를 제공합니다. 이것은 현재 탈중앙화 입니다... 적어도 아직은 그렇습니다.
느린 상호 연결 속도 극복
AI 분야 실무자들과 이야기를 나눠보면 아마도 탈중앙화 교육은 효과가 없다고 직설적으로 말하는 분들이 많을 것입니다.
탈중앙화 아키텍처에서는 GPU 클러스터가 동일한 물리적 위치에 위치하지 않으므로 GPU 클러스터 간의 데이터 전송 속도가 느려지고 주요 병목 현상이 발생합니다. 훈련 과정에서는 GPU가 모든 단계에서 데이터를 동기화하고 교환해야 합니다. 거리가 멀수록 지연 시간이 길어집니다. 지연 시간이 길면 훈련 속도가 느려지고 비용이 증가합니다.
중앙 집중식 데이터 센터에서는 완료하는 데 며칠 밖에 걸리지 않는 교육 작업이 탈중앙화 환경에서는 2주가 걸리고 비용이 더 많이 들 수 있습니다. 이것은 분명히 실현 가능하지 않습니다.
그러나 이것은 변화하고 있습니다.
분산 훈련에 대한 연구 관심이 급속히 상승 있다는 것은 흥미로운 일입니다. 최근 쏟아지는 대량 연구 결과와 논문에서 알 수 있듯이 연구자들은 동시에 여러 방향에서 탐구하고 있습니다. 이러한 기술 발전은 중첩된 효과를 가지며 탈중앙화 훈련의 개발을 가속화할 것입니다.
또한 실제 생산 환경에서의 테스트도 중요하며 이는 기존 기술의 경계를 넓히는 데 도움이 될 수 있습니다.
현재 일부 탈중앙화 교육 기술은 이미 저속 상호 연결 환경에서 소규모 모델을 처리할 수 있습니다. 그리고 최첨단 연구에서는 이러한 방법을 더 큰 규모의 모델로 확장하기 위해 노력하고 있습니다.
· 예를 들어 Prime Intellect의 Open DiCoLo 논문은 실용적인 접근 방식을 제안합니다. 즉, GPU를 "섬"으로 나누어 각 섬은 동기화하기 전에 500개의 로컬 계산을 완료하여 대역폭 요구 사항을 원본의 1/500로 줄입니다. 이 기술은 원래 Google DeepMind의 작은 모델에 대한 연구였으며 현재는 100억 개의 매개변수를 가진 모델을 훈련하는 데 성공적으로 확장되었으며 최근에는 완전히 오픈 소스화되었습니다.
· Nous Research의 DisTrO 프레임 최적화 기술을 통해 GPU 간의 통신 요구 사항을 최대 10,000배까지 줄이는 동시에 12억 개의 매개변수로 모델을 성공적으로 훈련하는 등 획기적인 발전을 이루었습니다.
· 기세는 계속된다. Nous는 최근 150억 개의 매개변수 모델에 대한 사전 학습을 완료했으며 손실 곡선과 수렴 속도가 기존 중앙 집중식 학습 성능을 훨씬 능가한다고 발표했습니다.
또한 SWARM Parallelism 및 DTFMHE와 같은 방법은 장치의 속도와 연결 조건이 다르더라도 다양한 유형의 장치에서 대규모 AI 모델을 훈련하는 방법을 모색하고 있습니다.
또 다른 과제는 다양한 GPU 하드웨어, 특히 탈중앙화 형 네트워크에서 흔히 볼 수 있는 소비자급 GPU를 관리하는 방법입니다. 이러한 장치는 일반적으로 메모리가 제한되어 있습니다. 이 문제는 모델 병렬성(여러 장치에 모델의 서로 다른 레이어 배포)을 통해 해결되고 있습니다.
탈중앙화 교육의 미래
현재 탈중앙화 훈련 방법의 모델 크기는 여전히 최첨단 모델에 비해 훨씬 뒤떨어져 있습니다(GPT-4는 약 1조 개의 매개변수를 갖는 것으로 보고되며 이는 Prime Intellect의 100억 매개변수 모델보다 100배 더 큽니다). 진정한 규모를 달성하려면 모델 아키텍처 설계, 네트워크 인프라 및 작업 할당 전략에서 획기적인 발전이 필요합니다.
그러나 우리는 미래에는 탈중앙화 훈련이 가장 큰 중앙 집중형 데이터 센터보다 더 많은 GPU 컴퓨팅 성능을 수집할 수 있을 것이라고 과감하게 상상할 수 있습니다.
Pluralis Research(탈중앙화 훈련 분야에서 주목할 만한 팀)는 이것이 가능할 뿐만 아니라 불가피하다고 믿습니다. 중앙 집중식 데이터 센터는 공간, 전원 공급 등 물리적 조건에 의해 제한되는 탈중앙화 네트워크는 전 세계적으로 거의 무제한의 리소스를 활용할 수 있습니다.
NVIDIA의 Jensen Huang조차도 비동기식 탈중앙화 교육이 AI의 확장 가능성을 여는 열쇠가 될 수 있다고 언급했습니다. 또한 분산 훈련 네트워크는 더 강력한 내결함성을 갖습니다.
따라서 미래의 가능성 중 하나는 세계에서 가장 강력한 AI 모델이 탈중앙화 방식으로 훈련되는 것입니다 .
그 비전은 흥미롭지만 지금은 의구심이 듭니다. 대규모 모델의 탈중앙화 훈련이 기술적으로나 경제적으로 실현 가능하다는 더 강력한 증거가 필요합니다.
탈중앙화 훈련을 위한 최고의 사용 사례는 매우 큰 AGI를 목표로 하는 최첨단 모델과 경쟁하기보다는 특정 사용 사례를 위해 설계된 더 작고 전문화된 오픈 소스 모델에 있을 수 있다고 생각합니다. 특정 아키텍처, 특히 Transformer가 아닌 모델은 탈중앙화 적합한 것으로 입증되었습니다.
또한 토큰 인센티브 메커니즘도 미래의 중요한 부분이 될 것입니다. 탈중앙화 교육이 대규모로 가능해지면 토큰은 기여자에게 효과적으로 인센티브를 제공하고 보상을 제공하여 이러한 네트워크의 개발을 촉진할 수 있습니다.
앞으로 갈 길이 멀지만 현재의 진전은 고무적입니다. 탈중앙화 훈련의 획기적인 발전은 탈중앙화 네트워크에 도움이 될 뿐만 아니라 대규모 기술 회사와 최고의 AI 연구소에 새로운 가능성을 가져다 줄 것입니다.
1.3 탈중앙화 추론
현재 AI를 위한 대부분의 컴퓨팅 리소스는 대규모 모델 훈련에 중점을 두고 있습니다. 가장 강력한 기본 모델을 개발하고 궁극적으로 AGI를 달성하기 위해 최고의 AI 연구소 간에 군비 경쟁이 진행되고 있습니다.
하지만 저는 훈련에 대한 이러한 컴퓨팅 자원의 집중적인 투자가 앞으로 몇 년 안에 점차적으로 추론으로 전환될 것이라고 생각합니다. 의료부터 엔터테인먼트 산업에 이르기까지 우리가 매일 사용하는 애플리케이션에 AI 기술이 점점 더 통합되면서 추론을 지원하는 데 필요한 컴퓨팅 리소스가 엄청나게 커질 것입니다.
이러한 추세는 근거가 없는 것이 아닙니다. Inference-time Compute Scaling은 AI 분야에서 이슈 가 되었습니다. OpenAI는 최근 최신 모델인 o1(코드명: Strawberry)의 프리뷰/미니 버전을 출시했습니다. 주목할만한 특징은 "생각하는 데 시간이 걸린다"는 것입니다. 구체적으로, 질문에 답하기 위해 취해야 할 단계를 분석한 다음 해당 단계를 단계별로 진행합니다.
이 모델은 십자말 풀이와 같이 계획이 필요한 보다 복잡한 작업을 위해 설계되었으며 깊은 추론이 필요한 문제를 처리할 수 있습니다. 반응이 더 느리게 생성되는 반면 결과는 더 자세하고 사려 깊습니다. 하지만 이 설계는 운영 비용도 높으며 추론 비용은 GPT-4의 25배입니다.
이러한 추세에서 볼 수 있듯이 AI 성능의 다음 도약은 더 큰 모델 훈련에 의존할 뿐만 아니라 추론 단계의 컴퓨팅 성능 확장에도 의존할 것입니다.
더 자세히 알고 싶다면 다음과 같은 입증된 여러 연구를 참조하세요.
· 반복된 샘플링을 통해 추론 계산을 확장하면 많은 작업에서 상당한 성능 향상을 얻을 수 있습니다.
· 추론 단계 역시 지수 확장 법칙(Scaling Law)을 따릅니다.
강력한 AI 모델이 훈련되면 추론 작업(예: 실제 적용 단계)을 탈중앙화 컴퓨팅 네트워크로 오프로드할 수 있습니다. 이 접근 방식은 다음과 같은 이유로 매우 매력적입니다.
· 추론에 필요한 리소스 요구 사항은 교육보다 훨씬 낮습니다. 훈련이 완료된 후 양자화, 가지치기 또는 증류와 같은 기술을 통해 모델을 압축하고 최적화할 수 있습니다. Tensor Parallelism 또는 Pipeline Parallelism을 사용하여 모델을 분할하여 일반적인 소비자 장치에서 실행할 수도 있습니다. 추론에는 고급 GPU를 사용할 필요가 없습니다.
· 이러한 추세는 이미 구체화되고 있습니다. 예를 들어, Exo Labs는 MacBook 및 Mac Mini와 같은 소비자 하드웨어에서 4,500억 개의 매개변수 Llama3 모델을 실행하는 방법을 찾았습니다. 추론 작업을 여러 장치에 분산함으로써 대규모 컴퓨팅 요구 사항도 효율적이고 비용 효율적으로 완료할 수 있습니다.
· 더 나은 사용자 경험: 컴퓨팅 성능을 사용자에게 더 가까이 배치하면 대기 시간을 크게 줄일 수 있습니다. 이는 게임, 증강 현실(AR) 또는 자율 주행 자동차와 같은 실시간 애플리케이션에 매우 중요합니다. 사용자 경험.
탈중앙화 추론을 AI의 CDN(Content Delivery Network)과 비교할 수 있습니다. 기존 CDN은 근처 서버에 연결하여 웹사이트 콘텐츠를 빠르게 전송하는 탈중앙화 추론은 로컬 컴퓨팅 리소스를 사용하여 매우 빠른 속도로 AI 응답을 생성합니다. 이러한 방식으로 AI 애플리케이션은 더욱 효율적이고 반응성이 뛰어나며 안정성이 높아질 수 있습니다.
이러한 추세는 이미 구체화되고 있습니다. Apple의 최신 M4 Pro 칩의 성능은 한때 하드코어 게이머를 위해 예약되었던 고성능 GPU인 NVIDIA의 RTX 3070 Ti 성능과 이미 비슷합니다. 오늘날 우리가 매일 사용하는 하드웨어는 복잡한 AI 워크로드를 처리할 수 있는 능력이 점점 더 커지고 있습니다.
암호화폐의 가치 강화
탈중앙화 추론 네트워크가 진정으로 성공하려면 참가자에게 충분히 매력적인 경제적 인센티브를 제공해야 합니다. 네트워크의 컴퓨팅 노드는 자신이 기여한 컴퓨팅 파워에 대해 합리적인 보상을 받아야 하며, 시스템은 보상 분배에 있어 공정성과 효율성도 보장해야 합니다. 또한 지리적 다양성도 중요합니다. 추론 작업의 지연 시간을 줄일 뿐만 아니라 네트워크의 내결함성을 향상시켜 전반적인 안정성을 향상시킵니다.
그렇다면 탈중앙화 네트워크를 구축하는 가장 좋은 방법은 무엇입니까? 정답은 암호화폐입니다.
토큰은 모든 참가자의 이익을 통합하고 모든 사람이 네트워크 규모를 확장하고 토큰 가치를 높이는 동일한 목표를 향해 노력하도록 보장할 수 있는 강력한 도구입니다.
또한 토큰은 네트워크 성장을 크게 가속화할 수 있습니다. 이는 많은 네트워크가 개발 초기 단계에서 직면하는 고전적인 "닭과 달걀" 딜레마를 해결하는 데 도움이 됩니다. 토큰은 얼리 어답터에게 보상을 제공함으로써 처음부터 더 많은 사람들이 네트워크에 참여하도록 유도할 수 있습니다.
이 메커니즘의 효율성은 비트코인과 이더 의 성공으로 입증되었습니다. 이들은 지구상에서 가장 큰 컴퓨팅 파워 풀을 축적했습니다.
탈중앙화 추론 네트워크가 다음 계승자가 될 것입니다. 지리적 다양성을 통해 이러한 네트워크는 대기 시간을 줄이고, 내결함성을 향상시키며, AI 서비스를 사용자에게 더 가깝게 제공할 수 있습니다. 그리고 암호화폐 기반 인센티브 메커니즘의 도움으로 탈중앙화 네트워크의 확장 속도와 효율성은 기존 네트워크의 확장 속도와 효율성을 훨씬 뛰어넘을 것입니다.
경의를 표하다
텡 얀
다음 기사 시리즈에서는 데이터 네트워크에 대해 더 자세히 알아보고 AI가 직면한 데이터 병목 현상을 극복하는 데 어떻게 도움이 될 수 있는지 살펴보겠습니다.
부인 성명
이 기사는 교육 목적으로만 작성되었으며 재정 조언을 구성하지 않습니다. 이는 자산 구매 또는 판매 또는 재정적 결정을 보증하는 것이 아닙니다. 투자 선택을 할 때는 항상 스스로 조사하고 주의를 기울이십시오.
블록비츠(Theblockbeats) BlockBeats 공식 커뮤니티 에 오신 것을 환영합니다.
텔레그램 구독 그룹: https://t.me/theblockbeats
텔레그램 커뮤니케이션 그룹: https://t.me/BlockBeats_App
공식 트위터 계정: https://twitter.com/BlockBeatsAsia