존재하다
Folding@home은 코로나19 팬데믹 기간 동안 중요한 이정표를 달성했습니다. 연구 프로젝트는 전 세계적으로 2백만 개의 자원 봉사 장치를 통해 제공되는 2.4exaFLOPS의 컴퓨팅 성능을 달성했습니다.
이는 당시 세계 최대 슈퍼컴퓨터의 처리 능력의 15배에 해당하므로 과학자들은 대규모로 코로나19 단백질 역학을 시뮬레이션할 수 있습니다. 그들의 연구는 특히 전염병 초기에 바이러스와 그 병인에 대한 우리의 이해를 향상시켰습니다.

Folding@home 사용자의 전 세계 분포, 2021년
문제 해결을 위한 크라우드펀딩 컴퓨팅 리소스
자원봉사 컴퓨팅의 오랜 역사를 바탕으로 Folding@home은 대규모 문제를 해결하기 위해 컴퓨팅 리소스를 크라우드 펀딩하는 프로젝트를 진행합니다. 이 아이디어는 1990년대 외계 생명체 탐색을 위해 5백만 대 이상의 자원 봉사 컴퓨터를 통합한 프로젝트인 SETI@home을 통해 널리 주목을 받았습니다.
이 아이디어는 이후 천체물리학, 분자생물학, 수학, 암호학, 게임 등 다양한 분야에 적용되었습니다. 각각의 경우 집단적 힘은 개별 프로젝트의 역량을 개별적으로 달성할 수 있는 것 이상으로 향상시켰습니다. 이는 발전을 촉진하고 보다 개방적이고 협력적인 방식으로 연구가 수행될 수 있게 해줍니다.
크라우드펀딩 모델을 딥러닝에 사용할 수 있나요?
많은 사람들이 이 크라우드펀딩 모델을 딥러닝에 적용할 수 있는지 궁금해합니다. 즉, 대중을 대상으로 대규모 신경망을 훈련할 수 있습니까? 프런트엔드 모델 훈련은 인류 역사상 가장 계산 집약적인 작업 중 하나입니다. 많은 @home 프로젝트와 마찬가지로 현재 비용은 가장 큰 규모의 플레이어만이 감당할 수 없는 수준입니다.
새로운 돌파구를 찾기 위해 점점 더 적은 수의 기업에 의존하게 되면서 이는 미래의 발전을 방해할 수 있습니다. 이는 또한 AI 시스템의 제어를 소수의 손에 집중시킵니다. 기술에 대해 어떻게 생각하든 이것은 지켜볼 가치가 있는 미래입니다.
대부분의 비평가들은 탈중앙화 교육 아이디어가 현재 교육 기술과 호환되지 않는다고 일축합니다. 그러나 이러한 관점 점점 더 낡아지고 있습니다. 노드 간 통신의 필요성을 줄여 네트워크 연결이 좋지 않은 장치에 대한 효율적인 훈련을 가능하게 하는 새로운 기술이 등장했습니다.
이러한 기술에는 DiLoCo, SWARM 병렬성, lo-fi 및 이기종 환경에서 기본 모델의 분산형 교육이 포함됩니다. 이들 중 다수는 내결함성이 있으며 이기종 컴퓨팅을 지원합니다. DiPaCo 및 탈중앙화 하이브리드 전문가 모델을 포함하여 탈중앙화 네트워크를 위해 특별히 설계된 새로운 아키텍처도 있습니다.
또한 다양한 암호화 기본 요소가 성숙해지기 시작하여 네트워크가 글로벌 규모로 리소스를 조정할 수 있게 되었습니다. 이러한 기술은 디지털 통화, 국경 간 결제, 예측 시장과 같은 애플리케이션 시나리오를 지원합니다. 이전의 자원 봉사 프로젝트와 달리 이러한 네트워크는 엄청난 양의 컴퓨팅 성능을 집계할 수 있으며, 현재 상상하는 가장 큰 클라우드 교육 클러스터보다 훨씬 더 큰 경우가 많습니다.
이러한 요소는 함께 새로운 모델 훈련 정규화를 형성합니다. 이러한 공식화는 함께 연결하면 사용할 수 있는 대량 엣지 장치를 포함하여 전 세계의 컴퓨팅 리소스를 활용합니다. 이는 새로운 경쟁 메커니즘을 도입하여 대부분의 교육 워크로드 비용을 절감합니다. 또한 새로운 형태의 훈련을 가능하게 하여 모델 개발을 사일로화되고 획일화된 방식이 아닌 협업적이고 모듈 만들 수 있습니다.
모델은 대중으로부터 계산과 데이터를 얻고 즉석에서 학습할 수 있습니다. 개인은 자신이 만든 모델의 일부를 소유할 수 있습니다. 연구자들은 높은 컴퓨팅 예산을 충당하기 위해 연구 결과를 현금화할 필요 없이 새로운 연구 결과를 다시 공개적으로 공유할 수도 있습니다.
이 보고서에서는 대규모 모델 교육 및 관련 비용의 현재 상태를 조사합니다. 대체 경로 탐색에 대한 영감을 얻기 위해 SETI에서 Folding, BOINC에 이르기까지 이전의 분산 컴퓨팅 노력을 검토합니다. 이 보고서는 탈중앙화 훈련의 역사적 과제에 대해 논의하고 이러한 과제를 극복하는 데 도움이 될 수 있는 최근의 획기적인 발전을 소개합니다. 마지막으로 미래의 기회와 과제를 요약합니다.
프론트엔드 모델 학습 현황
대형 플레이어가 아닌 경우 프런트 엔드 모델 교육 비용이 엄청나게 커졌습니다. 이러한 추세는 새로운 것은 아니지만 실제로 프런트 엔드 랩이 확장 제품군 가정에 계속 도전함에 따라 상황은 더욱 심각해지고 있습니다.
보고서에 따르면 OpenAI는 올해 교육에 30억 달러 이상을 지출했습니다. Anthropic은 2025년까지 100억 달러 규모의 훈련을 시작할 것이며 1000억 달러 규모의 모델이 그리 멀지 않을 것이라고 예측합니다.

이러한 추세는 소수의 기업만이 참여할 수 있는 산업 집중화로 이어집니다. 이는 미래를 위한 핵심 정책 질문을 제기합니다. 모든 주요 AI 시스템이 한두 회사에 의해 통제되는 상황을 받아들일 수 있습니까? 이는 또한 소규모 실험실에서는 실험 제품군을 확장하는 데 필요한 컴퓨팅 리소스를 감당할 수 없기 때문에 연구 커뮤니티 에서 명백하게 나타나는 진행 속도를 제한합니다.
업계 리더들은 이에 대해 여러 번 언급했습니다.
Meta의 Joe Spisak:
[모델] 아키텍처의 기능을 실제로 이해하려면 이를 대규모로 탐색해야 하며, 그것이 현재 생태계에서 누락된 부분이라고 생각합니다. 학계를 살펴보면, 학계에는 뛰어난 사람들이 많이 있지만 컴퓨팅 리소스에 대한 액세스가 부족하고 이러한 훌륭한 아이디어를 가지고 있지만 실제로 필요한 수준에서 구현하지 않기 때문에 문제가 됩니다.
Together의 Max Ryabinin:
고가의 하드웨어에 대한 필요성은 연구 커뮤니티 에 많은 부담을 안겨줍니다. 대부분의 연구자들은 필요한 실험을 수행하는 데 비용이 많이 들기 때문에 대규모 신경망 개발에 참여할 수 없습니다. 계속해서 모델을 스케일업하여 크기를 키워나가다 보면 결국에는 모델을 개발할 수 있게 될 것입니다.
Google의 Francois Chollet:
우리는 대규모 언어 모델(LLM)이 아직 인공 일반 지능(AGI)을 달성하지 못했다는 것을 알고 있습니다. 한편, AGI를 향한 진전은 정체되었습니다. 대규모 언어 모델에서 직면하는 한계는 5년 전에 직면했던 한계와 정확히 같습니다. 우리에게는 새로운 아이디어와 돌파구가 필요합니다.
모든 대형 연구소가 더 큰 대형 언어 모델을 훈련하느라 바쁜 동안 다음 혁신은 외부 팀에서 나올 가능성이 높다고 생각합니다. 일부에서는 하드웨어 개선과 클라우드 컴퓨팅 자본 지출이 문제를 해결할 것이라고 주장하면서 이러한 우려에 회의적입니다.
그러나 이것은 비현실적인 것 같습니다. 한편, 이번 10년 말까지 차세대 Nvidia 칩의 FLOP 수가 크게 증가하여 현재 H100의 10배에 달할 수도 있습니다. 이를 통해 FLOP당 가격이 80~90% 감소합니다.
마찬가지로, 전체 FLOP 공급량은 네트워크 및 관련 인프라 개선과 함께 향후 10년 동안 약 20배 증가할 것으로 예상됩니다. 이 모든 것이 달러당 교육 효율성을 높일 것입니다.

출처: SemiAnalytic AI 클라우드 TCO 모델
동시에 실험실이 추가 확장을 모색함에 따라 총 FLOP 수요도 크게 상승 할 것입니다. 훈련 계산의 10년 추세가 변하지 않으면 프런트엔드 훈련 FLOP는 2030년까지 약 2e29에 도달할 것으로 예상됩니다. 이 규모의 교육에는 현재 교육 실행 시간 및 활용도를 기준으로 약 2천만 개의 H100 상당 GPU가 필요합니다.
이 영역에 여전히 여러 개의 프런트 엔드 랩이 있다고 가정하면 전체 공급량이 이들 랩으로 나누어지기 때문에 필요한 총 FLOPS 수는 이 숫자의 몇 배가 될 것입니다. EpochAI는 그때까지 약 1억 개의 H100 상당 GPU가 필요할 것으로 예측합니다. 이는 2024년 덤핑 약 50배에 해당합니다. SemiAnalytics도 이 기간 동안 프런트엔드 훈련 수요와 GPU 공급이 거의 동시에 증가할 것이라고 믿고 비슷한 예측을 했습니다.
여러 가지 이유로 용량 조건이 더 스트레스를 받을 수 있습니다. 예를 들어, 제조 병목 현상으로 인해 예상 덤핑 타임이 지연되는 경우가 종종 있습니다. 또는 데이터 센터에 전력을 공급할 만큼 충분한 에너지를 생산하지 못하는 경우도 있습니다.
또는 해당 에너지원을 그리드에 연결하는 데 문제가 있는 경우. 또는 자본 지출에 대한 조사가 증가하여 궁극적으로 다른 요인들 중에서 산업 규모가 축소되는 경우도 있습니다. 기껏해야 우리의 현재 접근 방식으로는 소수의 회사만이 계속해서 연구를 추진할 수 있지만 그것만으로는 충분하지 않을 수 있습니다.

분명히 우리에게는 새로운 접근 방식이 필요합니다. 이 접근 방식을 사용하면 차세대 혁신을 찾기 위해 제품군 데이터 센터, 자본 지출 및 에너지 소비를 지속적으로 확장할 필요가 없으며 대신 수요 변동에 따라 제품군을 확장할 수 있는 유연성을 통해 기존 인프라를 효율적으로 활용합니다. 훈련 실행이 더 이상 수십억 달러의 컴퓨팅 예산에 대한 투자 수익을 보장할 필요가 없기 때문에 연구에서 더 많은 실험적 가능성이 허용됩니다.
이러한 제한에서 벗어나면 많은 사람들이 AGI(인공 일반 지능)를 달성하는 데 필요하다고 믿는 현재의 LLM(대형 언어 모델) 패러다임을 뛰어넘을 수 있습니다. 이 대안이 어떤 모습일지 이해하기 위해 과거의 분산 컴퓨팅 관행에서 영감을 얻을 수 있습니다.
크라우드 컴퓨팅: 간략한 역사
SETI@home은 1999년에 이 개념을 대중화하여 수백만 명의 참가자가 외계 지능 검색 시 무선 신호를 분석할 수 있도록 했습니다. SETI는 아레시보 망원경에서 전자기 데이터를 수집해 일괄적으로 나누어 인터넷을 통해 사용자에게 전송한다. 사용자는 일상 활동에서 데이터를 분석하고 결과를 다시 전달합니다.
사용자 간에 통신이 필요하지 않으며 배치를 독립적으로 감사할 수 있으므로 높은 수준의 병렬 처리가 가능합니다. 최고조에 달했을 때 SETI@home에는 500만 명이 넘는 참가자가 있었고 당시 가장 큰 슈퍼컴퓨터보다 더 많은 처리 능력을 가졌습니다. 결국 2020년 3월에 문을 닫았지만, 그 성공은 뒤따르는 자발적인 컴퓨팅 운동에 영감을 주었습니다.
Folding@home은 2000년에 이 아이디어를 계속하여 엣지 컴퓨팅을 사용하여 알츠하이머병, 암, 파킨슨병과 같은 질병의 단백질 접힘을 시뮬레이션했습니다. 자원봉사자들은 여가 시간을 PC에서 단백질 시뮬레이션을 수행하면서 보내며 연구자들이 단백질이 어떻게 잘못 접혀 질병을 유발하는지 연구하도록 돕습니다. 2000년대 후반과 1엑사플롭스를 초과한 최초의 분산형 컴퓨팅 프로젝트가 되었던 코로나19 기간을 포함하여 역사상 여러 차례에 걸쳐 컴퓨팅 성능은 당시 가장 큰 슈퍼컴퓨터의 컴퓨팅 성능을 초과했습니다. Folding 연구원은 창립 이래 자원봉사자의 컴퓨팅 능력에 의존하여 200개 이상의 동료 검토 논문을 발표했습니다.
BOINC(Berkeley 오픈 네트워크 Computing)는 2002년에 이 아이디어를 대중화하여 다양한 연구 프로젝트를 위한 크라우드 펀딩 컴퓨팅 플랫폼을 제공했습니다. SETI@home 및 Folding@home과 같은 여러 프로젝트뿐만 아니라 천체 물리학, 분자 생물학, 수학 및 암호화와 같은 분야의 새로운 프로젝트도 지원합니다. 2024년까지 BOINC는 30개의 진행 중인 프로젝트와 약 1,000개의 출판된 과학 논문을 나열하며 모두 컴퓨팅 네트워크를 사용하여 생산됩니다.
과학 연구 외에도 자원봉사 컴퓨팅은 바둑(LeelaZero, KataGo) 및 체스(Stockfish, LeelaChessZero)와 같은 게임 엔진을 훈련하는 데 사용됩니다. LeelaZero는 2017년부터 2021년까지 자원봉사 컴퓨팅을 통해 훈련을 받아 천만 개가 넘는 게임을 스스로 플레이할 수 있게 되었으며 오늘날 사용 가능한 가장 강력한 바둑 엔진 중 하나를 만들었습니다. 마찬가지로 Stockfish는 2013년부터 자원 봉사 네트워크에 대한 교육을 지속적으로 받아 가장 인기 있고 강력한 체스 엔진 중 하나가 되었습니다.
딥 러닝의 과제에 대하여
그런데 이 모델을 딥러닝에 적용할 수 있을까요? 저비용 공공 교육 클러스터를 만들기 위해 전 세계의 에지 장치를 네트워크로 연결할 수 있습니까? Apple 노트북부터 Nvidia 게이밍 그래픽 카드에 이르기까지 소비자 하드웨어의 딥 러닝 성능이 점점 더 좋아지고 있습니다. 많은 경우 이러한 장치의 성능은 데이터 센터 그래픽 카드의 달러당 성능을 초과합니다.

그러나 분산된 환경에서 이러한 자원을 효과적으로 활용하려면 다양한 과제를 극복해야 합니다.
첫째, 현재의 분산형 훈련 기술은 노드 간 빈번한 통신을 가정합니다.
현재의 최첨단 모델은 너무 커져서 훈련을 수천 개의 GPU로 나누어야 합니다. 이는 일반적으로 사용 가능한 GPU에서 모델, 데이터 세트 또는 둘 다를 동시에 분할하는 다양한 병렬화 기술을 통해 달성됩니다. 이를 위해서는 일반적으로 고대역폭과 저지연 네트워크가 필요합니다. 그렇지 않으면 노드가 유휴 상태로 데이터가 도착할 때까지 기다립니다.
예를 들어 DDP(분산 데이터 병렬 처리)는 GPU 전체에 데이터 세트를 분산합니다. 각 GPU는 특정 데이터 조각에 대한 전체 모델을 훈련한 다음 그라데이션 업데이트를 공유하여 각 단계에서 새로운 모델 가중치를 생성합니다. 노드는 각 역전파 후에 기울기 업데이트만 공유하고 집단 통신 작업은 계산과 부분적으로 겹칠 수 있으므로 상대적으로 제한된 통신 오버헤드가 필요합니다.
그러나 이 접근 방식은 각 GPU가 전체 모델의 가중치, 활성화된 값 및 최적화 상태를 메모리에 저장해야 하기 때문에 더 작은 모델에만 작동합니다. 예를 들어 GPT-4는 훈련 중에 10TB 이상의 메모리가 필요한 반면 단일 H100에는 80GB만 필요합니다.
이 문제를 해결하기 위해 우리는 다양한 기술을 사용하여 GPU 전체에 배포할 모델을 분할합니다. 예를 들어, 텐서 병렬 처리는 단일 레이어 내에서 개별 가중치를 분할하여 각 GPU가 필요한 작업을 수행하고 출력을 다른 GPU에 전달할 수 있도록 합니다. 이렇게 하면 각 GPU의 메모리 요구 사항이 줄어들지만 GPU 간의 지속적인 통신이 필요하므로 효율성을 위해 고대역폭, 저지연 연결이 필요합니다.
파이프라인 병렬 처리는 모델의 레이어를 개별 GPU에 분산시키며, 각 GPU는 작업을 수행하고 파이프라인의 다음 GPU와 업데이트를 공유합니다. 텐서 병렬 처리보다 통신이 덜 필요하지만 파이프라인 뒤의 GPU가 작업을 시작하기 위해 이전 GPU의 정보를 기다리는 경우 "버블"(예: 유휴 시간)이 발생할 수 있습니다.
이러한 과제를 해결하기 위해 다양한 기술이 개발되었습니다. 예를 들어, ZeRO(Zero Redundancy Optimizer)는 통신 오버헤드를 늘려 메모리 사용량을 줄이는 메모리 최적화 기술로, 특정 장치에서 더 큰 모델을 훈련할 수 있습니다. ZeRO는 GPU 간에 모델 매개변수, 기울기 및 최적화 상태를 분할하여 메모리 요구 사항을 줄이지만 장치가 분할 데이터를 얻을 수 있도록 대량 통신에 의존합니다. 이는 FSDP(Fully Sharded Data Parallel) 및 DeepSpeed와 같은 널리 사용되는 기술의 기본 방법입니다.
이러한 기술은 자원 활용 효율성을 극대화하기 위해 대규모 모델 훈련에서 종종 조합하여 사용되는데, 이를 3D 병렬성이라고 합니다. 이 구성에서는 각 분할 레이어 간에 필요한 대량 의 통신으로 인해 단일 서버 내의 GPU에 가중치를 분산하는 데 텐서 병렬 처리가 자주 사용됩니다.
그런 다음 파이프라인 병렬 처리를 사용하여 통신이 덜 필요하므로 서로 다른 서버(그러나 데이터 센터의 동일한 섬 내) 간에 계층을 분산합니다. 다음으로, 데이터 병렬성 또는 FSDP(완전 샤딩된 데이터 병렬성)는 업데이트를 비동기적으로 공유하거나 긴 네트워크 대기 시간을 압축하여 데이터 크기의 변화를 수용할 수 있으므로 서로 다른 서버 아일랜드 간에 데이터 세트를 분할하는 데 사용됩니다. Meta는 아래 다이어그램에 표시된 것처럼 이 결합된 접근 방식을 사용하여 Llama 3.1을 교육합니다.
이러한 접근 방식은 (더 느리고 더 불안정한) 소비자급 인터넷을 통해 연결된 장치에 의존하는 탈중앙화 핵심적인 과제를 제기합니다. 이러한 환경에서는 장치가 종종 유휴 상태로 데이터가 도착할 때까지 기다리기 때문에 통신 비용이 엣지 컴퓨팅의 이점보다 빠르게 커질 수 있습니다.
간단한 예로, 분산 데이터를 사용하여 10억 개의 참조가 있는 반정밀도 모델을 병렬로 훈련하려면 각 GPU는 각 최적화 단계에서 2GB의 데이터를 공유해야 합니다. 일반적인 인터넷 대역폭(예: 초당 1기가비트)을 예로 들어 계산과 통신이 겹치지 않는다고 가정하면 그라데이션 업데이트를 전송하는 데 최소 16초가 걸리므로 상당한 유휴 시간이 발생합니다. 더 많은 통신이 필요한 텐서 병렬 처리와 같은 기술은 물론 성능이 더 나쁩니다.
둘째, 현재 훈련 기술에는 내결함성이 부족합니다. 모든 분산형 시스템과 마찬가지로 훈련 클러스터는 규모가 커질수록 실패할 가능성이 더 커집니다. 그러나 현재 기술은 주로 동기식이므로 모델 훈련을 완료하려면 GPU가 함께 작동해야 하기 때문에 훈련에서 이 문제가 더욱 악화됩니다.
수천 개의 GPU 중 단일 GPU에 장애가 발생하면 전체 훈련 프로세스가 중단되어 다른 GPU가 처음부터 훈련을 시작해야 할 수 있습니다. 경우에 따라 GPU가 완전히 실패하지는 않지만 여러 가지 이유로 느려져 클러스터에 있는 수천 개의 다른 GPU 속도가 느려집니다. 오늘날 클러스터의 규모를 고려할 때 이는 수천만 달러에서 수억 달러의 추가 비용을 의미할 수 있습니다.
Meta는 Llama 교육 중에 이러한 문제에 대해 자세히 설명했습니다. 이 과정에서 그들은 400회 이상의 예상치 못한 중단을 경험했으며, 하루 평균 약 8회의 중단을 경험했습니다. 이러한 중단은 주로 GPU 또는 호스트 하드웨어 오류와 같은 하드웨어 문제로 인해 발생합니다. 그 결과 GPU 활용도는 38~43%에 불과합니다. OpenAI는 GPT-4의 훈련 과정에서 32~36%에 불과한 훨씬 더 나쁜 성능을 발휘하는데, 이는 훈련 과정에서 빈번한 실패로 인한 것이기도 합니다.
즉, 프런트엔드 연구실은 동종의 최첨단 하드웨어, 네트워킹, 전력 및 냉각 시스템을 포함하는 완전히 최적화된 환경에서 훈련할 때 여전히 40% 활용도를 달성하는 데 어려움을 겪고 있습니다. 이는 주로 하드웨어 오류 및 네트워크 문제로 인해 발생하며, 이는 장치의 처리 능력, 대역폭, 대기 시간 및 안정성이 불균형하기 때문에 엣지 교육 환경에서 더욱 악화됩니다. 말할 것도 없이, 탈중앙화 네트워크는 다양한 이유로 전체 프로젝트를 방해하거나 특정 작업 부하를 속이려고 시도할 수 있는 악의적인 행위자에게 취약합니다. 순수 자원봉사 네트워크인 SETI@home에서도 다양한 참가자의 부정행위가 목격되었습니다.
셋째, 프런트엔드 모델 교육에는 대규모 컴퓨팅 성능이 필요합니다. SETI 및 Folding과 같은 프로젝트는 인상적인 규모에 도달했지만 오늘날 프런트엔드 교육에 필요한 컴퓨팅 성능에 비하면 미미합니다. GPT-4는 20,000개의 A100 클러스터에서 훈련되었으며 절반 정밀도에서 6.28 ExaFLOPS의 최대 처리량을 달성했습니다. 이는 Folding@home이 최고조에 달했던 것보다 3배 더 많은 컴퓨팅 성능입니다.
Llama 405b는 훈련에 16,000개의 H100을 사용하며 최대 처리량은 15.8 ExaFLOPS로 폴딩 피크의 7배입니다. 여러 연구실에서 각각 99ExaFLOPS를 처리할 수 있는 100,000개 이상의 H100 클러스터를 구축할 계획을 세우면서 이러한 격차는 더욱 벌어질 것입니다.

@home 프로젝트는 자원봉사 중심이기 때문에 이는 의미가 있습니다. 기여자는 메모리 및 프로세서 사이클을 기부하고 관련 비용을 부담합니다. 이는 자연스럽게 상업 프로젝트에 비해 규모를 제한합니다.
최근 개발
이러한 문제는 역사적으로 탈중앙화 교육 노력을 괴롭혀왔지만 더 이상 극복할 수 없는 것으로 보이지는 않습니다. 노드 간 통신의 필요성을 줄여 인터넷에 연결된 장치에서 효율적인 훈련을 가능하게 하는 새로운 훈련 기술이 등장했습니다.
이러한 기술 중 다수는 모델 교육에 더 큰 규모를 추가하기를 원하므로 데이터 센터 전반에 걸쳐 효율적인 통신 기술이 필요한 대규모 실험실에서 유래합니다. 또한 엣지 환경에서 대규모 교육을 지원할 수 있는 내결함성 교육 방법과 암호화 인센티브 시스템의 발전도 확인하고 있습니다.
효율적인 커뮤니케이션 기술
DiLoCo는 업데이트된 모델 상태를 기기 간에 전달하기 전에 로컬 최적화를 수행하여 통신 오버헤드를 줄이는 Google의 최근 연구입니다. 이들의 접근 방식(초기 연합 학습 연구를 기반으로 함)은 노드 간 통신량을 500분의 1로 줄이면서 기존 동기식 훈련과 비슷한 결과를 보여주었습니다.
이후 이 접근 방식은 다른 연구자에 의해 복제되었으며 더 큰 모델(10억 개 이상의 프라이머)을 훈련하도록 확장되었습니다. 또한 제품군을 비동기식 훈련으로 확장합니다. 즉, 노드는 한 번에 모두가 아닌 서로 다른 시간에 그라데이션 업데이트를 공유할 수 있습니다. 이는 다양한 처리 기능과 네트워크 속도를 갖춘 엣지 하드웨어를 더 잘 수용합니다.
lo-fi 및 DisTrO와 같은 다른 데이터 병렬 방법은 통신 비용을 더욱 줄이는 것을 목표로 합니다. Lo-fi는 완전 로컬 미세 조정 접근 방식을 제안합니다. 즉, 노드가 독립적으로 훈련되고 마지막에는 가중치만 전달됩니다. 이 접근 방식은 10억 개가 넘는 인수로 언어 모델을 미세 조정할 때 기준선과 동등한 성능을 발휘하는 동시에 통신 오버헤드를 완전히 제거합니다.
예비 보고서에서 DisTrO는 방법이 아직 확인되지 않았지만 통신 요구 사항을 4~5배까지 줄일 수 있다고 믿는 새로운 분산형 최적화 프로그램을 사용한다고 주장합니다.
새로운 모델 병렬화 방법도 등장하여 더 큰 규모를 달성할 수 있게 되었습니다. DiPaCo(역시 Google)는 모델을 여러 모듈 로 나눕니다. 각 모듈 특정 작업에 대한 교육을 용이하게 하기 위해 다양한 전문가 모듈 포함되어 있습니다. 그런 다음 훈련 데이터는 각 데이터 샘플에 해당하는 전문가 시퀀스인 "경로"로 분할됩니다.
샤드가 주어지면 각 작업자는 DiLoCo에서 처리하는 모듈 공유에 필요한 통신을 제외하고 거의 독립적으로 특정 경로를 훈련할 수 있습니다. 이 아키텍처는 10억 소수 모델의 훈련 시간을 절반 이상 단축합니다.
DTFMHE(SWARM Parallelism and 탈중앙화 Training of Basic Model in Heterogeneous Environments)는 또한 이기종 환경에서 대규모 모델 훈련을 달성하기 위한 모델 병렬화 방법을 제안합니다. SWARM은 모델 크기가 증가함에 따라 파이프라인 병렬 처리 통신 제약 조건이 감소하여 더 낮은 네트워크 대역폭과 더 높은 대기 시간에서 더 큰 모델을 효율적으로 교육할 수 있다는 사실을 발견했습니다.
이 개념을 이기종 환경에 적용하기 위해 각 반복마다 즉시 업데이트할 수 있는 노드 사이에 임시 "파이프라인"을 사용합니다. 이를 통해 노드는 다음 파이프라인 단계의 모든 피어 노드에 출력을 전달할 수 있습니다.
즉, 피어가 다른 피어보다 빠르거나 참가자의 연결이 끊어지면 각 단계에 활성 참가자가 한 명 이상 있는 한 훈련이 계속되도록 출력을 동적으로 다시 라우팅할 수 있습니다. 그들은 이 접근 방식을 사용하여 느린 상호 연결을 갖춘 저가형 이기종 GPU에서 10억 개가 넘는 참조로 모델을 교육했습니다(아래 이미지 참조).
DTFMHE는 또한 3개 대륙의 장치에서 대규모 모델을 훈련하기 위해 파이프라인 병렬성과 데이터 병렬성뿐만 아니라 새로운 스케줄링 알고리즘을 제안합니다. 네트워크 속도는 표준 Deepspeed보다 100배 느리지만 접근 방식은 데이터 센터에서 표준 Deepspeed를 사용하는 것보다 1.7~3.5배 느릴 뿐입니다. SWARM과 마찬가지로 DTFMHE는 지리적으로 분산된 네트워크에서도 모델 크기가 증가함에 따라 통신 비용을 효과적으로 숨길 수 있음을 보여줍니다. 이를 통해 숨겨진 레이어의 크기를 늘리고 파이프라인 단계당 더 많은 레이어를 추가하는 등 다양한 기술을 통해 노드 간의 약한 연결을 극복할 수 있습니다.
내결함성
위에서 설명한 많은 데이터 병렬 방법은 각 노드가 전체 모델을 메모리에 저장하기 때문에 기본적으로 내결함성이 있습니다. 이러한 중복성은 일반적으로 다른 노드에 장애가 발생하더라도 노드가 독립적으로 작동할 수 있음을 의미합니다. 노드는 종종 신뢰할 수 없고 이질적이며 심지어 악의적으로 동작할 수도 있으므로 이는 탈중앙화 훈련에 중요합니다. 그러나 앞서 언급했듯이 순수 데이터 병렬 방법은 더 작은 모델에만 적합하므로 모델 크기는 네트워크에서 가장 작은 노드의 메모리 용량에 의해 제한됩니다.
위의 문제를 해결하기 위해 일부 사람들은 모델 병렬(또는 하이브리드 병렬) 훈련에 적합한 내결함성 기술을 제안했습니다. SWARM은 지연 시간이 짧은 안정적인 피어의 우선 순위를 지정하고 오류 발생 시 파이프라인 단계에서 작업을 다시 라우팅하여 피어 노드 오류에 대응합니다. Oobleck과 같은 다른 접근 방식은 부분적인 노드 오류에 대응하여 중복성을 제공하기 위해 여러 "파이프라인 템플릿"을 생성하여 유사한 접근 방식을 취합니다. 데이터 센터에서 테스트되었지만 Oobleck의 접근 방식은 탈중앙화 환경에도 동일하게 적용되는 강력한 안정성을 보장합니다.
또한 탈중앙화 환경에서 내결함성 교육을 지원하기 위한 몇 가지 새로운 모델 아키텍처(예: DMoE( 탈중앙화 전문가 혼합))도 확인했습니다. 기존 전문가 하이브리드 모델과 유사하게 DMoE는 일련의 작업자 노드에 분산된 여러 개의 독립적인 "전문가" 네트워크로 구성됩니다.
DMoE는 분산 해시 테이블을 사용하여 탈중앙화 비동기 업데이트를 추적하고 통합합니다. 이 메커니즘(SWARM에서도 사용됨)은 일부 노드가 실패하거나 제 시간에 응답하지 못하는 경우 평균 계산에서 특정 전문가를 제외할 수 있으므로 노드 실패에 대한 저항력이 뛰어납니다.
규모
마지막으로 비트코인 및 이더 에서 사용하는 것과 같은 암호화 인센티브 시스템은 필요한 규모를 달성하는 데 도움이 될 수 있습니다. 두 네트워크 모두 채택이 증가함에 따라 가치가 증가하는 기본 자산을 기여자에게 지불하여 컴퓨팅에 크라우드 펀딩을 제공합니다. 이 디자인은 네트워크가 실행 가능한 최소 크기에 도달하면 점차적으로 줄어들 수 있는 넉넉한 보상을 제공함으로써 초기 기여자에게 인센티브를 제공합니다.
실제로 이 메커니즘에는 피해야 할 다양한 함정이 있습니다. 가장 큰 함정은 공급을 과도하게 자극하여 그에 따른 수요를 창출하지 못하는 것입니다. 또한 기본 네트워크가 탈중앙화 되지 않은 경우 규제 문제가 발생할 수 있습니다. 그러나 적절하게 설계되면 탈중앙화 인센티브 시스템은 장기간에 걸쳐 상당한 규모를 달성할 수 있습니다.
예를 들어, 비트코인의 연간 전력 소비량은 약 150테라와트시(TWh)로, 이는 현재 구상 중인 가장 큰 AI 훈련 클러스터의 전력 소비량(1년 동안 최대 부하로 실행되는 H100 100,000개)보다 두 자릿수 더 높습니다.
참고로 OpenAI의 GPT-4는 A100 20,000대에서 훈련되었고, Meta의 주력 모델인 Llama 405B 모델은 H100 16,000대에서 훈련되었습니다. 마찬가지로, 최고조에 달했을 때 이더 의 전력 소비량은 약 70TWh였으며 이는 수백만 개의 GPU에 분산되었습니다. 향후 몇 년 동안 AI 데이터 센터의 급속한 성장을 허용하더라도 이와 같은 인센티브 컴퓨팅 네트워크는 규모를 여러 번 초과할 것입니다.
물론 모든 계산이 대체 가능한 것은 아니며 교육에는 고려해야 할 채굴 과 관련된 고유한 요구 사항이 있습니다. 그럼에도 불구하고 이러한 네트워크는 이러한 메커니즘을 통해 달성할 수 있는 규모를 보여줍니다.
앞으로 나아갈 길
이 조각들을 하나로 묶으면 우리는 앞으로 나아갈 새로운 길의 시작을 볼 수 있습니다.
머지않아 새로운 교육 기술을 통해 데이터 센터의 한계를 뛰어넘을 수 있게 될 것입니다. 더 이상 장치를 효율적으로 사용하기 위해 같은 위치에 배치할 필요가 없기 때문입니다. 현재의 탈중앙화 훈련 방법은 GPT-4와 같은 모델보다 훨씬 작은 10억~20억 인용 범위로 여전히 작은 규모이기 때문에 시간이 걸릴 것입니다.
통신 효율성 및 내결함성과 같은 주요 특성을 희생하지 않고 이러한 방법의 규모를 늘리려면 더 많은 혁신이 필요합니다. 또는 오늘날의 대규모 모놀리식 모델과 다른 새로운 모델 아키텍처가 필요합니다. 아마도 더 작고, 더 모듈, 클라우드가 아닌 엣지 장치에서 실행될 수 있습니다.
어쨌든 이 방향으로 더 많은 진전이 있을 것으로 기대하는 것은 합리적입니다. 현재 방법의 비용은 지속 불가능하며 이는 혁신에 대한 강력한 시장 인센티브를 제공합니다. Apple과 같은 제조업체는 클라우드에 의존하기보다는 로컬에서 더 많은 작업을 수행하기 위해 더 강력한 엣지 어플라이언스를 구축하면서 이미 이러한 추세를 확인하고 있습니다.
또한 보다 탈중앙화 연구 및 개발을 촉진하기 위해 Meta와 같은 회사 내에서도 오픈 소스 솔루션에 대한 지원이 증가하고 있습니다. 이러한 추세는 시간이 지남에 따라 가속화될 것입니다.
동시에 이러한 방식으로 사용할 수 있도록 에지 장치를 연결하는 새로운 네트워크 인프라가 필요합니다. 이러한 장치에는 노트북, 게임용 데스크탑, 그리고 고성능 그래픽 카드와 대용량 메모리를 갖춘 휴대폰까지 포함될 수 있습니다.
이를 통해 훈련 작업을 병렬로 처리할 수 있는 저비용의 상시 컴퓨팅 성능을 갖춘 "글로벌 클러스터"를 구축할 수 있습니다. 여러 분야의 발전이 필요한 어려운 문제이기도 합니다.
이기종 환경에서 훈련하려면 더 나은 스케줄링 기술이 필요합니다. 현재로서는 최적화를 위해 모델을 자동으로 병렬화할 수 있는 방법이 없습니다. 특히 장치가 언제든지 연결 해제되거나 연결될 수 있는 경우에는 더욱 그렇습니다. 이는 에지 기반 네트워크의 규모 이점을 유지하면서 훈련을 최적화하는 데 있어 중요한 다음 단계입니다.
우리는 또한 탈중앙화 형 네트워크의 일반적인 복잡성도 처리해야 합니다. 규모를 최대화하려면 웹을 개방형 프로토콜(TCP/IP와 같지만 머신러닝(ML) 컴퓨팅을 위한 참가자 간의 상호 작용을 관리하는 표준 및 지침 집합)로 구축해야 합니다. 이를 통해 특정 사양을 준수하는 모든 장치는 소유자 및 위치에 관계없이 네트워크에 연결할 수 있습니다. 또한 네트워크가 중립적으로 유지되므로 사용자가 선호하는 모델을 훈련할 수 있습니다.
이는 규모를 극대화하는 동시에 단일 엔터티에 의존하지 않고 모든 훈련 작업의 정확성을 확인하는 메커니즘도 필요합니다. 예를 들어 급여를 받기 위해 훈련 작업을 완료했다고 주장하지만 실제로는 수행하지 않는 등 부정 행위에 대한 고유한 인센티브가 있기 때문에 이는 매우 중요합니다. 설치마다 머신러닝(ML) 작업이 다르게 수행되는 경우가 많아 표준 복제 기술을 사용하여 정확성을 확인하기가 어렵다는 점을 고려하면 이는 특히 어려운 일입니다. 이 문제를 올바르게 해결하려면 암호화 및 기타 분야에 대한 심층적인 연구가 필요합니다.
다행히도 우리는 이러한 모든 분야에서 계속해서 진전을 보이고 있습니다. 이러한 과제는 과거와 비교해 더 이상 극복할 수 없는 것처럼 보이지 않습니다. 기회에 비해 그들은 또한 창백합니다. Google은 DiPaCo 논문에서 이를 가장 잘 요약하여 탈중앙화 훈련이 깨질 가능성이 있는 부정적인 피드백 메커니즘을 지적합니다.
머신러닝(ML) 모델의 분산형 훈련이 발전하면 인프라 구축이 단순화되어 궁극적으로 컴퓨팅 리소스의 가용성이 더 넓어질 수 있습니다. 현재 인프라는 대규모 모놀리식 모델을 교육하기 위한 표준 방법을 중심으로 설계되었으며, 머신러닝(ML) 모델은 현재 인프라와 교육 방법을 활용하도록 설계되었습니다. 이 피드백 루프는 컴퓨팅 리소스가 실제로 필요한 것보다 더 제한되는 오해의 소지가 있는 지역 최소값에 커뮤니티 가둘 수 있습니다.
아마도 가장 흥미로운 점은 연구 커뮤니티에서 이러한 질문을 해결하려는 열정이 커지고 있다는 것입니다. Gensyn 팀은 위에서 설명한 네트워크 인프라를 구축하고 있습니다. Hivemind 및 BigScience와 같은 팀은 이러한 기술 중 많은 부분을 실제로 적용합니다.
Petals, sahajBERT 및 Bloom과 같은 프로젝트는 이러한 기술의 기능과 커뮤니티 기반 머신러닝(ML) 에 대한 관심 증가를 보여줍니다. 다른 많은 사람들도 보다 개방적이고 협력적인 모델 교육 생태계를 구축하려는 목표로 연구를 발전시키고 있습니다. 이 작업에 관심이 있으시면 저희에게 연락하여 참여해 주시기 바랍니다.



