나는 어디에 있었지?
가장 먼저, 댓글, 편집, 피드백, 제안을 해주신 sam lehman , rodeo , haus , yb , smac , ronan , ibuyrugs 에게 특별히 감사의 말씀을 전합니다 . 여러분 덕분에 이 글이 탄생할 수 있었고, 정말 감사드립니다.
또한, 이러한 arxiv 링크 중 일부는 브라우저 기반 PDF로 열리므로, 이를 다루고 싶지 않은 분들을 위해 경고합니다.
이 글을 쓰는 지금, 마지막 글을 올린 지 3개월이 지났습니다. 그 이후로 저는 무엇을 하고 있었을까요?
모르겠어요. 독서도 많이 하고, 일주일에 5일 정도 운동도 하려고 노력하고, 대학 마지막 학기를 최대한 활용하고 있어요.
긴 보고서를 쓴 지 한두 달이 지나면 언제나 마음이 불안해지곤 하는데, 이 글은 원래의 상태로 돌아가 일상으로 돌아가려는 시도입니다.
제목에서 알 수 있듯이 이 보고서는 주로 분산/탈중앙화 교육 에 대한 내용이며, AI 세계 에서 무슨 일이 일어나고 있는지에 대한 정보와 이 모든 것이 어떻게 서로 맞물리는지, 왜 이 보고서가 가치 있다고 생각하는지 에 대한 논평이 곁들여져 있습니다.
이 보고서는 이 주제에 관해 작성된 다른 보고서만큼 기술적이지는 않을 것이고, 전적으로 정확하지도 않을 것이라고 확신합니다.
하지만 이 보고서는 여러분이 찾을 수 있는 이 주제에 대한 가장 이해하기 쉬운 보고서가 될 것입니다.
여기에 있는 거의 모든 내용은 간략하게 자세히 설명되어 있으며, 그렇지 않은 경우 더 긴 설명을 제공하는 하이퍼링크가 한두 개 있습니다.
이 보고서는 분산형 교육과 분산형 교육에 대한 것입니다. 두 가지가 혼용되어 사용되는 것처럼 들리지만, 실제로는 매우 다른 두 가지입니다.
AI 연구실에서 LLM을 교육하기 시작하면 완성되고 작동하는 LLM에 기여하는 여러 가지 의무를 관리해야 합니다.
연구자와 개발자는 데이터 수집/큐레이션 , 사전 학습/미세 조정 , 사후 학습 , 강화 학습 , 구성/배포를 모두 처리해야 합니다.
이것이 기초 모델 구축 과정의 전부는 아니지만, 좀 더 이해하기 쉽도록 저만의 방식으로 나누어 설명하겠습니다. LLM은 방대한 양의 데이터를 수집하고, 팀에서 모델에 맞는 특정 아키텍처를 결정한 후, 학습 및 개선 작업을 진행하고, 마지막으로 모델 출시 전에 학습 후 마무리 및 다듬기 작업을 거친다는 점만 알아두시면 됩니다. 아, 그리고 대부분의 LLM은 트랜스포머 아키텍처를 사용합니다.
이 과정은 일반적으로 중앙 집중식 교육 이라고 합니다.
샘 리먼은 분산형 학습을 " 물리적으로 동일 위치에 있지 않은 하드웨어를 통한 학습 프로세스 "로 설명했고, 분산형 학습 은 " 사전 학습에 사용되는 하드웨어가 동일 위치에 있지 않다는 점에서 분산형 학습과 유사하지만, 사용되는 하드웨어가 이기종이며 신뢰할 수 없다는 점에서 다릅니다 ."라고 말했습니다.
이 보고서의 대부분이 분산 학습을 언급하고 있지만, 암호화폐 인센티브, 즉 토큰을 활용하여 분산 학습을 구축하고 확장하는 데는 엄청난 가치가 있다는 점을 구분하는 것이 중요합니다. 아마도 이 글을 읽는 대부분의 독자들이 관심을 가질 만한 부분이 바로 이것일 것입니다.
네트워크 기여자에게 작업에 대한 대가로 토큰을 지급한다는 개념은 매우 잘 알려져 있고 문서화되어 있습니다.
DePIN( 분산형 물리적 인프라 네트워크 )에서 볼 수 있는 보다 복잡한 예를 보지 않고도 비트코인의 PoW 모델에서 이를 찾을 수 있습니다.
그냥 그 점을 분명히 하고 싶었고, 걱정하지 마세요. 차이점은 보고서 전반에 걸쳐 자세히 설명될 것이므로 아직 전체적인 그림을 알지 못하더라도 괜찮습니다.
이 글을 쓰면서 정말 즐거웠고, 여러분도 읽는 동안 즐거우셨으면 좋겠습니다. 저는 이 모든 일을 어떤 이유에서인지 무료로 합니다. 아무도 제게 돈을 주지 않았거든요.
만약 어떤 식으로든 마음에 드셨다면, 이 블로그도 구독해 주세요( 아직 무료입니다 ). 그리고 친구와 공유하거나 X에 다시 게시해 주세요.
분산형 AI 정의 및 분산형 교육 가치 제안 구체화
* 참고: 분산/분산화 학습에 대해 자세히 알아보려고 이 게시물을 읽는 경우 이 섹션은 건너뛸 수 있습니다 . *
탈중앙화 교육이라는 주제에 대해 쓰면서 암호화폐, 더 구체적으로는 탈중앙화 AI (약칭 DeAI )에 대해 쓰지 않을 수 없습니다.
원래는 이 섹션을 보고서의 마지막에 배치하려고 했지만, 지루한 내용을 모두 넣기 전에 앞쪽으로 옮기는 게 최선이라고 판단했습니다.
분산형 학습은 사업 기회로 위장한 복잡한 과학 프로젝트가 아니라, AI 모델을 훈련하는 방식을 근본적으로 바꾸는 점점 더 실현 가능한 일련의 단계입니다.
더 넓은 암호화폐 커뮤니티가 반대 의견을 내놓으려 하지만, 현실은 암호화폐가 AI를 필요로 하는 것보다 AI가 암호화폐를 필요로 하는 것이 훨씬 더 크다는 것 입니다. 무슨 말일까요?
일부에서는 암호화폐가 기존 AI 산업보다 개발자 인재 풀의 질이 낮기 때문에 야심 차지 않고 전반적으로 밋밋한 아이디어와 제품이 나오기 때문이라고 말할 수도 있습니다.
비트코인이나 모네로를 제외한 모든 토큰은 허상(vaporware)에 불과하기 때문에 DeAI도 마찬가지라고 말하는 사람들도 있습니다. 흔히 듣는 말입니다. 미미코인(memecoin)의 가치 평가를 논의할 때 가장 흔히 사용되지만, DeFi나 DePIN처럼 암호화폐 하위 집합에 속하는 앱과 같은 더 까다로운 분야에 대한 논의에서도 종종 사용됩니다.
최근까지 DeAI 부문과 수많은 회사가 암호화폐 기반 혁신을 통해 AI를 분산화한다는 약속으로 벤처 자금을 조달했지만 혁신이 크게 일어나지 않았다는 것은 비밀이 아닙니다.
Galaxy 의 이 시장 지도는 2024년 1분기에 이미 포화 상태였고, 모든 프로토콜을 통합하는 데 어려움을 겪었습니다. 오늘 다른 지도를 만든다 해도 그중 70%도 채 담기 힘들고, 시각적으로 보기 좋게 모든 프로토콜을 담는 것은 더더욱 어렵습니다.
우리가 이들 팀에서 본 대부분의 것은 미래를 위한 준비 의 일종으로 볼 수 있습니다. 즉, AI가 블록체인과 상호 작용하는 세상, 즉 갑자기 AI와 인접하고 암호화를 지원하는 기술이 필요하게 될 세상입니다.
하지만 지금은 어떤가요?
혁신이 많지 않았다고 말씀드릴 때는, DeAI 도입 이나 비암호화폐 AI 산업에 영향을 미친 프로젝트가 출시되지 않았다는 것을 의미합니다. 이는 괜찮으며, 이러한 프로젝트들을 폄하하려는 의도는 아닙니다. 결국 소수의 프로젝트만이 도입될 가능성이 높기 때문입니다.
제가 말하고자 하는 것은 DeAI 부문이 행동하기보다는 방관하고 기다리고 있다는 것입니다.
이러한 프로토콜은 AI가 기술과 비즈니스의 모든 측면에 통합된다는 사실에 의존하고 있습니다. 나쁘지 않은 선택이죠. a16z의 수백 개에 달하는 엔터프라이즈 AI 블로그 게시물 중 하나만 봐도 알 수 있습니다. 하지만 왜 자금을 조달했는지, 그리고/또는 (대부분 은) 왜 오늘날 DeAI 산업과 관련이 있는지 설명하는 데 어려움을 겪습니다.
저는 DeAI가 아직 "이륙"의 모습을 보이지 못했다고 생각합니다. 그 이유는 a) 전 세계 인구의 대다수가 아직 블록체인을 사용하지 않았고, b) DeAI에서 해결 중인 문제 중 일부는 현재 시점에서 전적으로 필요하지 않으며, c) 제안된 아이디어 중 상당수가 실제로 가능하지 않기 때문입니다 .
무엇보다도, 저는 DeAI가 외부에서 큰 주목을 받지 못하고 있다고 생각합니다. 왜냐하면 미메코인과 스테이블코인을 제외한 암호화폐와 관련된 다른 것에 사람들의 관심을 끌기가 매우 어렵기 때문입니다 .
이건 업계를 폄하하려는 게 아니라, 그냥 제 개인적인 의견입니다. 그리고 이건 너무나 자명한 사실입니다. Circle처럼 보편적으로 존경받는(신뢰받는?) 기업조차도 50억 달러의 기업가치로 IPO를 할 수 있다는 제안 의 무게를 감당하기 어려워하고 있습니다.
하지만 제 생각에 세 번째 요점(제안된 아이디어가 실행 불가능하다는 점)이 DeAI의 짧은 역사 동안 가장 큰 피해를 입혔습니다.
이는 대부분의 DeAI 연구자나 일반적인 회의론자에게는 상당히 명확하게 이해될 수 있는 한 가지 예일 뿐이지만, 인간 중개자 없이 상호 작용하는 완전한 온체인, 완전 자율 에이전트를 만들려고 한다면 진행 상황을 벤치마킹할 수 있는 중앙화된 추론조차 없습니다.
사실, 블록체인 밖에서는 인간의 중개자 없이 지속적으로 상호작용할 수 있는 완전 자율 에이전트조차 없습니다. 마치 인간이 화성에 착륙하기도 전에 집을 짓는 것과 같습니다.
완전 자율형 에이전트는 아직 출시되지 않았고 주요 AI 연구소에서도 과도하게 공개되지 않았지만, ai16z와 virtuals와 같은 코인은 각각 26억 달러와 46억 달러 의 최고 가치에 도달했습니다.
여러 가지 에이전트 프레임워크가 있었습니다. 이런 프로젝트들도 추진했지만, (제 생각에는) 결과물은 거의 없었습니다. 제가 너무 부정적으로 말하려는 건 아닙니다. 한동안 이런 코인들을 거래하는 건 정말 재밌었지만, 이런 것들이 암호화폐가 아닌 AI 산업에 실질적으로 기여한 바는 없습니다.
이러한 웹3 팀이 제안한 프레임워크는 Anthropic이나 OpenAI는 물론, 더 광범위한 오픈소스 커뮤니티에서도 채택되지 않았습니다.
주목을 받지 못하는 것보다 더 나쁜 것은 이 모든 엉뚱한 짓이 웹2/거래소/빅테크 업계의 집단적 믿음인 암호화폐가 여전히 근본적으로 심각하지 않은 영역이라는 것을 재확인시켜 주는 것일 뿐이라는 잠재적으로 추악한 진실입니다.
프레임워크 자체가 별로인 게 아니고, 마케팅이 부실한 건 이 프로젝트들이 토큰을 출시했기 때문일 수도 있는데, 이는 업계 외부 사람들에게는 부정적으로 보일 수 있지만, 창립 팀이 토큰을 출시하기로 결정했다는 이유 만으로 그렇게 혁신적이라고 여겨지는 것이 채택되지 않았을 리가 없습니다.
" 내가 아는 모든 에이전트는 내가 에이전트를 싫어한다는 걸 알아요 ." - 예 , 이전에 카니예 웨스트로 알려진 아티스트
기본적인 조사와 온라인 상호작용을 통해 MCP ( 모델 컨텍스트 프로토콜 )와 같은 프레임워크의 도입률이 이러한 프레임워크보다 훨씬 높았으며, 심지어 일부는 MCP가 이미 승리했다고 주장하기도 합니다 . 왜 그럴까요? MCP는 효과가 있고, (대부분) 무료이며, 사람들이 이미 사용 중인 앱과 함께 일상 생활에 통합할 수 있는 소프트웨어를 선호하기 때문입니다.
사람들은 에이전트 프레임워크에서 무엇을 얻나요? 대부분의 경우 , 더 많은 에이전트를 "구축"하거나 배포할 수 있는 기능만 얻을 수 있는데, 이는 웹3의 99% 사례에서 이미 과장된 설명입니다. 대부분의 사람들은 저희 코인을 구매하고 싶어 하지 않습니다. 그렇다면 워크플로우와는 전혀 관련이 없고 새로운 토큰 출시와 관련된 에이전트를 배포함으로써 어떤 가치를 얻을 수 있다고 생각하시나요?
* 참고: @diego_defai를 비난하려는 건 아니지만, 당신의 스레드가 가장 찾기 쉬웠고 가장 먼저 올라왔다는 겁니다. *
하지만 분산형 AI 란 무엇이고 , 왜 그것이 필요하다고 말하는 걸까?
루카스 체얀은 2024년에 이렇게 썼습니다 . " 암호화폐와 AI의 교차점에서 지속적인 실험과 궁극적인 도입을 뒷받침하는 원동력은 암호화폐의 가장 유망한 사용 사례를 이끄는 원동력과 동일합니다. 즉, 가치 전송을 보다 원활하게 하는 허가와 신뢰가 필요 없는 조정 계층에 대한 접근성입니다 . "
샘 리먼은 보고서 에서 암호화폐를 활용한 인센티브 에 대한 섹션을 작성하면서 " 암호화폐는 신중하게 설계된 인센티브를 제공함으로써 분산형 네트워크가 엄청난 규모를 달성할 수 있음을 보여주었습니다. "라고 지적했습니다. 비트코인만 봐도 알 수 있죠.
우리가 서로에게 솔직하게 비트코인 모델이 최소한 이론적으로는 이상하다는 것을 인정한다 하더라도 , 이는 순전히 새로운 인센티브(일의 대가로 비트코인을 받는 것)가 세상을 바꾸었고 미국 정부가 비트코인을 위한 전략적 기금을 적극적으로 모색하는 시대로 우리를 이끌었다는 사실을 무시할 수는 없습니다.
이러한 사고방식은 분산형 물리적 인프라(또는 줄여서 DePIN)의 기본 신념 또는 행동 방식 (제가 멋대로 표현해도 괜찮다면)이기도 하며, 0xsmac 과 저는 이에 대해 2024년 9월에 글을 쓴 적이 있습니다.
분산형 AI가 무엇인지에 대한 정의는 여러 가지가 있지만, 아직 명확한 것은 없습니다. 이미 어느 정도 초기 단계인 산업 내에서 아직 초기 단계라는 점을 고려하면 이해할 만하지만, 적어도 DeAI의 5W, 즉 누가 (who), 무엇을(what) , 언제(when) , 어디서(where) , 그리고 왜(why )는 파악할 수 있어야 합니다.
누가 이걸 사용할 건가요? 암호화폐 통합으로 어떤 문제가 더 잘 해결될까요? 언제 사용될 예정인가요? 이런 제품이 가장 큰 관심을 끌거나 가장 많은 사용자 기반을 확보할 수 있는 곳은 어디일까요 ? 왜 벤처 자금이 필요할까요? (농담이에요) 그리고 왜 존재해야 할까요?
제 생각에 Prime Intellect의 Vincent Weisser는 거의 모든 사람이 이해할 수 있도록 과제와 문제 영역을 간결하게 제시합니다.
빈센트는 또한 DeAI의 잠재적 활용 사례 목록과 구축 가능한/구축해야 할 사항들을 제시합니다. 모든 내용을 장황하게 설명하지는 않겠지만, 이 목록은 스택의 거의 모든 계층을 포괄하며, 지금까지 실제로 구현되지 않았던 방식으로 이 분야를 요약하고 있습니다.
분산형(또는 P2P) 컴퓨팅 네트워크, 분산형/연방형 학습 방법, 분산형 추론 , 온체인 에이전트, 데이터 출처, 온체인 검증 가능성, 기타 여러 가지가 있습니다.
DeAI는 단순히 모델을 학습하는 컴퓨팅 , 대규모 연구실에서 구매하는 스크래핑된 데이터 , 또는 모델 출력의 정확성을 검증하는 서비스 그 이상입니다. DeAI는 분산화에 거의 완벽하게 적합한 산업을 혁신하기 위해 구축된 제품 혁신의 완전한 생태계입니다.
업계의 대부분이 AI의 분산화 과제에 매력을 느끼는 이유는 분산화를 좋아하기 때문인 듯하지만, 그보다 더 중요한 것은 이 문제가 많은 인간에게 시급한 문제라는 것입니다.
AGI나 ASI가 단일 기관의 손에 들어간다면, 그건 공평하지 못한 일입니다.
정말 짜증날 거야.
우리 중 누구도 이러한 초지능 디지털 외계인의 이점을 온전히 활용할 수 없을 것입니다. 기업이 이러한 모델을 만드는 데 사용되는 모델 가중치 , 코드 , 맞춤형 훈련 방법론 및 기술을 소유하게 되기 때문입니다.
OpenAI나 Deepseek 같은 기업이 먼저 이를 해결한다고 가정하면, 이미 해결되지 않았 더라도 실제로는 심각한 국가 안보 위협이 될 것입니다.
분산 학습이 대규모로 작동하고( 이미 보고 있는 바와 같이 ) 제로 지식 증명이나 기타 개인 정보 보호 메커니즘과 같은 다른 DeAI 기술과 통합된다면, 초지능에 대한 독점을 방어할 수 있는 좋은 기회가 생길지도 모릅니다.
분산형 학습 연구자들이 완전히 새로운 일련의 확장 법칙을 계속 이해하고 이를 바탕으로 분산형 학습 운영을 확장해 나가는 세상에서, 우리가 과거의 보다 지역화된 학습 방법을 되돌아보고 최적화할 가능성은 거의 없습니다.
Google/Meta/Amazon과 같은 대형 연구소나 기술 대기업이라면 분산 학습을 연구 하고 우선순위로 삼는 것이 가장 좋습니다 . Dylan Patel은 2024년에 이 주제에 대해 언급했지만 , 대형 기술 기업과 주요 업체들이 이 주제를 적극적으로 연구하고 있다는 것을 더 확실하게 알고 싶다면 DeepMind( 2014년 Google에 6억 5천만 달러에 인수됨 ) 에서 작성한 DiLoCo 논문을 참고하십시오. Dylan Patel이 다중 데이터센터 학습에 대해 작성한 글도 참고할 만합니다.
로데오는 돌이켜보면 당연한 것처럼 느껴지는 점을 지적했습니다. 세계에서 가장 똑똑한 사람들과 가장 큰 기술 회사들이 분산된 원칙을 통해 거대한 노드 네트워크를 만드는 방법을 적극적으로 추구하고 있다는 것입니다.
이게 익숙하지 않은가요?
분산/다중 데이터 센터 교육의 이점은 대형 연구실에만 국한되지 않으며, 실제로는 정반대입니다.
소비자용 하드웨어로 홈 트레이닝의 장벽을 낮추는 건 어떨까요?
큰 자본 지출 없이 혁신을 부트스트래핑하기 위한 초기 자금으로 토큰을 사용하는 건 어떨까요?
이 내용은 나중에 Exo Labs의 작업에 대한 간략한 분석에서 다루겠지만, Alex Cheema가 Apple의 M3 Ultras와 Meta의 새로운 Llama 모델과 관련하여 이 개념을 정확하게 설명하는 최근 트윗이 있습니다.
분산 학습은 단순히 학습 효율을 높이는 데 그치지 않고, 이전에는 프론티어 모델 개발에 어려움을 겪었던 연구자, 취미 개발자, 그리고 마니아들로 구성된 전 세계 커뮤니티를 활성화합니다. 수십 개, 심지어 수천 개의 GPU를 보유한 수십 명의 개인에게 중앙 집중식 프론티어 연구실과 경쟁할 수 있는 황금 티켓이 주어진다면 어떻게 될까요?
AI 기본 사항, 컴퓨팅 및 확장 법칙에 대한 개요
이 섹션의 주요 내용:
최신 AI 교육은 데이터 병렬 처리를 위해 GPU에 의존하므로 업계의 병목 현상이 되고 동시에 매우 인기 있는 상품이 됩니다.
컴퓨팅 및 데이터 증가는 일반적으로 더 높은 성능으로 이어지지만 컴퓨팅 클러스터 크기를 확장하면 고유한 일련의 문제가 발생합니다.
DeepSeek의 발전은 모델 생성에 있어서 창의성을 보여주었으며(단순히 GPU를 더 많이 사용하는 것이 아님) 틀에 박힌 사고방식을 벗어나면 더 낮은 비용으로 최첨단 결과를 얻을 수 있음을 증명했습니다.
중앙 집중식 교육은 비용이 많이 들고 어렵습니다. 분산형 교육도 마찬가지지만 올바르게 실행하면 더 많은 긍정적 외부 효과가 있습니다.
AI 산업 전반에서 무슨 일이 일어나고 있는지에 대한 최신 소식을 되짚어 보는 것부터 시작하는 것이 가장 좋으며, 이를 이후의 보다 복잡한 주제로 넘어가는 출발점으로 삼는 것이 좋습니다.
이 글을 읽는 대부분의 사람들은 최근 LLM( Sonnet 3.7, GPT 4.5, Grok 3 )과 Magnificent 7 의 AI 지출, 그리고 거의 매주 출시되는 점점 더 강력해지는 모델에 대해 어느 정도 알고 있기를 바랍니다.
LLM 교육에 필요한 작업을 설명하는 좋은 보고서가 몇 가지 있으니, 이 글 전체에서 그 중 몇 가지를 인용하겠습니다.
LLM 교육은 자본 집약적인 사업이며, 아래에서 대형 기술 기업들이 인프라에 얼마나 많은 비용을 지출했는지 확인할 수 있습니다. 자세한 내용은 곧 다루겠지만, 이 중 대부분(전부는 아니더라도)은 GPU, 데이터 센터 증축, 유지 관리, 그리고 최종 제품에 기여하는 기타 하드웨어 요구 사항 등에 사용됩니다.
그런데 이 목록은 세 개의 대형 기술 기업으로만 제한되어 있습니다.
CPU 대신 GPU를 사용하는 이유가 궁금하거나, 둘의 차이점이 무엇인지 궁금할 수도 있습니다.
시트리니는 GPU와 CPU의 구분은 계산에 사용되는 병렬 처리 유형에 따라 달라진다고 강조했습니다. GPU는 데이터 병렬 처리 에 최적화되어 있는 반면, CPU는 작업 병렬 처리에 더 적합합니다.
머신러닝 업계는 원래 그래픽 렌더링용으로 설계된 GPU가 계산을 빠르게 처리하는 데도 매우 유용하다는 것을 깨달았습니다. 속도에 대해서는 자세히 설명하지 않겠지만, GPU는 매우 빠릅니다.
데이터 병렬성은 " 동일한 작업이 여러 데이터 요소에 대해 병렬로 수행되는 " 프로세스이고, 작업 병렬성은 " 동일하거나 다른 데이터에 대해 서로 다른 작업이 수행되는 " 프로세스입니다.
LLM을 학습하는 경우, 대용량 데이터 세트를 구문 분석하고 이를 바탕으로 간단한 작업을 수행하는 것은 매우 반복적인 특성이 있기 때문에 데이터 병렬 처리가 더욱 합리적입니다. 이것이 GPU가 인기 있는 상품이 된 이유이며, 지금도 그렇습니다.
AI 데이터 세트는 매우 가변적이기 때문에 작업 병렬 처리와 같은 것은 의미가 없습니다. 대규모 세트 내의 단일 데이터 에 과도하게 인덱싱을 적용하면 모델 학습을 완료할 수 없거나 너무 오랜 시간이 걸려 비용이 많이 들거나 매우 비효율적일 수 있기 때문입니다.
사람들은 '컴퓨팅'이라는 단어를 즐겨 사용하는데, 이는 GPU를 지칭하는 것입니다. 누군가 " 메타는 얼마나 많은 컴퓨팅을 보유하고 있나요? " 또는 " 일론 머스크는 내년에 컴퓨팅에 얼마나 투자하고 있나요 ?"라고 묻는다면, 그들은 GPU를 말하는 것입니다.
카네기 기금에서 컴퓨팅의 의미, 작동 방식, 그리고 그 중요성에 대한 훌륭한 요약을 작성했습니다. 아직 잘 모르겠거나 이 글을 읽기 전에 전반적인 내용을 더 알고 싶다면 이 글이 도움이 될 것입니다.
AI 연구실의 주된 관심사는 스케일링 법칙 , 특히 성능 좋은 모델과 이를 학습하는 데 사용되는 GPU 와 데이터 수 간의 거듭제곱 법칙 관계 또는 상관관계로 알려진 요인 때문에 컴퓨팅이었습니다.
정확히 말하면, 여기서 언급되는 특정 법칙은 사전 훈련 스케일링 법칙이라고 합니다. 아래 그림은 그보다 좀 더 포괄적이지만, 현재 모델 개발의 현재 상황과 앞으로의 방향을 파악하는 데 도움이 된다고 생각합니다.
간략하게 설명하자면, OpenAI의 2020년 확장 법칙에 대한 논문은 컴퓨팅, 데이터, 모델 매개변수 수 간의 관계에 대한 가장 기초적인 분석 중 하나로 알려져 있습니다.
확장 법률은 유지되었습니다.
최신 모델의 정확한 GPU 수를 찾는 것은 어렵지만, 지난 몇 년 동안 OpenAI의 일부 모델에 적용된 스케일링 법칙에 대한 대략적인 추정치는 다음과 같습니다.
GPT-1 : 매개변수 117m개 및 Nvidia V100 약 8개
GPT-2 : 1.5b 매개변수 및 수십에서 수백 개의 Nvidia V100
GPT-3 : 175b 매개변수 및 1k-2k+ Nvidia V100
GPT-4 : 수조 개의 매개변수와 8k-30k Nvidia A100/H100
샘 알트먼이 점점 더 큰 데이터 센터를 짓기 위해 수조 달러를 요구하거나 , 5,000억 달러 규모의 스타게이트 법안을 제안하거나, 심지어 잭 스패로우의 2GW 이상 데이터 센터 야망을 기억하실지도 모릅니다. 이러한 이니셔티브는 엄청나게 크고 전력 소모가 많은 데이터 센터에 대한 (인지된) 필요성으로 인해 생겨났습니다.
실제로 OpenAI가 새로운 자금 조달 라운드를 완료하고 400억 달러의 자본 투자를 받았다는 소식이 3월 31일에 발표 되었습니다(이 중 75%는 마사요시 손과 소프트뱅크에서 유입).
스케일링 법칙이 오랫동안 문제였기 때문에, 좋은 모델을 구축하려는 모든 사람들은 점점 더 많은 컴퓨팅 자원을 확보해야 했고, 더 성능이 뛰어난 컴퓨팅 유형 (즉, 더 나은 GPU)도 구축해야 했습니다. 이러한 컴퓨팅은 대부분 엔비디아에서 제공하지만, 애플 실리콘의 잠재력을 살펴보는 것도 가치가 있습니다.
모두가 GPU를 사들이고 더 큰 모델을 훈련시키려는 엄청난 경쟁에 갇혔지만, 상황은 더욱 복잡해졌습니다. 더 많은 GPU로 모델을 훈련시키면 모델은 더욱 똑똑해지지만, 장애, 오류, 냉각 요구 사항, 상호 연결 등 여러 가지 문제로 인해 훈련이 점점 더 어려워집니다.
이후 섹션에서 더 자세한 내용을 다루겠지만, 이러한 학습 알고리즘 대부분은 이미 상당히 성능이 뛰어나며 병목 현상은 거의 전적으로 구현 및 확장 단계에서 발생합니다. 완전히 분산된 학습 실행을 달성하는 것은 이미 가능하지만, 유일한 과제는 이를 0.5에서 1로 줄이는 것입니다.
분산 훈련은 실제로 이런 많은 문제를 해결하기 위한 한 단계이며, 매우 큰 도움이 될 것입니다.
결국 다양한 대륙과 국가의 여러 개별 데이터 센터에서 최첨단 모델을 이러한 부담 없이 훈련할 수 있다면 훨씬 더 적은 번거로움과 훨씬 더 성능 좋은 훈련 실행으로 더 나은 모델을 얻을 수 있을 것입니다.
그렇기 때문에 이 부분이 매우 중요합니다. 확장성이 입증된다면 중앙 집중식 교육 만큼 효과적 일 수 있지만, 성공한다면 거의 모든 면 에서 더 나을 수 있습니다. 생각해 보면, 이러한 중앙 집중식 기업과 연구소는 분산형 교육의 추세에 맞춰 운영 방식을 바꿔야지, 그 반대가 되어서는 안 됩니다.
이미 대규모 데이터 센터를 보유하고 있다면 분산형 학습 방식에 맞춰 인프라를 역추적하여 재설계하는 것은 어렵습니다. 하지만 처음 부터 분산형 학습 분야의 선구적인 연구를 시작한 소규모의 꼼꼼한 연구팀이라면, 이 기술의 이점을 훨씬 더 잘 활용할 수 있습니다.
Epoch AI는 2024년에 축소에 대한 보고서를 작성했는데 , 이 보고서에서는 기존의(컴퓨팅 중심의) 확장 법칙뿐만 아니라 앞으로 사전 학습 실행에서 실험실을 괴롭힐 수 있는 다른 잠재적인 병목 현상에 대해서도 설명합니다(이에 대한 내용은 나중에 다룰 예정입니다).
여기서 가장 중요한 점은 GPU 수나 데이터 센터 규모만이 병목 현상이 아니라는 점입니다. 단순히 GPU를 확보하는 것만으로도 충분히 어려운 일이지만, 연구실에서는 전력 제약, 지연 시간 장벽, 칩 생산 능력, 심지어 지정학적 긴장까지 고려해야 합니다.
이는 중앙 집중식 학습 실행에 대한 우려 사항의 일부에 불과합니다. 분산형 학습에는 고유한 문제가 있는데, 주로 통신 병목 현상을 해결하고 학습 실행을 확장하는 데 있습니다.
지리, 위치, 그리고 (이게 정확히 어떤 단어인지는 모르겠지만) 지역성과 같은 요소에 분산 학습이 본질적으로 민감하다는 명백한 현실 때문에 다른 많은 제약 조건도 분산 학습과 관련이 있습니다.
분산 학습은 여러 위치에 있는 모델을 학습시키는 방법을 연구하는 것일 뿐만 아니라, 중앙 집중식 학습에서 가장 어려운 문제를 다루고 분산 학습 연구에서 나온 더욱 어렵고 검증되지 않은 이론과 연결하는 포괄적인 분야입니다.
이 주제가 제게 특히 눈에 띄는 이유 중 하나는 위험이 엄청나게 크고, 이 분야는 너무 많은 학문 분야가 겹치는 분야이기 때문에 무슨 일이 일어나고 있는지 전체적인 그림을 파악하는 것이 거의 불가능하기 때문입니다.
시간이 지남에 따라 기술이 크게 발전할 것이라는 점을 생각해 보면 분산 학습은 이에 부합하며, 현재로선 이를 홍보할 만한 아무런 증거가 없더라도 성공할 가능성이 있습니다.
법률을 확장하면 수익이 "종식"되거나 감소한다는 아이디어는 크게 논란이 되었고, 대부분 사람이 전적으로 확신하지 못하기 때문에 제가 의견을 표명하는 것은 적절하지 않습니다.
사전 학습 스케일링 법칙 외에도 사후 학습 및 테스트 시간 컴퓨팅 (TTC) 법칙에 대해서도 다룰 내용이 많습니다. 사후 학습은 미세 조정, 강화 학습, 그리고 다음 섹션에서 다루는 몇 가지 고급 메커니즘과 같은 주제와 관련이 있습니다.
반면에 TTC는 훨씬 더 복잡합니다.
하지만 제가 이런 것에 대해 써야 할까요? 이 보고서는 정말 지칠 대로 지쳤습니다. 마치 한 걸음 앞으로 갔다가 세 걸음 뒤로 물러서는 것 같았고, 새로운 정보를 이해하거나 한 섹션 전체를 썼는데 안타깝게도 모든 것을 잘못 이해했다는 사실을 깨닫는 데 애를 먹었습니다. 정말 힘들었습니다. 그런데 왜 그럴까요?
이 글을 써서 돈을 벌지도 않아요.
간단히 말해서, 현재 훈련 후 법칙은 OpenAI의 "o" 모델에서 측정된 어처구니없는 개선 속도 덕분에 유행하고 있습니다. 이는 GPT-4와 그 전에 출시된 비추론 모델과 비교한 것입니다.
학습 후 연구는 현재 매우 활발하게 진행되고 있습니다. (당연하죠) 효과가 있고, 이미 GPU를 보유한 대규모 연구실이라면 모델 성능을 확장하는 데 더 비용 효율적인 방법이기 때문입니다. 간단히 말해, 학습 후 연구는 주로 가산적(additive)이며, 대규모 연구실이 AGI를 추진하는 방식을 재정의할 잠재력을 가지고 있습니다.
추론 모델과 결합된 강화 학습이 확장 법칙에 대한 업계의 인식에 확실히 도전했지만 , 이러한 확장 법칙이 유지된다는 주장을 반드시 무너뜨린 것은 아니라는 점을 언급했습니다.
오히려 사후 학습에서 이루어지는 발전은 모델 생성의 전체 수명 주기에 도움이 될 뿐입니다. 새로운 데이터가 결국 더 나은 모델에 반영될 수 있기 때문입니다. 모델 생성 및 큐레이션 혁신의 99%가 사후 학습 최적화에서 비롯되는 시대가 올지도 모릅니다. 아직 사후 학습 최적화가 추진되고 있지 않다면 말입니다.
하지만 지금은 이 정도로 하겠습니다. 몇 걸음 뒤로 돌아가서 사전 학습 과정과 GPU를 제외한 몇 가지 중요한 기능들을 살펴보겠습니다.
컴퓨팅은 분명히 훈련 실행에 필수적이지만, 앞서 암시했듯이 GPU만큼 중요한 완전히 별도의 저장소 , 메모리 , 에너지 및 네트워킹 요구 사항이 있습니다.
에너지 : 대규모 데이터 센터가 많은 에너지를 필요로 한다는 것은 자명한 사실입니다. 그렇다면 냉각 인프라는 어떨까요? 실제로 필요한 에너지를 확보하고 안정적인 전력 출력을 보장하는 것은 어떨까요?
저장 : LLM은 대규모 데이터 세트와 매개변수로 구성되므로 이에 대한 저장 요구 사항이 높을 것으로 예상할 수 있습니다.
메모리 : 사전 학습 실행에는 시간이 걸릴 수 있으며, GPU와 노드 전체에서 메모리를 유지하려면 적절한 메모리 요구 사항이 필요합니다.
네트워킹 : Citrini의 상호 연결 보고서는 네트워킹에 대해 알아야 할 것보다 더 많은 정보를 제공하지만, 데이터 센터에는 실제로 실행을 용이하게 하기 위해 고속 및 저지연 상호 연결이 필요합니다.
이러한 모든 모델은 막대한 양의 에너지를 소모하는 상호 연결되고 대규모이며 지리적으로 제약을 받는 클러스터로 사전 학습되었으며, 이는 값비싸고 성능이 뛰어난 기술로 구성되어 있습니다.
기업들이 초지능 경쟁에 뛰어들면서 수천억 달러가 데이터 센터 증축, 연구소 자금 조달, 그리고 기타 수많은 지출에 투입되었습니다.
하지만 올해 초부터 상황이 복잡해졌습니다.
DeepSeek-R1과 관련 논문은 2025년 1월 22일에 발표되었지만, 모두가 알아차리기 전까지 약 일주일 정도 동안은 별다른 주목을 받지 못했습니다. 디지털 공백기를 겪거나 단기 기억력이 좋지 않은 사람이 아니라면, R1은 업계 거의 모든 사람에게 예상치 못한 엄청난 발견이었습니다.
R1은 2,048개의 Nvidia H800 GPU로 학습되었다고 합니다. 이는 GPU당 3만 달러(DeepSeek이 해당 GPU를 언제, 어디서 구입했는지에 따라 5,000달러 정도)를 가정했을 때 약 6,100만 달러 상당의 GPU에 해당합니다. 그러나 여러 인터넷 자료를 기반으로 한 보고 내용과 세미 애널리시스(semianalysis)의 보고서 (H800 1만 대, H100 1만 대 추정) 간에는 차이가 있습니다.
모델 학습에 사용된 실제 GPU 수와는 상관없이, DeepSeek이 이뤄낸 진정한 성과는 바로 이것이라고 생각합니다. 비용 절감이나 GPU 수입 규제 회피 능력이 아니라, 모델 구축과 강화 학습 발전에 있어 창의성을 발휘한 결과입니다.
DeepSeek의 GPU 관련 사건은 지난 2~3년 동안 모든 주요 연구소가 점점 더 많은 컴퓨팅 자원을 축적하는 데 우선순위를 두었고, 이것이 고성능 모델을 구축하는 "올바른" 방법이 아니라는 징후는 거의 없었다는 점을 고려할 때 많은 사람들에게 충격으로 다가왔습니다. DeepSeek의 프로세스와 전략은 다음 섹션에서 더 자세히 다루겠습니다.
다음은 사전 훈련 과정의 훈련 시간이나 기타 문제점을 고려하지 않은 기타 기본 모델과 각각의 비용입니다.
OpenAI의 GPT 4o : 25,000 Nvidia A100 @ $8-20k/GPU
xAI의 Grok 2 : 20,000 Nvidia H100 @ $25-30,000/GPU
Google의 Gemini 2.0 : 100,000개의 Trillium 칩, 시간당 $2.7/칩
메타의 라마 3.1 : 16,000개의 엔비디아 H100 GPU
Anthropic의 Claude 3.5 소네트 : 특정되지 않았지만 수만 명으로 추정
OpenAI의 GPT o1 : 지정되지 않았지만 아마도 매우 많은 GPU
* 참고: 여기에 인용을 포함시키고 싶었지만, 너무 많은 자료가 사용되었고, 이 글을 편집하는 동안 다시 찾아보려면 너무 많은 노력이 필요할 것 같습니다. 샘 리먼(Sam Lehman)은 직원 급여와 보상이 이러한 비용에 포함될 수 있다고 지적했습니다. 따라서 훈련 운영의 절대 비용을 알아보고 싶다면 이 점을 고려해 볼 만합니다. *
일부 오래된 모델( 그리고 Claude 3.7 및 GPT 4.5와 같은 많은 최신 모델)에 대한 비용이나 GPU 개수를 알 수 없지만, 이러한 모델이 AI의 확장 법칙을 고수하고 점점 더 많은 양의 GPU나 성능이 더 좋은 GPU를 모았다고 가정할 수 있습니다.
모든 사전 훈련 실행이 동일하게 만들어진 것은 아니라는 점을 언급하는 것이 좋습니다.
Llama-3 기술 보고서는 여기에 얼마나 많은 변수가 관여하는지 이해하는 데 유용한 자료이며, 아래 표는 간단한 것이 실행을 방해하거나 유휴 훈련 시간으로 이어지는 문제를 일으키는 것이 얼마나 쉬운지를 보여줍니다.
목록에서 볼 수 있듯이 GPU, 네트워킹, 종속성, 유지 관리 또는 심지어 알려지지 않은 문제일 수도 있습니다. 어떤 문제도 배제할 수 없습니다. GPU를 소유한다고 해서 완벽한 사전 학습을 위한 황금 티켓을 얻는 것은 아닙니다.
여기서는 MFU , MAMMF , SFU , 연속성 과 같은 훈련 효율성을 측정하기 위해 제안된 방정식 중 일부를 살펴보는 데 시간을 할애할 수 있었지만, Ronan이 이미 그 부분에서는 좋은 성과를 거두었고 이 보고서는 원래 있어야 할 것보다 더 길어질 수도 있습니다.
요약?
훈련 실행의 효율성을 결정하는 데는 소프트웨어와 하드웨어를 포함한 다양한 변수가 작용하지만, 대부분은 FLOP에 따라 달라지며 이를 매우 긴 방식으로 측정합니다.
어쨌든.
다음 섹션에서는 LLM에 대한 지식을 확장하고 교육 과정, 특히 교육 이후 단계와 여기에서 발생하는 몇 가지 혁신에 대해 분석해 보겠습니다.
추론 모델과 강화 학습 탐색
이 섹션의 주요 내용:
추론 모델은 최신 모델( 거의 모든 연구실에서 )의 주요 구조로 빠르게 자리 잡았습니다.
강화 학습은 모델 최적화 혁신을 위한 주요 벡터 중 하나로 빠르게 부상하고 있는 매우 기술적인 문제 공간입니다.
DeepSeek은 많은 연구실이 정체기에 접어들었던 시기에 모델 설계의 경계를 넓힌 공로를 인정받아 많은 인상적인 성과를 거두었습니다.
여기서 우리는 추론 모델의 최근 인기와 배포에 주목할 수 있습니다. 추론 모델 은 매우 유능한 것으로 입증되었으며 심지어 Sam Altman이 이러한 모델이 가까운 미래( GPT-4.5 이후)에 OpenAI의 초점이 될 것이라고 주장하게 되었습니다.
추론 모델은 강화 학습을 통해 더욱 복잡한 추론을 수행하도록 훈련된 독특한 유형의 언어 모델로, 출력을 생성하기 전에 생각할 수 있는 모델입니다. 이러한 추론 모델은 인간과 우리가 일상생활에서 문제를 해결하는 방식을 더욱 닮도록 개발되었으며, 사용자의 질문에 답하기 전에 내적 아이디어를 세부적으로 설명하는 사고의 사슬을 생성합니다. 다음과 같은 구조입니다.
세바스찬 라슈카는 이 보고서에서 추론 모델을 개선하는 두 가지 주요 방법이 있다고 밝혔습니다 . 하나는 학습 컴퓨팅을 증가시키는 것이고, 다른 하나는 추론 컴퓨팅을 증가시키는 것 입니다. 추론 컴퓨팅은 추론 시간 스케일링 또는 테스트 시간 스케일링이라고도 하며, 스케일링이 수행되는 시점 에 따라 구분됩니다. 여기서 추론 시간은 학습이 완료된 후의 기간을 의미합니다.
Ronan의 보고서는 추론 패러다임에 따른 확장의 과소평가된 측면을 강조하며 Prime Intellect의 samsja 의 트윗을 인용합니다.
전방/후방 패스에 대한 전체적인 내용을 빨리 설명하지 않은 것은 제 잘못이지만, 분산 학습 이론을 뒷받침하기에는 지금이 그 어느 때보다 적절한 시점입니다.
순방향 패스는 신경망이 데이터 입력을 계층별로 처리하고 입력에서 출력으로 모델을 순방향으로 실행하는 과정입니다. 역방향 패스는 모델의 출력이 예상 정답과 얼마나 차이가 나는지 측정하는 계산으로, 이 정보는 모델을 역방향으로 전달하여 매개변수의 가중치를 조정해야 할지 알려줍니다.






























