전 세계에 분산된 GPU 클러스터를 활용하고 개인 및 공공 데이터를 융합하여 연구자들은 새로운 유형의 대규모 언어 모델(LLM)을 성공적으로 훈련시켰습니다. 이는 인공 지능의 현재 주류 구성 패러다임을 뒤집을 수 있는 획기적인 발전입니다.
비전통적인 길을 가는 두 AI 스타트업인 Flower AI와 Vana가 힘을 합쳐 Collective-1이라는 새로운 모델을 만들었습니다. Flower AI는 훈련 작업을 수백 대의 네트워크 컴퓨터로 분산할 수 있는 기술을 개발했으며, 이 솔루션은 많은 회사에서 중앙 집중식 해시레이트 나 데이터가 필요 없는 AI 모델을 훈련하는 데 사용되었습니다. Vana는 X 플랫폼, Reddit, Telegram 개인 메시지를 포함한 다양한 데이터 소스를 제공합니다.
Collective-1은 현대 기준으로 보면 규모가 작았습니다. 70억 개의 매개변수(모델의 성능을 전체적으로 결정함)는 ChatGPT, Claude, Gemini와 같은 오늘날 가장 진보된 모델의 수천억 개의 매개변수와는 거리가 멉니다.
케임브리지 대학교의 컴퓨터 과학자이자 Flower AI의 공동 창립자인 닉 레인은 이러한 분산형 접근 방식이 Collective-1의 규모 제한을 극복할 수 있는 잠재력이 있다고 지적합니다. 그는 Flower AI가 기존 데이터를 사용하여 300억 개의 매개변수로 구성된 모델을 훈련 중이며, 올해 말에는 업계 선두주자 수준에 가까운 1000억 개의 매개변수로 구성된 모델을 개발할 계획이라고 밝혔습니다. 레인은 "이것은 사람들이 AI에 대해 생각하는 방식에 혁명을 일으킬 잠재력이 있으며, 우리는 그것을 추진하고 있습니다."라고 말했습니다. 이 스타트업은 오디오와 함께 이미지를 훈련에 통합해 다중 모드 모델을 만듭니다.
분산 모델링은 AI 산업의 권력 역학을 재편할 수도 있습니다.
현재 AI 회사들은 모델을 구축하기 위해 두 가지 기둥에 의존합니다. 방대한 학습 데이터와 데이터 센터에 집중된 엄청난 해시레이트 입니다. 이러한 데이터 센터는 초고속 광섬유 네트워크를 통해 고급 GPU 클러스터에 연결됩니다. 그들은 또한 웹에서 스크래핑한 공개적으로 이용 가능한 데이터 세트(일부는 저작권이 있는 자료와 관련됨)에 크게 의존하는데, 여기에는 웹 페이지와 책 콘텐츠가 포함됩니다.
이 모델은 대량 의 고급 칩에 접근할 수 있는 재정적으로 강력한 기업과 국가만이 가장 가치 있는 첨단 모델을 개발할 수 있음을 의미합니다. Meta의 Llama나 Deep Quest의 R1과 같은 오픈소스 모델도 대규모 데이터 센터를 보유한 회사에서 나온 것입니다. 분산형 접근 방식을 통해 중소기업과 대학은 분산된 리소스를 통합하여 생태학적 AI를 개발할 수 있고, 기존 인프라가 부족한 국가는 여러 데이터 센터를 네트워크로 연결하여 더욱 강력한 모델을 구축할 수 있습니다.
레인은 AI 산업이 단일 데이터 센터의 한계를 뛰어넘는 새로운 접근 방식을 점점 더 선호할 것이라고 생각합니다. 그는 "데이터 센터 모델과 비교했을 때 분산 솔루션은 해시레이트 더욱 우아하게 확장할 수 있다"고 설명했습니다.
보안 및 신흥 기술 센터의 AI 거버넌스 전문가인 헬렌 토너는 Flower AI의 솔루션이 "AI 경쟁과 거버넌스에 잠재적으로 상당한 영향을 미칠 것"이라고 언급했습니다. 그녀는 "아직 최첨단 기술을 따라잡는 건 어려울지 몰라도, 빠르게 따라잡을 수 있는 전략으로서는 가치가 있다"고 말했다.
분할하여 정복하다
분산형 AI 학습의 핵심은 해시레이트 할당 논리를 재구성하는 데 있습니다. 대규모 언어 모델을 구축하려면 시스템에 엄청난 양의 텍스트를 입력하고 매개변수를 조정하여 효과적인 응답을 생성해야 합니다. 기존 데이터 센터는 여러 GPU에 훈련 작업을 나누어 실행한 다음 주기적으로 이를 통합하여 통합된 마스터 모델로 만듭니다.
새로운 기술 덕분에 예전에는 대규모 데이터 센터에서 수행하던 작업을 수 마일 떨어진 하드웨어 장치에 분산시켜 일반 네트워크로만 연결할 수 있게 되었습니다.
업계 거대 기업들 역시 분산 학습을 모색하고 있습니다. 작년에 구글 연구원들은 분산 학습의 효율성을 개선하는 "분산 경로 조합"(DiPaCo)이라는 새로운 프레임 제안했습니다. Collective-1과 같은 모델을 구축하기 위해 Lane과 중국 및 영국 학자들은 보다 효율적인 데이터 표현 방법과 교육 공유 통합 솔루션을 사용하는 Photon이라는 새로운 도구를 공동으로 개발했습니다. 레인은 이 과정이 기존 훈련보다 느리기는 하지만 더 유연하고 언제든지 하드웨어 가속 훈련을 추가할 수 있다는 점을 인정했습니다.
Photon은 베이징 우정대학과 저장대학의 연구진에 의해 개발되었으며 지난달 오픈 소스로 공개되었습니다. Flower AI의 파트너사인 Vana는 사용자가 AI 개발자와 개인 데이터를 새로운 방식으로 공유할 수 있도록 하는 데 전념하고 있습니다. Vana의 소프트웨어는 사용자가 X 및 Reddit와 같은 플랫폼에서 개인 데이터를 제공할 수 있도록 지원하고 사용 범위를 지정하고 재정적 보상도 얻을 수 있습니다.
바나의 공동 창립자인 안나 카즐라우스카스는 이러한 조치는 사용자에게 더 많은 통제권을 제공하는 동시에 잠재적으로 활용되지 않은 데이터의 잠재력을 활용하는 데 목적이 있다고 말했습니다. 그녀는 "일반적으로 AI 모델에 공개되지 않는 이러한 비공개 데이터가 처음으로 기본적인 모델 학습에 사용되고, 사용자는 자신의 데이터로 생성된 모델의 권리와 이익을 소유할 수 있습니다."라고 강조했습니다.
런던대학교 컴퓨터 과학자 미르코 무솔레시는 분산 학습의 핵심 가치는 새로운 유형의 데이터를 활용하는 것이라고 지적했습니다. "이를 최첨단 모델에 적용하면 AI 산업은 의료 및 금융과 같은 분야에서 분산된 민감한 데이터를 학습에 활용할 수 있으며, 동시에 데이터 중앙화 리스크 피할 수 있습니다."
블록비츠(theblockbeats) 공식 커뮤니티 에 가입해 주셔서 감사합니다.
텔레그램 구독 그룹: https://t.me/theblockbeats
텔레그램 그룹: https://t.me/BlockBeats_App
공식 트위터 계정: https://twitter.com/BlockBeatsAsia





