작성자: 0xjacobzhao 및 ChatGPT 4o
Advait Jayant(Peri Labs), Sven Wellmann(Polychain Capital), Chao(Metropolis DAO), Jiahao(Flock), Alexander Long(Pluralis Research), Ben Fielding, Jeff Amico(Gensyn)에게 조언과 피드백을 제공해 주셔서 특별히 감사드립니다.
AI의 전체 가치 사슬에서 모델 학습은 가장 높은 리소스 소모와 가장 높은 기술적 한계를 가진 연결 고리이며, 이는 모델 성능의 상한선과 실제 적용 효과를 직접적으로 결정합니다. 추론 단계의 경량 호출과 비교할 때, 학습 과정은 지속적인 대규모 해시레이트 투자, 복잡한 데이터 처리 프로세스, 그리고 고강도 최적화 알고리즘 지원을 필요로 하며, 이는 AI 시스템 구축에 있어 진정한 "중공업"입니다. 아키텍처 패러다임 관점에서 학습 방법은 중앙 집중식 학습, 분산 학습, 연합 학습, 그리고 본 글에서 중점적으로 다루는 탈중앙화 학습의 네 가지 범주로 나눌 수 있습니다.
중앙 집중식 학습은 가장 일반적인 기존 방식으로, 단일 조직이 로컬 고성능 클러스터에서 전체 학습 프로세스를 완료합니다. 하드웨어(예: NVIDIA GPU), 기반 소프트웨어(CUDA, cuDNN), 클러스터 스케줄링 시스템(예: Kubernetes), 학습 프레임(예: NCCL 백엔드 기반 PyTorch)에 이르기까지 모든 구성 요소는 통합 제어 시스템에 의해 조정되고 운영됩니다. 이러한 고도로 협업적인 아키텍처는 메모리 공유, 그래디언트 동기화, 내결함성 메커니즘의 효율성을 최적화하며 GPT 및 Gemini와 같은 대규모 모델 학습에 매우 적합합니다. 높은 효율성과 제어 가능한 리소스라는 장점이 있지만 데이터 독점, 리소스 장벽, 에너지 소비, 단일 지점 리스크 과 같은 문제도 있습니다.
분산 학습은 대규모 모델 학습의 주류 방식입니다. 분산 학습의 핵심은 모델 학습 작업을 여러 머신에 분산하여 공동 실행함으로써 단일 머신 컴퓨팅 및 스토리지의 병목 현상을 해결하는 것입니다. 물리적으로는 "분산" 기능을 제공하지만, 전체 스케줄링 및 동기화는 여전히 중앙 집중화된 조직에 의해 제어됩니다. 분산 학습은 종종 고속 LAN 환경에서 실행됩니다. NVLink 고속 상호 연결 버스 기술을 통해 마스터 노드는 모든 하위 작업을 조정합니다. 주류 방식은 다음과 같습니다.
- 데이터 병렬: 각 노드는 서로 다른 데이터 매개변수를 학습하고 이를 공유하는데, 이를 위해서는 모델 가중치를 일치시키는 것이 필요합니다.
- 모델 병렬: 강력한 확장성을 달성하기 위해 모델의 여러 부분을 여러 노드에 배포합니다.
- 파이프라인 병렬: 처리량을 향상시키기 위해 단계적으로 직렬로 실행합니다.
- Tensor Parallel: 병렬 세분성을 개선하기 위해 행렬 계산의 세분화를 세부화했습니다.
분산 학습은 "중앙 집중식 제어 + 분산 실행"의 조합으로, 마치 같은 상사가 여러 "사무실" 직원에게 원격으로 지시하여 협업하여 업무를 완료하도록 하는 것과 유사합니다. 현재 거의 모든 주류 대형 모델(GPT-4, Gemini, LLaMA 등)이 이러한 방식으로 학습됩니다.
탈중앙화 학습은 더욱 개방적이고 검열에 강한 미래 방향을 제시합니다. 핵심 기능은 여러 개의 신뢰할 수 없는 노드(가정용 컴퓨터, 클라우드 GPU 또는 엣지 기기 등)가 중앙 조정자 없이 함께 작동하여 학습 작업을 완료한다는 것입니다. 일반적으로 프로토콜 기반 작업 분배 및 협업을 통해, 그리고 기여의 정직성을 보장하기 위한 암호화 인센티브 메커니즘을 활용합니다. 이 모델이 직면한 주요 과제는 다음과 같습니다.
- 이기종 장치와 어려운 작업 분할: 이기종 장치는 조정하기 어렵고 작업 분할은 비효율적입니다.
- 통신 효율성 병목 현상: 네트워크 통신이 불안정하고 그래디언트 동기화 병목 현상이 명백합니다.
- 신뢰할 수 있는 실행 부족: 신뢰할 수 있는 실행 환경이 부족하면 노드가 실제로 계산에 관여하는지 확인하기 어렵습니다.
- 통합된 조정이 부족합니다. 중앙 스케줄러가 없고, 작업 분배 및 예외 롤백 메커니즘이 복잡합니다.
탈중앙화 훈련은 전 세계 자원봉사자들이 각자 해시레이트 기여하여 모델을 공동으로 훈련하는 것으로 이해할 수 있습니다. 하지만 "진정으로 실현 가능한 대규모 탈중앙화 훈련"은 여전히 시스템 아키텍처, 통신 프로토콜, 암호화 보안, 경제적 메커니즘, 모델 검증 등 여러 측면을 포함하는 체계적인 엔지니어링 과제입니다. 그러나 "협력의 효과성 + 인센티브의 공정성 + 결과의 정확성"을 달성할 수 있을지 여부는 아직 초기 프로토타입 탐색 단계에 있습니다.
연합 학습은 분산형과 탈중앙화 사이의 과도기적 형태입니다. 로컬 데이터 보존과 모델 매개변수의 중앙 집중식 집계를 강조합니다. 의료 및 금융 분야와 같이 개인정보 보호 규정 준수에 중점을 둔 시나리오에 적합합니다. 연합 학습은 분산 학습의 엔지니어링 구조와 로컬 조정 기능을 갖추고 있으며, 탈중앙화 학습의 데이터 분산 이점도 제공합니다. 그러나 여전히 신뢰할 수 있는 조정자에 의존하며 완전한 개방성과 검열 저항성의 특성을 갖추고 있지 않습니다. 개인정보 보호 규정 준수 시나리오에서 "통제된 탈중앙화" 솔루션으로 간주될 수 있습니다. 훈련 작업, 신뢰 구조 및 통신 메커니즘 측면에서 비교적 온건하며, 업계의 과도기적 배포 아키텍처로 더 적합합니다.
AI 학습 패러다임 파노라마 비교표(기술 아키텍처 × 신뢰 인센티브 × 애플리케이션 특성)
탈중앙화 훈련의 경계, 기회 및 현실적인 경로
훈련 패러다임의 관점에서 볼 때, 탈중앙화 훈련은 모든 유형의 작업에 적용할 수 없습니다. 작업 구조의 복잡성, 매우 높은 리소스 요구 사항, 또는 협업의 어려움으로 인해, 이기종 신뢰 노드 간에 효율적으로 완료하기에는 적합하지 않은 경우도 있습니다. 예를 들어, 대규모 모델 훈련은 높은 비디오 메모리, 낮은 지연 시간, 그리고 고속 대역폭에 의존하는 경우가 많기 때문에 오픈 네트워크 에서 효과적으로 분리하고 동기화하기 어렵습니다. 데이터 프라이버시 및 주권 제한이 강한 작업(예: 의료, 금융, 기밀 데이터)은 법적 준수 및 윤리적 제약으로 인해 공개적으로 공유될 수 없습니다. 또한, 협력적 인센티브 기반이 부족한 작업(예: 기업 폐쇄형 소스 모델 또는 내부 프로토타입 훈련)은 참여에 대한 외부 동기 부여가 부족합니다. 이러한 경계들이 현재 탈중앙화 훈련의 실질적인 한계를 구성합니다.
하지만 이것이 탈중앙화 학습이 잘못된 명제라는 것을 의미하지는 않습니다. 실제로 탈중앙화 학습은 가볍고 병렬화가 쉬우며 인센티브가 제공되는 작업에서 명확한 적용 가능성을 보여줍니다. 여기에는 LoRA 미세 조정, 행동 정렬 사후 학습 작업(예: RLHF, DPO), 데이터 크라우드소싱 학습 및 레이블링 작업, 리소스 제어 가능한 소규모 기본 모델 학습, 그리고 에지 장치를 포함하는 협업 학습 시나리오가 포함되지만 이에 국한되지는 않습니다. 이러한 작업은 일반적으로 높은 병렬 처리, 낮은 결합도, 그리고 이기종 해시레이트 에 대한 내성을 특징으로 하며, P2P 네트워크, Swarm 프로토콜, 분산 옵티마이저 등을 통한 협업 학습에 매우 적합합니다.
탈중앙화 훈련 과제 적합성 개요 표
고전적인 탈중앙화 교육 프로젝트 분석
현재 탈중앙화 학습 및 연합 학습 분야의 최전선에서 대표적인 블록체인 프로젝트로는 Prime Intellect, Pluralis.ai, Gensyn, Nous Research, Flock.io가 있습니다. 기술 혁신과 엔지니어링 난이도 측면에서 Prime Intellect, Nous Research, Pluralis.ai는 시스템 아키텍처 및 알고리즘 설계에 있어 더욱 독창적인 탐구를 제시하며, 현재 이론 연구의 최전선에 서 있습니다. Gensyn과 Flock.io는 구현 경로가 비교적 명확하고 초기 엔지니어링 진전을 확인할 수 있습니다. 본 글에서는 이 다섯 가지 프로젝트의 핵심 기술과 엔지니어링 아키텍처를 차례로 분석하고, 탈중앙화 AI 학습 시스템에서 각 프로젝트의 차이점과 상호 보완적인 관계를 심층적으로 살펴보겠습니다.
Prime Intellect: 검증 가능한 훈련 궤적을 갖춘 협력적 강화 학습 네트워크의 선구자
Prime Intellect는 누구나 훈련에 참여하고 컴퓨팅 기여에 대한 신뢰할 수 있는 보상을 받을 수 있는 신뢰할 수 없는 AI 훈련 네트워크 구축에 전념합니다. Prime Intellect는 PRIME-RL + TOPLOC + SHARDCAST 모듈 통해 검증 가능하고 개방적이며 완전히 인센티브가 제공되는 AI 탈중앙화 훈련 시스템을 구축하고자 합니다.
1. Prime Intellect 프로토콜 스택 구조 및 핵심 모듈 가치
2. Prime Intellect 훈련의 핵심 메커니즘에 대한 자세한 설명
PRIME-RL: 분리된 비동기 강화 학습 작업 아키텍처
PRIME-RL은 Prime Intellect가 탈중앙화 학습 시나리오에 맞춰 개발한 작업 모델링 및 실행 프레임 로, 이기종 네트워크 및 비동기 참여를 위해 설계되었습니다. 강화 학습을 우선순위 적응 객체로 사용하고, 학습, 추론 및 가중치 업로드 프로세스를 구조적으로 분리하여 각 학습 노드가 로컬에서 독립적으로 작업 주기를 완료하고 표준화된 인터페이스를 통해 검증 및 집계 메커니즘과 협업할 수 있도록 합니다. 기존의 지도 학습 프로세스와 비교했을 때, PRIME-RL은 분산형 스케줄링 환경에서 유연한 학습에 더욱 적합하며, 이는 시스템의 복잡성을 줄일 뿐만 아니라 멀티태스킹 병렬 처리 및 전략 진화를 지원하는 기반을 마련합니다.
TOPLOC: 가벼운 훈련 행동 검증 메커니즘
TOPLOC(Trusted Observation & Policy-Locality Check)은 Prime Intellect에서 제안한 학습 검증 가능성의 핵심 메커니즘으로, 노드가 관찰된 데이터를 기반으로 효과적인 정책 학습을 완료했는지 여부를 판단하는 데 사용됩니다. ZKML과 같은 복잡한 솔루션과 달리 TOPLOC은 전체 모델 재계산에 의존하지 않고, "관찰 시퀀스 ↔ 정책 업데이트" 간의 지역적 일관성 궤적을 분석하여 가벼운 구조 검증을 완료합니다. 학습 과정의 행동 궤적을 검증 가능한 객체로 변환하는 것은 이번이 처음입니다. 이는 신뢰할 수 없는 학습 보상 분배를 실현하는 핵심 혁신이며, 감사 하고 인센티브를 제공하는 탈중앙화 협업 학습 네트워크를 구축할 수 있는 실현 가능한 경로를 제공합니다.
Shardcast: 비동기 가중치 집계 및 전파 프로토콜
SHARDCAST는 Prime Intellect에서 설계한 가중치 전파 및 집계 프로토콜로, 비동기적이고 대역폭이 제한적이며 가변적인 노드 상태를 가진 실제 네트워크 환경에 최적화되어 있습니다. 가십 전파 메커니즘과 로컬 동기화 전략을 결합하여 여러 노드가 비동기 상태에서 부분 업데이트를 지속적으로 제출할 수 있도록 하여 점진적인 수렴과 여러 버전의 가중치 진화를 달성합니다. 중앙 집중식 또는 동기식 AllReduce 방식과 비교할 때, SHARDCAST는 탈중앙화 학습의 확장성과 내결함성을 크게 향상시키며, 안정적인 가중치 합의 및 지속적인 학습 반복을 구축하는 핵심 기반입니다.
OpenDiLoCo: 희소 비동기 통신을 위한 프레임
OpenDiLoCo는 DeepMind에서 제안한 DiLoCo 개념을 기반으로 Prime Intellect 팀이 독립적으로 구현하고 오픈소스로 제공하는 통신 최적화 프레임 입니다. 대역폭 제약, 장치 이질성, 노드 불안정성과 같은 탈중앙화 학습에서 흔히 발생하는 문제를 해결하기 위해 설계되었습니다. OpenDiLoCo의 아키텍처는 데이터 병렬성을 기반으로 합니다. 링(Ring), 익스팬더(Expander), 스몰월드(Small-World)와 같은 희소 토폴로지 구조를 구축함으로써 전역 동기화의 높은 통신 오버헤드를 피하고 로컬 이웃 노드만을 사용하여 모델 협업 학습을 완료합니다. 비동기 업데이트 및 중단점 내결함성 메커니즘과 결합된 OpenDiLoCo는 소비자급 GPU와 에지 장치가 학습 작업에 안정적으로 참여할 수 있도록 지원하여 전역 협업 학습의 참여도를 크게 향상시키며, 탈중앙화 학습 네트워크 구축을 위한 핵심 통신 인프라 중 하나입니다.
PCCL: 협업 커뮤니케이션 라이브러리
PCCL(Prime Collective Communication Library)은 Prime Intellect가 탈중앙화 AI 학습 환경을 위해 개발한 경량 통신 라이브러리입니다. 이 라이브러리는 이기종 기기 및 저대역폭 네트워크에서 기존 통신 라이브러리(NCCL, Gloo 등)의 적응 병목 현상을 해결하는 것을 목표로 합니다. PCCL은 희소 토폴로지, 그래디언트 압축, 저정밀도 동기화 및 중단점 복구를 지원합니다. 일반 소비자용 GPU 및 불안정한 노드에서도 실행 가능합니다. OpenDiLoCo 프로토콜의 비동기 통신 기능을 지원하는 기반 구성 요소입니다. PCCL은 학습 네트워크의 대역폭 허용 범위와 기기 호환성을 크게 향상시키고, 진정으로 개방적이고 신뢰할 수 있는 협업 학습 네트워크를 구축하기 위한 "라스트 마일" 통신 기반을 제공합니다.
3. 프라임 인텔렉트 인센티브 네트워크 및 역할 구분
Prime Intellect는 누구나 과제에 참여하고 실제 기여도에 따라 보상을 받을 수 있도록 허가 없이 검증 가능하며 경제적으로 인센티브를 제공하는 교육 네트워크를 구축했습니다. 이 프로토콜은 세 가지 핵심 역할을 기반으로 운영됩니다.
- 작업 개시자: 훈련 환경, 초기 모델, 보상 기능 및 검증 기준을 정의합니다.
- 훈련 노드: 로컬 훈련 수행, 가중치 업데이트 제출 및 궤적 관찰
- 검증 노드: TOPLOC 메커니즘을 사용하여 훈련 행동의 진위성을 검증하고 보상 계산 및 전략 집계에 참여합니다.
프로토콜의 핵심 프로세스에는 작업 릴리스, 노드 교육, 궤적 검증, 가중치 집계(Shardcast), 보상 분배가 포함되어 "실제 교육 행동"을 중심으로 인센티브 폐쇄 루프를 형성합니다.
INTELLECT-2: 최초의 검증 가능한 탈중앙화 교육 모델 출시
Prime Intellect는 2025년 5월, 32B의 매개변수 크기를 가진 비동기식 무신뢰 탈중앙화 노드를 통해 학습된 세계 최초의 대규모 강화 학습 모델인 INTELLECT-2를 출시했습니다. INTELLECT-2 모델은 3개 대륙에 걸쳐 100개 이상의 GPU 이기종 노드를 통해 학습되었으며, 완전 비동기 아키텍처와 400시간 이상의 학습 시간을 활용하여 비동기 협업 네트워크의 실현 가능성과 안정성을 입증했습니다. 이 모델은 성능 면에서 획기적인 발전을 이룰 뿐만 아니라 Prime Intellect가 제안한 "학습은 합의" 패러다임을 체계적으로 구현한 최초의 모델이기도 합니다. INTELLECT-2는 PRIME-RL(비동기 학습 구조), TOPLOC(학습 행동 검증), ShardCAST(비동기 가중치 집계)와 같은 핵심 프로토콜 모듈 통합하여, 탈중앙화 학습 네트워크가 학습 프로세스의 개방성, 검증 가능성 및 경제적 인센티브 폐쇄 루프를 달성한 최초의 사례입니다.
성능 측면에서 INTELLECT-2는 QwQ-32B 학습을 기반으로 하며 코드와 수학에서 특별한 RL 학습을 수행했는데, 이는 현재 오픈 소스 RL 미세 조정 모델의 최전선에 있습니다. GPT-4나 Gemini와 같은 폐쇄형 소스 모델을 아직 능가하지는 못했지만, 그 진정한 의미는 재현 가능하고 검증 가능하며 감사 완전한 학습 프로세스를 갖춘 세계 최초의 탈중앙화 형 모델 실험이라는 것입니다. Prime Intellect는 모델을 오픈 소스로 공개했을 뿐만 아니라, 더 중요한 것은 학습 데이터, 전략 업데이트 궤적, 검증 프로세스 및 집계 로직을 포함한 학습 프로세스 자체를 투명하고 추적 가능하게 공개하여 모든 사람이 참여하고 신뢰할 수 있는 협업을 수행하며 이점을 공유할 수 있는 탈중앙화 학습 네트워크 프로토타입을 구축했습니다.
5. 팀 및 융자 배경
Prime Intellect는 2025년 2월 Founders Fund가 주도하고 Menlo Ventures, Andrej Karpathy, Clem Delangue, Dylan Patel, Balaji Srinivasan, Emad Mostaque, Sandeep Nailwal 등 업계 리더들이 참여한 1,500만 달러 규모의 시드 라운드 융자 를 완료했습니다. 이에 앞서, 이 프로젝트는 2024년 4월 CoinFund와 Distributed Global이 주도하고 Compound VC, Collab + Currency, Protocol Labs가 참여한 550만 달러 규모의 초기 라운드 융자 완료했습니다. 현재까지 Prime Intellect는 총 2,000만 달러 이상을 융자.
Prime Intellect의 공동 창립자는 Vincent Weisser와 Johannes Hagemann입니다. 팀원들은 AI와 Web3 분야에서 경력을 쌓았습니다. 핵심 멤버들은 Meta AI, Google Research, OpenAI, Flashbots, Stability AI, 그리고 이더 Foundation 출신입니다. 이들은 시스템 아키텍처 설계 및 분산 엔지니어링 구현에 뛰어난 역량을 보유하고 있으며, 실제 탈중앙화 대규모 모델 학습을 성공적으로 완료한 극소수의 경영진 중 하나입니다.
Pluralis: 비동기 모델 병렬 처리 및 구조 압축 협업 교육을 위한 패러다임 탐색기
Pluralis는 "신뢰할 수 있는 협업 학습 네트워크"에 중점을 둔 Web3 AI 프로젝트입니다. 핵심 목표는 탈중앙화 되고 개방적인 참여를 유도하며 장기적인 인센티브 모델 학습 패러다임을 구축하는 것입니다. 현재 주류를 이루는 중앙 집중식 또는 폐쇄형 학습 방식과 달리, Pluralis는 프로토콜 학습이라는 새로운 개념을 제안했습니다. 프로토콜 기반 모델 학습 프로세스인 이 개념은 검증 가능한 협업 메커니즘과 모델 소유권 매핑을 통해 내재적인 인센티브 폐쇄 루프를 갖춘 개방형 학습 시스템을 구축합니다.
1. 핵심 개념: 프로토콜 학습
Pluralis가 제안한 프로토콜 학습은 세 가지 핵심 요소로 구성됩니다.
- 클레임 모델: 모델은 여러 노드에 조각으로 분산되어 있으며, 어떤 노드도 전체 가중치를 복원하고 폐쇄형 소스로 남을 수 없습니다. 이러한 설계로 인해 모델은 자연스러운 "프로토콜 내 자산"이 되어 액세스 자격 증명 제어, 유출 방지 및 소득 귀속 바인딩을 구현할 수 있습니다.
- 인터넷을 통한 모델 병렬 학습: 비동기 파이프라인 모델 병렬 메커니즘(SWARM 아키텍처)을 통해 서로 다른 노드는 일부 가중치만 유지하고 저대역폭 네트워크 협업을 통해 학습이나 추론을 완료합니다.
- 인센티브에 대한 부분적 소유권: 참여하는 모든 노드는 교육 기여도에 따라 모델의 부분적 소유권을 얻어 향후 수익 공유 및 프로토콜 거버넌스 권한을 누리게 됩니다.
2. Pluralis 프로토콜 스택의 기술 아키텍처
3. 주요 기술 메커니즘에 대한 자세한 설명
실체화 불가능한 모델
제3의 경로: 프로토콜 학습(A Third Path: Protocol Learning)에서는 "모델 자산"이 Swarm 네트워크에서만 실행될 수 있도록 모델 가중치를 조각 형태로 분산하여 접근 권한과 이점을 프로토콜에 의해 제어하도록 하는 방안이 처음 제안되었습니다. 이 메커니즘은 탈중앙화 지속 가능한 인센티브 구조를 구축하기 위한 전제 조건입니다.
비동기 모델 병렬 학습
Pluralis는 SWARM Parallel with Asynchronous Updates에서 파이프라인 기반의 비동기 모델 병렬 아키텍처를 구축하고 LLaMA-3에서 처음으로 시연했습니다. 핵심 혁신은 네스테로프 가속 경사(NAG) 메커니즘의 도입으로, 비동기 업데이트 과정에서 발생하는 경사 드리프트(gradient drift) 및 불안정한 수렴 문제를 효과적으로 해결하여 저대역폭 환경에서 이기종 장치 간 학습을 실용적으로 구현합니다.
열 공간 희소화
Beyond Top-K에서는 의미 경로 손상을 방지하기 위해 기존 Top-K를 구조 기반 열 공간 압축 방식으로 대체하는 방안을 제안합니다. 이 메커니즘은 모델 정확도와 통신 효율성을 모두 고려합니다. 비동기 모델 병렬 환경에서 통신 데이터의 90% 이상을 압축할 수 있다는 것이 검증되었으며, 이는 구조 기반 효율적인 통신을 달성하는 데 있어 중요한 혁신입니다.
4. 기술 포지셔닝 및 경로 선택
Pluralis는 "비동기 모델 병렬 처리"를 핵심 방향으로 명확히 취하며, 데이터 병렬 처리에 비해 다음과 같은 장점이 있다고 강조합니다.
- 낮은 대역폭 네트워크와 비일관성 노드를 지원합니다.
- 장치 이질성에 적응하고 소비자용 GPU가 참여할 수 있도록 허용합니다.
- 자연스러운 탄력적 스케줄링 기능을 갖추고 있으며 노드의 빈번한 온라인/오프라인을 지원합니다.
- 세 가지 주요 혁신 포인트는 구조 압축 + 비동기 업데이트 + 가중치 비추 클레임 입니다.
현재 공식 홈페이지에 공개된 6개의 기술 블로그 문서에 따르면, 논리적 구조는 다음의 세 가지 주요 라인으로 통합되어 있습니다.
- 철학과 비전: 제3의 길: 프로토콜 학습 분산형 교육의 중요성
- 기술 메커니즘 세부 정보: "SWARM Parallel", "Beyond Top-K", "Asynchronous Updates"
- 제도적 혁신 탐구: 실현 불가능한 모델과 부분 소유권 프로토콜
현재 Pluralis는 제품, 테스트 네트워크 또는 오픈 소스 코드를 아직 출시하지 않았습니다. 그 이유는 Pluralis가 선택한 기술적 경로가 매우 까다롭기 때문입니다. 제품 서비스를 패키징하기 전에 기본 시스템 아키텍처, 통신 프로토콜, 가중치의 수출 불가성 등 시스템 수준의 문제를 먼저 해결해야 합니다.
Pluralis Research에서 2025년 6월에 발표한 새로운 논문에서, 탈중앙화 학습 프레임 모델 사전 학습에서 모델 미세 조정 단계로 확장되어 비동기 업데이트, 희소 통신, 부분 가중치 집계를 지원합니다. 이론과 사전 학습에 집중했던 기존 설계와 달리, 이 프레임워크는 구현 가능성에 더욱 중점을 두어 풀 사이클 학습 아키텍처에서 한층 더 성숙해졌습니다.
5. 팀 및 융자 배경
Pluralis는 Union Square Ventures(USV)와 CoinFund의 주도로 2025년 760만 달러 규모의 융자 투자를 완료했습니다. 창립자 Alexander Long은 머신러닝(ML) 박사 학위를 소지하고 있으며, 수학과 시스템 연구 분야에서 풍부한 경험을 가지고 있습니다. 핵심 멤버들은 모두 박사 학위를 소지한 머신러닝(ML) 연구자들입니다. Pluralis는 전형적인 기술 중심 프로젝트로, 고밀도 논문과 기술 블로그를 주요 출판 경로로 삼고 있습니다. 아직 BD/Growth 팀을 구성하지 않았으며, 저대역폭 비동기 모델 병렬 처리의 인프라 문제 해결에 집중하고 있습니다.
Gensyn: 검증 가능한 실행을 기반으로 하는 탈중앙화 교육 프로토콜 계층
Gensyn은 "딥 러닝 학습 작업의 신뢰할 수 있는 실행"에 중점을 둔 Web3 AI 프로젝트입니다. 핵심은 모델 아키텍처나 학습 패러다임을 재구성하는 것이 아니라, "작업 분배 + 학습 실행 + 결과 검증 + 공정한 인센티브"의 전체 프로세스를 통해 검증 가능한 분산 학습 실행 네트워크를 구축하는 것입니다. 오프체인 학습 + 온체인 검증의 아키텍처 설계를 통해 Gensyn은 효율적이고 개방적이며 인센티브가 제공되는 글로벌 학습 시장을 구축하여 "학습이 곧 채굴"이라는 개념을 현실로 만들었습니다.
1. 프로젝트 포지셔닝: 교육 작업을 위한 실행 프로토콜 계층
Gensyn은 "훈련 방법"이 아니라 "누가 훈련하고, 어떻게 검증하고, 어떻게 수익을 분배할 것인가"라는 인프라에 관한 것입니다. Gensyn의 핵심은 훈련 작업을 위한 검증 가능한 컴퓨팅 프로토콜이며, 주로 다음과 같은 문제를 해결합니다.
- 훈련 과제(해시레이트 분배 및 동적 매칭)를 수행할 사람은 누구입니까?
- 실행 결과 검증 방법 (전체를 다시 계산할 필요 없이, 분쟁 연산자만 검증)
- 훈련 수입 분배 방법(스테이크, 슬래싱 및 다중 역할 게임 메커니즘)
2. 기술 아키텍처 개요
3. 모듈 상세 설명
RL Swarm: 협력적 강화 학습 훈련 시스템
Gensyn이 개척한 RL Swarm은 훈련 후 단계를 위한 탈중앙화 형 다중 모델 협업 최적화 시스템으로, 다음과 같은 핵심 기능을 갖추고 있습니다.
분산 추론 및 학습 프로세스:
- 생성 단계(답변): 각 노드가 독립적으로 답변을 출력합니다.
- 비판 단계: 노드는 서로의 출력에 대해 의견을 제시하고 가장 좋은 답변과 논리를 선택합니다.
- 합의 단계(해결): 대부분 노드의 선호도를 예측하고 이에 따라 노드의 답변을 수정하여 지역적 가중치 업데이트를 달성합니다.
Gensyn이 제안한 RL Swarm은 탈중앙화 형 다중 모델 협업 최적화 시스템입니다. 각 노드는 독립적인 모델을 실행하고 경사 동기화 없이 로컬 학습을 수행합니다. 이 시스템은 이기종 해시레이트 와 불안정한 네트워크 환경에 자연스럽게 적응하며, 탄력적인 노드 접근 및 종료를 지원합니다. 이 메커니즘은 RLHF와 다중 에이전트 게임의 개념을 활용하지만, 협업 추론 네트워크의 동적 진화 논리에 더 가깝습니다. 노드는 그룹 합의 결과와의 일관성 정도에 따라 보상을 받으며, 이를 통해 추론 기능의 지속적인 최적화와 수렴적 학습을 촉진합니다. RL Swarm은 오픈 네트워크 에서 모델의 견고성과 일반화 능력을 크게 향상시키며, 이더리움 롤업 기반 Gensyn 테스트넷 0단계의 핵심 실행 모듈 로 배포되었습니다.
Verde + 학습 증명: 신뢰할 수 있는 검증 메커니즘
Gensyn의 Verde 모듈 세 가지 메커니즘을 결합합니다.
- 학습 증명: 경사 추적 및 교육 메타데이터를 기반으로 실제로 교육이 발생했는지 확인합니다.
- 그래프 기반 정밀 탐색: 훈련 계산 그래프에서 다양한 노드를 찾아내고 특정 연산만 다시 계산하면 됩니다.
- 중재 위임: 검증자와 이의 제기자가 분쟁을 제기하고 부분적 검증을 실시하는 중재 검증 메커니즘을 사용하므로 검증 비용이 크게 절감됩니다.
ZKP나 전체 재계산 검증 방식과 비교했을 때, Verde 방식은 검증 가능성과 효율성 사이에서 더 나은 균형을 이룹니다.
SkipPipe: 통신 장애 허용 최적화 메커니즘
SkipPipe는 "낮은 대역폭 + 노드 연결 끊김" 시나리오에서 발생하는 통신 병목 현상 문제를 해결하도록 설계되었습니다. 핵심 기능은 다음과 같습니다.
- 건너뛰기 비율: 제한된 노드를 건너뛰어 학습 차단을 방지합니다.
- 동적 스케줄링 알고리즘: 실시간으로 최적의 실행 경로를 생성합니다.
- 장애 허용 실행: 노드의 50%가 실패하더라도 추론 정확도는 약 7%만 떨어집니다.
최대 55%의 학습 처리량 향상을 지원하고, "조기 종료 추론", "원활한 재정렬", "추론 완료"와 같은 핵심 기능을 구현합니다.
HDEE: 도메인 간 이기종 전문가 클러스터
HDEE(Heterogeneous Domain-Expert Ensembles) 모듈 다음 시나리오를 최적화하는 데 전념합니다.
- 다중 도메인, 다중 모드, 다중 작업 훈련
- 다양한 유형의 훈련 데이터의 분포가 고르지 않으며 난이도도 크게 다릅니다.
- 이기종 장치 컴퓨팅 기능과 일관되지 않은 통신 대역폭이 있는 환경에서 작업 할당 및 일정 문제가 발생합니다.
핵심 기능은 다음과 같습니다.
- MHe-IHo: 다양한 크기의 모델을 다양한 난이도의 작업(이기종 모델 및 일관된 교육 단계 크기)에 할당합니다.
- MHo-IHe: 작업의 난이도는 통일되어 있지만, 훈련 단계 크기는 비동기적으로 조정됩니다.
- 다양한 전문가 모델과 플러그형 교육 전략을 지원하여 적응성과 내결함성을 향상시킵니다.
- 이는 "병렬 협업 + 극히 낮은 의사소통 + 역동적인 전문가 배치"를 강조하며 현실의 복잡한 작업 생태계에 적합합니다.
다중 역할 게임 메커니즘: 신뢰와 인센티브는 함께 제공됩니다.
Gensyn 네트워크는 네 가지 유형의 참여자를 소개합니다.
- 제출자: 교육 과제를 게시하고, 구조와 예산을 설정합니다.
- 솔버: 훈련 작업을 실행하고 결과를 제출합니다.
- 검증자: 규정 준수 및 효과를 보장하기 위해 교육 행동을 검증합니다.
- 고발자: 검증자에게 중재 보상을 얻거나 벌금을 내도록 요구합니다.
이 메커니즘은 Truebit 경제 게임 디자인에서 영감을 받았습니다. 강제적인 오류 삽입과 무작위 중재를 통해 참여자들의 정직한 협업을 장려하고 네트워크의 안정적인 운영을 보장합니다.
4. 테스트넷 및 로드맵 계획
5. 팀 및 융자 배경
젠신은 벤 필딩과 해리 그리브가 공동 창립했으며 영국 런던에 본사를 두고 있습니다. 2023년 5월, 젠신은 a16z 크립토가 주도하고 코인펀드, 캐노니컬, 이더리얼 벤처스, 팩터, 에덴 블록 등의 투자자들이 참여한 4,300만 달러 규모의 시리즈 A 융자 를 완료했다고 발표했습니다. 젠신 팀은 분산 시스템과 머신러닝(ML) 엔지니어링 경험을 결합하여 검증 가능하고 신뢰할 수 있는 대규모 AI 학습 실행 네트워크를 구축하는 데 오랫동안 헌신해 왔습니다.
Nous Research: 주관적 AI 개념에 기반한 인지 진화 훈련 시스템
Nous Research는 철학적 성과와 공학적 성과를 모두 갖춘 몇 안 되는 탈중앙화 학습 팀 중 하나입니다. Nous Research의 핵심 비전은 "Desideratic AI"라는 개념에서 비롯됩니다. 이는 AI를 단순한 제어 가능한 도구가 아닌, 주관성과 진화적 역량을 갖춘 지능적 주체로 보는 것입니다. Nous Research의 독보적인 특징은 AI 학습을 "효율성 문제"로 최적화하는 것이 아니라, "인지적 주체"를 형성하는 과정으로 본다는 것입니다. 이러한 비전을 바탕으로 Nous는 이기종 노드가 협력하여 학습하고, 중앙 스케줄링이 필요 없으며, 검열 검증에 강하고, 풀스택 툴 체인을 통해 체계적으로 구현되는 개방형 학습 네트워크 구축에 집중합니다.
1. 개념 지원: 훈련의 "목적"을 재정의하세요
Nous는 인센티브 디자인이나 프로토콜 경제학에 너무 많은 투자를 하지 않고 대신 교육 자체의 철학적 전제를 바꾸려고 노력합니다.
- "정렬주의"에 반대합니다. 인간 통제를 유일한 목표로 하는 "훈련"에 동의하지 않으며, 훈련은 모델이 독립적인 인지 스타일을 형성하도록 격려해야 한다고 주장합니다.
- 모델 주관성에 대한 강조: 기본 모델은 불확실성, 다양성, 환각 생성 능력(미덕으로서의 환각)을 유지해야 한다고 믿어집니다.
- 모델 훈련은 인지적 형성입니다. 모델은 "작업 완료를 최적화"하는 것이 아니라 개인이 인지적 진화 과정에 참여하는 것입니다.
이러한 훈련 개념은 "낭만적"이기는 하지만 훈련 인프라를 설계하는 Nous의 핵심 논리를 반영합니다. 즉, 획일적으로 훈련하는 대신 오픈 네트워크 에서 이기종 모델이 진화할 수 있도록 하는 방법입니다.
2. 훈련 핵심: Psyche Network 및 DisTrO Optimizer
Nous가 탈중앙화 학습에 기여한 가장 중요한 부분은 Psyche 네트워크와 그 기반 통신 최적화기인 DisTrO(Distributed Training Over-the-Internet)의 구축입니다. 이 두 가지가 함께 학습 작업의 실행 중심을 구성합니다. DisTrO + Psyche 네트워크는 통신 압축(DCT + 1비트 부호 인코딩을 사용하여 대역폭 요구 사항을 크게 줄임), 노드 적응성(이기종 GPU 지원, 연결 끊김/재연결 및 자율 종료), 비동기 장애 허용(높은 장애 허용성을 갖춘 동기화 없는 연속 학습), 그리고 탈중앙화 스케줄링 메커니즘(중앙 조정자 불필요, 블록체인 기반 합의 및 작업 분배) 등 여러 핵심 기능을 갖추고 있습니다. 이 아키텍처는 저비용, 높은 유연성, 검증 가능성을 갖춘 개방형 학습 네트워크를 위한 현실적이고 실현 가능한 기술 기반을 제공합니다.
이러한 아키텍처 설계는 실제적 실현 가능성을 강조합니다. 즉, 중앙 서버에 의존하지 않고, 글로벌 자원 봉사 노드에 적응 가능하며, 교육 결과에 대한 온체인 추적이 가능합니다.
3. Hermes / Forge / TEE_HEE로 구성된 추론 및 대리 시스템
Nous Research는 탈중앙화 교육 인프라를 구축하는 것 외에도 "AI 주관성"이라는 개념을 중심으로 여러 탐색적 시스템 실험을 수행했습니다.
1. Hermes 오픈소스 모델 시리즈: Hermes 1~3은 Nous에서 출시한 대표적인 오픈소스 대형 모델로, LLaMA 3.1 학습을 기반으로 8B, 70B, 405B의 세 가지 매개변수 척도를 포괄합니다. 이 시리즈는 Nous가 주창하는 "지시 해제, 다양성 유지" 학습 개념을 구현하는 것을 목표로 하며, 장기 맥락 기억, 롤플레잉, 다중 라운드 대화 등에서 더욱 강력한 표현력과 일반화 능력을 보여줍니다.
2. Forge Reasoning API: 다중 모드 추론 시스템
Forge는 Nous가 개발한 추론 프레임, 보다 유연하고 창의적인 추론 기능을 구현하기 위해 세 가지 상호 보완적인 메커니즘을 결합합니다.
- MCTS(몬테카를로 트리 탐색): 복잡한 작업에 대한 전략 탐색
- CoC(Chain of Code): 코드 체인과 논리적 추론의 결합 경로를 소개합니다.
- MoA(에이전트 혼합): 여러 모델이 출력의 폭과 다양성을 협상하고 개선할 수 있도록 합니다.
이 시스템은 "비결정적 추론"과 조합적 생성 경로를 강조하는데, 이는 기존의 교육 정렬 패러다임에 대한 강력한 대응입니다.
3. TEE_HEE: AI 자율 에이전트 실험: TEE_HEE는 Nous의 자율 에이전트 개발에 대한 최첨단 연구로, AI가 신뢰 실행 환경(TEE)에서 독립적으로 실행되고 고유한 디지털 신원을 가질 수 있는지 검증하는 것을 목표로 합니다. 에이전트는 자체 트위터 및 이더 계정을 가지고 있으며, 모든 제어 권한은 원격으로 검증 가능한 인클레이브에서 관리되므로 개발자는 에이전트의 동작에 개입할 수 없습니다. 이 실험의 목표는 "불변성"과 "독립적인 행동 의도"를 가진 AI 주체를 구축하여 자율적인 지능형 본체 구축을 향한 중요한 발걸음을 내딛는 것입니다.
4. AI 행동 시뮬레이터 플랫폼: Nous는 WorldSim, Doomscroll, Gods & S8n 등 다양한 시뮬레이터를 개발하여 다역할 사회 환경에서 AI의 행동 진화 및 가치 형성 메커니즘을 연구했습니다. 비록 학습 과정에 직접적으로 관여하지는 않지만, 이러한 실험은 장기 자율 AI의 인지 행동 모델링을 위한 의미론적 기반을 마련합니다.
IV. 팀 및 융자 조달 개요
Nous Research는 2023년 Jeffrey Quesnelle(CEO), Karan Malhotra, Teknium, Shivani Mitra 등이 설립했습니다. 철학을 바탕으로 머신러닝(ML), 시스템 보안, 탈중앙화 네트워크 등 다양한 분야의 경험을 바탕으로 시스템 엔지니어링에 중점을 두고 있습니다. 2024년에는 시드 라운드에서 520만 달러를 유치했습니다. 2025년 4월에는 Paradigm이 주도한 5천만 달러 규모의 시리즈 A 융자 융자 유치하여 10억 달러의 기업 가치를 달성하며 Web3 AI 유니콘 기업 중 하나로 자리매김했습니다.
Flock: 블록체인으로 강화된 연합 학습 네트워크
Flock.io는 AI 학습을 위한 데이터, 컴퓨팅, 모델의 탈중앙화 목표로 하는 블록체인 기반 연합 학습 플랫폼입니다. Flock은 "연합 학습 + 블록체인 보상 계층"의 통합 프레임 선호합니다. 이는 새로운 학습 프로토콜 구축에 대한 체계적인 탐구보다는 기존 FL 아키텍처를 온체인 으로 발전시킨 것입니다. Gensyn, Prime Intellect, Nous Research, Pluralis와 같은 탈중앙화 학습 프로젝트와 달리, Flock은 통신, 검증 또는 학습 방법의 이론적 혁신보다는 개인정보 보호 및 사용성 개선에 중점을 둡니다. 실제 비교 대상은 Flower, FedML, OpenFL과 같은 연합 학습 시스템입니다.
1. Flock.io의 핵심 메커니즘
1. 연합 학습 아키텍처: 데이터 주권과 개인 정보 보호 강조
Flock은 고전적인 연합 학습(FL) 패러다임을 기반으로 합니다. 여러 데이터 소유자가 원본 데이터를 공유하지 않고도 통합 모델을 공동으로 학습할 수 있도록 지원하며, 데이터 주권, 보안 및 신뢰 문제 해결에 중점을 둡니다. 핵심 프로세스는 다음과 같습니다.
- 로컬 학습: 각 참여자(제안자)는 원본 데이터를 업로드하지 않고 로컬 장치에서 모델을 학습합니다.
- 온체인 집계: 훈련이 완료된 후 로컬 가중치 업데이트가 제출되어 온체인 마이너에 의해 글로벌 모델로 집계됩니다.
- 위원회 평가: VRF는 유권자 노드를 무작위로 선출하고 독립적인 테스트 세트를 사용하여 집계 모델을 평가하고 점수를 매깁니다.
- 인센티브와 처벌: 악의적 행위를 방지하고 역동적인 신뢰 유지를 달성하기 위해 점수 결과에 따라 보상이나 담보 몰수가 실행됩니다.
2. 블록체인 통합: 신뢰할 수 없는 시스템 조정 달성
Flock은 학습 프로세스의 모든 핵심 링크(작업 할당, 모델 제출, 평가 및 채점, 인센티브 실행)를 온체인 통합하여 시스템을 투명하고 검증 가능하며 검열에 강하도록 만들었습니다. 주요 메커니즘은 다음과 같습니다.
- VRF 무작위 선거 메커니즘: 제안자와 투표자 간 순환의 공정성과 조작 방지 능력을 향상시킵니다.
- 지분 메커니즘(PoS): 토큰 약속과 페널티를 통해 노드의 동작을 제한하여 시스템 견고성을 개선합니다.
- 온체인 인센티브의 자동 실행: 스마트 계약을 통해 작업 완료 및 평가 결과에 따라 보상 분배 및 페널티 대폭 삭감이 실현되어 신뢰할 수 있는 중개자가 필요 없는 협업 네트워크가 구축됩니다.
3. zkFL: 영지식 집계 메커니즘의 개인정보 보호 혁신: Flock은 제안자가 로컬로 업데이트된 영지식 증명을 제출할 수 있도록 하는 zkFL 영지식 집계 메커니즘을 도입했습니다. 투표자는 원본 그래디언트에 접근하지 않고도 자신의 정확성을 검증할 수 있습니다. 이는 개인정보 보호를 보장하는 동시에 학습 과정의 신뢰성을 향상시키며, 개인정보 보호와 검증 가능성을 통합하는 측면에서 연합 학습의 중요한 혁신을 나타냅니다.
2. Flock의 핵심 제품 구성 요소
AI Arena: Flock.io의 탈중앙화 훈련 플랫폼입니다. 사용자는 train.flock.io를 통해 모델 과제에 참여하고, 트레이너, 검증자 또는 위임자 역할을 수행하며, 모델 제출, 성과 평가 또는 토큰 위임을 통해 보상을 받을 수 있습니다. 현재 과제는 공식적으로 공개되었으며, 향후 공동 창작을 위해 커뮤니티에 점진적으로 공개될 예정입니다.
FL 얼라이언스: 참여자가 개인 데이터를 사용하여 모델을 더욱 세부적으로 조정할 수 있도록 지원하는 Flock 연합 학습 클라이언트입니다. VRF 선거, 스테이킹 및 슬래싱 메커니즘을 통해 학습 과정의 정직성과 협업 효율성을 보장하며, 커뮤니티 초기 학습과 실제 배포를 연결하는 핵심 연결 고리입니다.
AI 마켓플레이스: 사용자가 모델을 제안하고, 데이터를 제공하고, 모델 서비스를 호출할 수 있는 모델 공동 개발 및 배포 플랫폼입니다. 데이터베이스 접근 및 RAG(Reference and Model Aggregation) 강화 추론을 지원하며, 다양한 실제 시나리오에서 AI 모델의 구현 및 유통을 촉진합니다.
3. 팀 및 융자 조달 개요
Flock.io는 Sun Jiahao가 설립했으며 플랫폼 토큰 FLOCK을 발행했습니다. 이 프로젝트는 DCG, Lightspeed Faction, Tagus Capital, Animoca Brands, Fenbushi, OKX Ventures 등의 투자자를 통해 총 1,100만 달러를 융자. 2024년 3월, Flock은 테스트 네트워크와 연합 학습 클라이언트 출시를 위해 600만 달러의 시드 융자 완료했습니다. 같은 해 12월에는 300만 달러의 추가 융자 유치하고 이더 재단으로부터 블록체인 기반 AI 인센티브 메커니즘 개발에 집중할 자금을 확보했습니다. 현재 Flock 플랫폼은 6,428개의 모델을 생성했으며, 176개의 훈련 노드, 236개의 검증 노드, 그리고 1,178명의 위임자와 연결되어 있습니다.
탈중앙화 학습 프로젝트와 비교했을 때, Flock과 같은 연합 학습 기반 시스템은 학습 효율성, 확장성, 개인정보 보호 측면에서 더 큰 이점을 제공합니다. 특히 중소 규모 모델의 협력 학습에 적합합니다. 이러한 솔루션은 실용적이고 구현이 쉬우며, 엔지니어링 수준에서 실현 가능성 최적화에 더 적합합니다. Gensyn과 Pluralis와 같은 프로젝트는 학습 방법 및 통신 메커니즘 분야에서 더욱 심층적인 이론적 혁신을 추구합니다. 시스템 과제는 더 크지만, 진정한 "신뢰가 필요 없는 분산형" 학습 패러다임의 탐구에 더 가까워졌습니다.
EXO: 엣지 컴퓨팅을 위한 탈중앙화 훈련 시도
EXO는 현재 엣지 컴퓨팅 시나리오에서 대표적인 AI 프로젝트로, 가정용 소비자 기기에서 경량 AI 학습, 추론 및 에이전트 애플리케이션을 구현하는 데 전념하고 있습니다. 탈중앙화 학습 경로는 DiLoCo 비동기 지연 동기화 알고리즘과 SPARTA 희소 매개변수 교환 메커니즘을 사용하여 "낮은 통신 오버헤드 + 로컬 자율 실행"을 강조하며, 다중 기기 협업 학습에 필요한 대역폭 요구 사항을 크게 줄입니다. 시스템 수준에서 EXO는 온체인 네트워크를 구축하거나 경제적 인센티브 메커니즘을 도입하지 않고, 단일 머신 다중 프로세스 시뮬레이션 프레임 EXO Gym을 출시했습니다. 이 프레임워크는 연구자들이 로컬 환경에서 분산 학습 방법을 신속하게 검증하고 실험할 수 있도록 지원합니다.
1. 핵심 메커니즘 개요
DiLoCo 비동기 훈련: 불안정한 네트워크에 적응하기 위해 H 단계마다 노드 동기화를 수행합니다.
SPARTA 스파스 동기화: 각 단계에서 매우 적은 수의 매개변수(예: 0.1%)만 교환하여 모델 관련성을 유지하고 대역폭 요구 사항을 줄입니다.
비동기 조합 최적화: 두 가지를 함께 사용하면 통신과 성능 간에 더 나은 절충안을 얻을 수 있습니다.
evML 검증 메커니즘 탐색: 에지 검증 머신러닝(evML)은 저비용 컴퓨팅 검증을 위해 TEE/Secure Context 사용을 제안하고, 원격 검증 + 임의 검증 메커니즘을 통해 스테이킹 없이 에지 장치의 신뢰 참여를 실현합니다. 이는 경제적 보안과 개인정보 보호 간의 공학적 타협입니다.
2. 도구 및 시나리오 응용 프로그램
EXO Gym: 단일 장치에서 다중 노드 교육 환경을 시뮬레이션하고 NanoGPT, CNN, Diffusion과 같은 모델에 대한 통신 전략 실험을 지원할 수 있습니다.
EXO 데스크톱 앱: 개인 사용자를 위한 데스크톱 AI 도구로, 로컬 대형 모델 실행, iPhone 미러링 제어, 개인 컨텍스트 통합(SMS, 캘린더, 비디오 녹화 등) 등 개인 정보 보호에 친화적인 개인화 기능을 지원합니다.
EXO Gym은 기존 통신 압축 기술(예: DiLoCo 및 SPARTA)을 통합하여 가벼운 훈련 경로를 구축하는 탐색 중심의 탈중앙화 훈련 실험 프로젝트에 가깝습니다. Gensyn, Nous, Pluralis와 같은 프로젝트와 비교했을 때, EXO는 아직 온체인 협업, 검증 가능한 인센티브 메커니즘, 또는 실제 분산 네트워크 구축의 핵심 단계에 진입하지 못했습니다.
탈중앙화 학습의 프런트엔드 엔진: 모델 사전 학습에 대한 포괄적 연구
Gensyn, Prime Intellect, Pluralis, Nous Research는 탈중앙화 훈련에서 흔히 발생하는 핵심 과제, 즉 장치 이질성, 통신 병목 현상, 조정 어려움, 신뢰할 수 있는 실행 부족 등에 대면 차별화된 시스템 아키텍처 경로를 제안했습니다. 훈련 방법 및 통신 메커니즘 측면에서 이 네 프로젝트는 고유한 기술적 초점과 엔지니어링 구현 논리를 보여주었습니다.
학습 방법 최적화 측면에서는 협력 전략, 업데이트 메커니즘, 비동기 제어와 같은 핵심 차원을 탐구했으며, 학습 전 단계부터 학습 후 단계까지 다양한 단계를 다루었습니다.
Prime Intellect의 PRIME-RL은 사전 훈련 단계를 위한 비동기 스케줄링 구조입니다. "로컬 훈련 + 주기적 동기화" 전략을 통해 이기종 환경에서 효율적이고 검증 가능한 훈련 스케줄링 메커니즘을 구현합니다. 이 방법은 뛰어난 다재다능성과 유연성을 갖추고 있습니다. 높은 수준의 이론적 혁신을 바탕으로 훈련 제어 구조에 대한 명확한 패러다임을 제시합니다. 엔지니어링 구현 난이도는 중간에서 높음 수준이며, 기반 통신 및 제어 모듈 에 대한 요구 사항이 높습니다.
Nous Research에서 출시한 DeMo 옵티마이저는 비동기 저대역폭 환경에서의 학습 안정성 문제에 초점을 맞추고, 이기종 GPU 환경에서 높은 내결함성을 갖춘 그래디언트 업데이트 프로세스를 구현합니다. 이는 "비동기 통신 압축 폐루프"에서 이론적 및 공학적 통일성을 달성한 몇 안 되는 솔루션 중 하나입니다. 이론적 혁신은 특히 압축 및 스케줄링 협업 경로에서 매우 높지만, 공학적 구현 또한 매우 어렵고, 특히 비동기 병렬 처리의 조정 정확도에 의존합니다.
Pluralis의 SWARM + NAG는 현재 비동기 학습 경로에서 가장 체계적이고 획기적인 설계 중 하나입니다. 비동기 모델 병렬 프레임 기반으로, 열 공간 희소 통신과 NAG 모멘텀 보정을 도입하여 저대역폭 조건에서도 안정적으로 수렴할 수 있는 대규모 모델 학습 솔루션을 구축합니다. 높은 수준의 이론적 혁신을 갖추고 있으며, 비동기 협업 학습의 구조적 선구자입니다. 엔지니어링 난이도 또한 매우 높아 다단계 동기화와 모델 분할의 심층적인 통합이 필요합니다.
Gensyn의 RL Swarm은 주로 훈련 후 단계에 사용되며, 에이전트의 미세 조정 전략 및 협력 학습에 중점을 둡니다. 훈련 과정은 "생성-평가-투표"의 3단계 프로세스를 따르며, 이는 다중 에이전트 시스템에서 복잡한 행동의 동적 조정에 특히 적합합니다. 이론적 혁신은 중간에서 높음 수준이며, 주로 에이전트의 협력 논리에 반영됩니다. 엔지니어링 구현 난이도는 중간 수준이며, 주요 과제는 시스템 스케줄링 및 행동 수렴 제어입니다.
통신 메커니즘 최적화 측면에서, 이 네 가지 프로젝트는 각각 고유한 타깃 레이아웃을 가지고 있으며, 일반적으로 대역폭 병목 현상, 노드 이질성 및 스케줄링 안정성 문제에 대한 체계적인 솔루션에 중점을 둡니다.
Prime Intellect의 PCCL은 기존 NCCL을 대체하는 저수준 통신 라이브러리로, 상위 수준 학습 프로토콜을 위한 더욱 강력한 집단 통신 기반을 제공하는 것을 목표로 합니다. 이론적 혁신 수준은 중간-높음이며, 내결함성 통신 알고리즘 분야에서 획기적인 발전을 이루었습니다. 엔지니어링 난이도는 중간이며, 모듈 적응성이 뛰어납니다.
Nous Research의 DisTrO는 DeMo의 핵심 통신 모듈 로, 낮은 대역폭에서도 통신 오버헤드를 최소화하는 동시에 학습 폐루프의 연속성을 보장하는 데 중점을 둡니다. 스케줄링 및 조정 구조에 있어 높은 이론적 혁신성과 범용 설계 가치를 지녔지만, 설계가 어렵고 압축 정확도와 학습 동기화에 대한 요구 사항이 높습니다.
Pluralis의 통신 메커니즘은 SWARM 아키텍처에 깊이 내장되어 있어 대규모 모델의 비동기 학습 시 통신 부하를 크게 줄이는 동시에 수렴성을 보장하고 효율적인 처리량을 유지합니다. Pluralis는 높은 수준의 이론적 혁신을 갖추고 있으며, 비동기 모델 통신 설계의 패러다임을 제시합니다. 분산 모델 오케스트레이션과 구조적 희소성 제어에 의존하기 때문에 엔지니어링 난이도가 매우 높습니다.
Gensyn의 SkipPipe는 RL Swarm을 위한 장애 허용 스케줄링 구성 요소입니다. 이 솔루션은 배포 비용이 낮으며 주로 엔지니어링 랜딩 계층의 학습 안정성을 향상시키는 데 사용됩니다. 이론적 혁신은 평균 수준이며, 알려진 메커니즘을 엔지니어링 방식으로 구현한 것에 가깝습니다. 엔지니어링 난이도는 비교적 낮지만 실제 배포에 매우 실용적입니다.
또한, 우리는 블록체인 협업 계층과 AI 교육 계층이라는 두 가지 거시적 범주에서 탈중앙화 교육 프로젝트의 가치를 측정할 수 있습니다.
- 블록체인 협업 수준: 프로토콜 신뢰성 및 인센티브 협업 논리에 중점을 둡니다.
- 검증 가능성: 훈련 과정이 검증 가능한지, 게임이나 암호화 메커니즘이 도입되었는지에 대한 신뢰를 구축합니다.
- 인센티브 메커니즘: 작업 중심 토큰 보상/역할 메커니즘이 설계되었는지 여부
- 개방성과 진입 장벽: 노드에 쉽게 접근할 수 있는지, 중앙 집중식인지 허가 제어식인지.
- AI 교육 시스템 수준: 엔지니어링 역량 및 성능 접근성 강조
- 스케줄링 및 장애 허용 메커니즘: 장애 허용형, 비동기형, 동적형 또는 분산형인지 여부
- 학습 방법 최적화: 모델 학습 알고리즘이나 구조가 최적화되었는지 여부
- 통신 경로 최적화: 그래디언트/희소 통신을 압축하고 낮은 대역폭에 적응할지 여부.
위의 지표 체계를 기반으로 다음 표는 탈중앙화 교육 경로에서 Gensyn, Prime Intellect, Pluralis, Nous Research의 기술적 깊이, 엔지니어링 성숙도, 이론적 혁신성을 체계적으로 평가합니다.
탈중앙화 학습의 포스트 체인 생태학: LoRA 기반 모델 미세 조정
탈중앙화 학습의 전체 가치 사슬에서 Prime Intellect, Pluralis.ai, Gensyn, Nous Research와 같은 프로젝트는 주로 모델 사전 학습, 통신 메커니즘, 협업 최적화와 같은 프런트엔드 인프라 구축에 중점을 둡니다. 그러나 다른 유형의 프로젝트는 학습 후 단계(학습 후 미세 조정 및 추론 전달)의 모델 적응 및 추론 배포에 중점을 두고 사전 학습, 매개변수 동기화, 통신 최적화와 같은 체계적인 학습 프로세스에는 직접 참여하지 않습니다. 대표적인 프로젝트로는 Bagel, Pond, RPS Labs가 있으며, 모두 LoRA 미세 조정 방식을 기반으로 하며 탈중앙화 학습 생태계의 핵심 "백엔드 체인"을 구성합니다.
LoRA + DPO: Web3의 미세 조정된 배포를 위한 현실적인 경로
LoRA(Low-Rank Adaptation)는 효율적인 매개변수 미세 조정 방법입니다. 핵심 아이디어는 사전 학습된 대규모 모델에 저순위 행렬을 삽입하여 기존 모델 매개변수를 동결 채 새로운 작업을 학습하는 것입니다. 이 전략은 학습 비용과 리소스 소비를 크게 줄이고, 미세 조정 속도와 배포 유연성을 향상시키며, 특히 모듈 및 결합 호출이 특징인 Web3 시나리오에 적합합니다.
LLaMA나 GPT-3와 같은 기존의 대규모 언어 모델은 수십억 개 또는 수천억 개의 매개변수를 갖는 경우가 많으며, 직접적인 미세 조정에는 많은 비용이 듭니다. 반면, LoRA는 소수의 삽입된 매개변수 행렬만을 학습시켜 대규모 모델의 효율적인 적응을 달성하며, 현재 가장 실용적인 주류 방법 중 하나로 자리매김하고 있습니다.
직접 선호도 최적화(DPO)는 최근 몇 년 동안 등장한 언어 모델 사후 학습 방법입니다. 모델 동작 정렬 단계에서 LoRA 미세 조정 메커니즘과 함께 자주 사용됩니다. 기존의 RLHF(인간 피드백 기반 강화 학습) 방식과 달리, DPO는 쌍으로 구성된 샘플을 직접 최적화하여 선호도 학습을 달성하므로 복잡한 보상 모델링 및 강화 학습 과정이 필요하지 않습니다. DPO는 구조가 단순하고 수렴 속도가 더 안정적이며, 특히 가볍고 리소스가 제한된 환경에서 미세 조정 작업에 적합합니다. 높은 효율성과 사용 편의성 덕분에 DPO는 모델 정렬 단계에서 많은 탈중앙화 AI 프로젝트의 선호 솔루션으로 점차 자리 잡고 있습니다.
강화 학습(RL): 훈련 후 미세 조정의 미래
장기적인 관점에서, 점점 더 많은 프로젝트들이 강화 학습(RL)을 탈중앙화 학습에서 더 큰 적응성과 진화적 잠재력을 가진 핵심 경로로 간주하고 있습니다. 정적 데이터에 의존하는 지도 학습이나 매개변수 미세 조정 메커니즘과 달리, 강화 학습은 동적 환경에서 전략의 지속적인 최적화를 강조하며, 이는 Web3 네트워크의 비동기적, 이기종, 인센티브 기반 협업 패턴에 자연스럽게 부합합니다. 환경과의 지속적인 상호작용을 통해 강화 학습은 고도로 개인화되고 지속적인 증분 학습 프로세스를 달성하여 에이전트 네트워크, 온체인 작업 시장, 스마트 경제 구축을 위한 진화 가능한 "행동 지능" 인프라를 제공할 수 있습니다.
이 패러다임은 개념적으로 탈중앙화 정신과 매우 일치할 뿐만 아니라, 상당한 시스템적 이점을 제공합니다. 그러나 높은 엔지니어링 한계와 복잡한 스케줄링 메커니즘으로 인해, 강화학습(RL)은 현재 단계에서 구현에 큰 어려움을 겪고 있으며, 단기간에 널리 보급되기는 어렵습니다.
Prime Intellect의 PRIME-RL과 Gensyn의 RL Swarm은 RL을 훈련 후 미세 조정 메커니즘에서 훈련 전 주요 구조로 발전시켜 신뢰 조정이 필요하지 않은 RL 중심의 협력적 훈련 시스템을 구축하려 한다는 점이 주목할 만합니다.
Bagel(zkLoRA): LoRA 미세 조정을 위한 신뢰할 수 있는 검증 계층
베이글은 LoRA 미세 조정 메커니즘을 기반으로 하는 영지식 증명(ZK) 기술을 도입하고, "온체인 모델 미세 조정" 과정에서 발생하는 신뢰성 및 개인정보 보호 문제 해결에 전념합니다. zkLoRA는 실제 학습 계산에는 참여하지 않지만, 외부 사용자가 원본 데이터나 가중치에 접근하지 않고도 미세 조정된 모델이 지정된 기본 모델과 LoRA 매개변수에서 실제로 도출되었는지 확인할 수 있도록 하는 가볍고 검증 가능한 메커니즘을 제공합니다.
Gensyn의 Verde나 Prime Intellect의 TOPLOC이 학습 과정의 동적 검증, 즉 "행동이 실제로 발생했는지 여부"에 초점을 맞추는 것과 달리, Bagel은 "미세 조정 결과의 신뢰성"에 대한 정적 검증에 더 중점을 둡니다. zkLoRA의 가장 큰 장점은 검증 리소스 소모가 적고 개인정보 보호가 강력하다는 점이지만, 적용 범위는 일반적으로 매개변수 변경이 적은 미세 조정 작업에 국한됩니다.
Pond: GNN 시나리오를 위한 미세 조정 및 에이전트 진화 플랫폼
Pond는 그래프 신경망(GNN) 미세 조정에 중점을 두고 지식 그래프, 소셜 네트워크, 트랜잭션 그래프와 같은 구조화된 데이터 애플리케이션을 제공하는 업계 유일의 탈중앙화 학습 프로젝트입니다. 사용자가 그래프 구조 데이터를 업로드하고 모델 학습 피드백에 참여할 수 있도록 지원하여, 개인화된 작업을 위한 가볍고 제어 가능한 학습 및 추론 플랫폼을 제공합니다.
Pond는 LoRA와 같은 효율적인 미세 조정 메커니즘을 사용합니다. Pond의 핵심 목표는 GNN 아키텍처에서 모듈 되고 배포 가능한 지능형 에이전트 시스템을 구현하여 탈중앙화 환경에서 "소규모 모델 미세 조정 + 다중 에이전트 협업"이라는 새로운 탐구 경로를 여는 것입니다.
RPS Labs: DeFi를 위한 AI 기반 유동성 엔진
RPS Labs는 트랜스포머 아키텍처 기반의 탈중앙화 교육 프로젝트로, 솔라나 생태계에 주로 구축되는 DeFi 유동성 관리를 위해 정교하게 조정된 AI 모델을 활용하는 데 전념합니다. 주력 제품인 UltraLiquid는 정교하게 조정된 모델을 사용하여 유동성 매개변수를 동적으로 조정하고, 슬리피지(slippage)를 줄이며, 거래량을 늘리고, 토큰 발행 및 거래 경험을 최적화하는 능동형 마켓메이킹 엔진입니다.
또한 RPS는 유동성 공급자가 DEX에서 실시간으로 자본 배분 전략을 최적화할 수 있도록 지원하는 UltraLP 도구를 출시하여 자본 효율성을 개선하고 일시적 손실 리스크 줄였습니다. 이는 금융 시나리오에서 AI 미세 조정의 실용적 가치를 반영합니다.
프런트 체인 엔진부터 백 체인 생태계까지: 탈중앙화 교육의 미래
탈중앙화 학습의 완전한 생태적 맵은 두 가지 범주로 나눌 수 있습니다. 프런트 체인 엔진은 모델 사전 학습 단계에 해당하고, 백 체인 생태는 모델 미세 조정 및 배포 단계에 해당하며 인프라에서 애플리케이션 구현까지 완전한 폐쇄 루프를 형성합니다.
프런트 체인 엔진은 Prime Intellect,