2026년 3월 17일 – 테더(Tether) 오늘 마이크로소프트의 비트넷(BitNet) 모델(1 비트(Bit) LLM)을 위한 세계 최초의 크로스 플랫폼 LoRA 미세 조정 프레임워크를 출시하며 AI 모델 학습에 획기적인 발전을 이루었다고 발표했습니다. QVAC 패브릭의 일부인 이 새로운 기능은 메모리와 컴퓨팅 요구 사항을 획기적으로 줄여, 수십억 개의 매개변수를 가진 언어 모델을 노트북, 일반 소비자용 GPU, 최신 스마트폰 등 일상적인 하드웨어에서 미세 조정할 수 있도록 합니다.
AI 모델을 개발하고 유지 관리하려면 기업 수준의 NVIDIA 시스템이나 클라우드 인프라가 필요한데, 이는 비용이 너무 많이 들어 사실상 불가능해졌습니다. 그 결과, 고급 AI 개발은 특수 하드웨어와 막대한 예산을 보유한 대기업에서만 사실상 가능해졌습니다.
Tether의 QVAC Fabric LLM은 이번 획기적인 BitNet 기반 프레임워크로 더욱 향상되어 Intel, AMD, Apple Silicon M 칩 등을 포함한 다양한 소비자용 GPU에서 크로스 플랫폼 LoRA 미세 조정 및 추론 가속 지원을 제공함으로써 이러한 장벽을 제거합니다. 이러한 발전으로 사용자는 널리 보급된 소비자 기기에서 직접 AI 모델을 학습하고 맞춤 설정할 수 있게 되었습니다.
테더 엔지니어링 팀의 이번 성과는 Adreno, Mali, Apple Bionic GPU를 포함한 모바일 GPU에서 BitNet 미세 조정을 성공적으로 시연한 최초의 사례입니다. 사용자는 약 300개의 문서(약 18,000개의 토큰)로 구성된 생의학 데이터 세트를 사용하여 삼성 S25(Adreno GPU)에서 약 10분 만에 1억 2,500만 개의 파라미터를 가진 BitNet 모델을 미세 조정할 수 있습니다. 10억 파라미터 모델의 경우, 동일한 생의학 데이터를 미세 조정하는 데 삼성 S25에서는 1시간 18분, iPhone 16에서는 1시간 45분이 소요됩니다. 기기의 성능을 최대한 활용하여, 저희 팀은 iPhone 16에서 최대 130억 파라미터 모델까지 미세 조정할 수 있었습니다.
또한 이 프레임워크는 Q4 비 BitNet 모델보다 2배 더 큰 모델을 엣지 디바이스에서 미세 조정할 수 있는 기능을 보여주며, BitNet 아키텍처의 우수한 메모리 이점을 입증합니다.
QVAC 패브릭을 통해 BitNet 추론 성능 또한 크게 향상되었습니다. BitNet 제품군 모델은 모바일 GPU에서 훨씬 빠른 속도로 실행됩니다. 이러한 기기에서 GPU 성능은 CPU보다 2배에서 11배까지 빨랐으며 , 이는 오늘날의 모바일 GPU가 이전에는 고가의 특수 하드웨어 또는 데이터 센터가 필요했던 워크로드를 지원할 수 있음을 보여줍니다.
메모리 절감 효과 또한 매우 큽니다. 벤치마크 결과에 따르면 BitNet-1B(TQ1_0)는 추론 및 LoRA 미세 조정 워크로드 모두에서 Gemma-3-1B(16 비트(Bit))보다 최대 77.8%, Qwen3-0.6B(16 비트(Bit))보다 65.6% 적은 VRAM을 사용합니다. 이러한 절감 효과로 상당한 메모리 여유 공간이 확보되어 불과 몇 달 전만 해도 부족하다고 여겨졌던 하드웨어에서도 더 큰 모델과 개인화 워크플로우를 실행할 수 있게 되었습니다.
또한, 이 프레임워크는 최초로 NVIDIA 외 하드웨어에서 1 비트(Bit) LLM에 대한 LoRA 미세 조정을 지원하여 AMD, Intel, Apple Silicon 및 모바일 GPU까지 지원 범위를 확장합니다. 특수 하드웨어 및 클라우드 제공업체에 대한 의존도를 줄임으로써, 민감한 데이터를 기기 내에 로컬로 유지하면서 AI 미세 조정에 대한 접근성을 확대합니다. 이러한 효율성 이점 덕분에 연합 학습이 가까운 미래에 실현 가능해지고, 민감한 사용자 데이터를 로컬에 유지하고 중앙 집중식 인프라에 대한 의존도를 줄이면서 분산된 기기 간에 미세 조정된 업데이트를 학습하고 공유할 수 있게 됩니다.
“지능은 미래 사회를 결정짓는 핵심 요소가 될 것입니다. 사회의 안정성을 향상시키고, 사회 구성원들을 연결하는 역할을 하거나, 소수의 권력을 더욱 강화할 잠재력을 지니고 있습니다. 미래의 AI는 전 세계 모든 사람과 개발자들이 접근하고 활용할 수 있어야 하며, 소수의 클라우드 제공업체만이 이용할 수 있는 엄청난 자원에 의존해서는 안 됩니다.”라고 테더(Tether) 의 CEO 파올로 아르도이노(Paolo Ardoino) 는 말했습니다. “대규모 언어 모델 학습이 중앙 집중식 인프라에 의존하게 되면 혁신은 정체되고, 생태계는 취약해지며, 사회적 균형이 위협받게 됩니다. 테더의 QVAC는 스마트폰을 포함한 소비자 하드웨어에서 의미 있는 대규모 모델 학습을 가능하게 함으로써, 첨단 AI가 분산화되고, 포용적이며, 모두에게 힘을 실어줄 수 있음을 입증하고 있습니다. 테더(Tether) 는 앞으로 몇 주, 몇 달, 몇 년 동안 AI가 모든 사람, 모든 곳에서, 기기 내에서 로컬로 접근 가능하도록 상당한 자원과 자본 지속적으로 투자할 것입니다. 안정적인 지능의 시대가 이제 막 시작되었습니다.”
논문, 어댑터, 벤치마크 및 크로스 플랫폼 바이너리를 포함한 전체 기술 세부 정보는 Hugging Face 블로그(LoRA Fine-Tuning BitNet b1.58 LLMs on Heterogeneous Edge GPUs via QVAC Fabric)에서 확인할 수 있습니다.
테더(Tether) 소개
테더의 비전은 기술을 통해 자유, 투명성, 혁신을 증진하는 것입니다. 테더의 사명은 불필요한 중개자 없이 사람과 조직이 직접 연결하여 정보를 공유할 수 있도록 하는 것입니다. 안전한 P2P 시스템을 구축함으로써 테더(Tether) 사용자에게 데이터, 통신 및 디지털 상호 작용에 대한 더 큰 제어권을 제공합니다.
테더(Tether) 개인정보 보호, 효율성 및 복원력을 고려하여 설계된 분산형 인프라를 통해 중앙 집중식 모델을 대체함으로써 네트워크를 통한 정보 흐름 방식을 재정의하는 것을 목표로 합니다. 회사의 궁극적인 목표는 전 세계적인 연결성을 더욱 빠르고 안전하며 개인정보가 보호되는 방식으로 만들어 개인과 기관 모두가 자유롭고 안전하게 정보를 교환할 수 있도록 지원하는 것입니다.



