테더(Tether) AI는 QVAC SDK를 업그레이드하여 TurboQuant를 일상 기기에 제공하고 로컬 AI에 데이터 센터급 메모리를 제공합니다.

이 기사는 기계로 번역되었습니다
원문 표시

테더의 오픈소스 터보퀀트(TurboQuant)는 장시간 작업 시 AI에 필요한 메모리를 압축하여 노트북, 스마트폰, 엣지 디바이스 및 분산 네트워크에서 클라우드로 모든 데이터를 전송하지 않고도 대용량 문서, 긴 대화, 코드베이스 및 개인 AI 비서를 처리할 수 있도록 합니다.


2026년 6월 1일 – 테더(Tether)의 AI 연구 그룹은 오늘 구글 연구소의 메모리 압축 알고리즘인 터보퀀트(TurboQuant)의 오픈 소스 구현 버전을 정식 출시했다고 발표했습니다. 터보퀀트는 대규모 AI 모델 실행에 필요한 메모리 용량을 획기적으로 줄여 실리콘 밸리의 “피리 부는 사나이”에 비유될 정도로 혁신적인 기술입니다. 구글은 터보퀀트를 통해 연구 분야에서 획기적인 발전을 이루었으며, 테더(Tether) 이를 자사의 오픈 소스 로컬/엣지 AI 엔진인 QVAC 패브릭(QVAC Fabric)에 적용하여 상용화하고 있습니다. llama.cpp로 시작된 패브릭은 이제 온디바이스 인텔리전스의 한계를 뛰어넘는 여러 혁신적인 기술을 통합하고 있습니다.

이번 릴리스를 통해 TurboQuant는 논문에 그치지 않고 개발자들이 노트북, 소비자용 GPU, 모바일 칩, 엣지 디바이스, 분산 추론 네트워크 등 다양한 환경에서 사용, 테스트, 적용할 수 있는 오픈 소스 소프트웨어로 거듭났습니다. 여기에는 완전한 양자화 파이프라인, 일반적인 추론 프레임워크용 어댑터, 개발자 문서, 그리고 하이퍼스케일 데이터 센터 외부의 실제 배포 환경에 최적화된 워크로드 프로파일이 포함됩니다. 이러한 변화는 매우 중요한데, 유용한 AI 작업들이 여전히 클라우드로 밀려나는 가장 큰 이유 중 하나가 바로 메모리 부족이기 때문입니다.

AI 비서를 사용할 때, 모델은 데이터를 불러오는 데 필요한 메모리뿐만 아니라, 이전에 접했던 대화, 문서, 코드베이스, 명령어 등을 기억하기 위한 작업 메모리도 필요로 합니다. 이 작업 메모리를 KV 캐시라고 하며, 세션이 길어질수록 용량이 커집니다. 숏 프롬프트는 처리하기 쉬울 수 있지만, 전체 계약서, 재무 보고서, 연구 보고서, 책, 코드 저장소 또는 몇 시간 동안의 대화는 대부분의 노트북, 스마트폰, 일반 소비자용 GPU가 감당할 수 있는 메모리 용량을 초과할 수 있습니다.


약 262,000개의 토큰, 즉 몇 시간 동안의 대화나 수백 페이지 분량의 텍스트에 해당하는 규모에서 4B 모델의 KV 캐시는 자체적으로 약 8GB의 메모리를 사용할 수 있습니다. 이 정도 규모의 세션이 네 개만 있어도 모델 로딩에 필요한 메모리를 제외하고도 캐시 용량이 약 32GB까지 올라갈 수 있습니다. 이것이 바로 사용자가 작업을 로컬에서 처리하고 싶어 하더라도 여전히 많은 AI 환경이 원격 데이터 센터에 의존하는 이유입니다.

TurboQuant는 KV 캐시를 최대 5배까지 압축하면서도 압축되지 않은 모델과 거의 동일한 출력 품질을 유지함으로써 이러한 상황을 바꿉니다. 실질적으로 이는 로컬 AI가 사용자가 이미 보유하고 있는 하드웨어에서 더 긴 대화, 더 큰 파일, 더 많은 컨텍스트 정보, 그리고 더 무거운 작업 부하를 처리할 수 있음을 의미합니다.

사용자에게 있어 이는 노트북의 AI 비서에게 100페이지 분량의 법률 문서를 클라우드 서비스에 업로드하지 않고도 읽고 분석해 달라고 요청할 수 있음을 의미합니다. 또한 학생이 기기 내 튜터를 사용하여 몇 번의 메시지 교환 후에도 전체 학습 내용을 기억하고 맥락을 유지할 수 있음을 의미할 수 있습니다. 개발자는 로컬 코딩 도우미를 실행하여 코드베이스를 한 번에 더 많이 이해할 수 있습니다. 나아가 기자, 의사, 연구원, 소규모 사업자는 민감한 파일을 AI로 처리하면서 작업 내용을 기기에 더 많이 저장할 수 있게 됩니다.

개발자와 스타트업에게 있어 이는 고가의 GPU 클러스터에 대한 접근 권한 없이도 더 큰 규모의 AI 제품을 구축할 수 있음을 의미합니다. 숏 컨텍스트 시간, 엄격한 메모리 제한 또는 클라우드 전용 배포에 맞춰 설계하는 대신, 팀은 TurboQuant를 사용하여 더 긴 세션, 더 큰 워크로드, 그리고 소비자 하드웨어, 엣지 디바이스 및 P2P 네트워크 전반에 걸친 더욱 유연한 배포를 지원할 수 있습니다.

“구글의 연구에 따르면 AI 메모리는 대부분의 사람들이 예상했던 것보다 훨씬 효율적으로 압축될 수 있다는 사실이 밝혀졌습니다. 저희의 연구는 이러한 획기적인 기술을 개발자, 스타트업, 그리고 사용자들이 실제로 활용할 수 있는 상용 소프트웨어로 구현하는 것입니다.”라고 테더(Tether) 의 CEO인 파올로 아르도이노는 말했습니다. “만약 장시간 컨텍스트 처리가 가능한 AI가 가장 큰 데이터 센터에서만 작동한다면, AI의 미래는 가장 많은 하드웨어를 소유한 기업에 의해 좌우될 것입니다. 터보퀀트(TurboQuant)는 메모리 제약을 없애 로컬 AI의 가능성을 새롭게 정의합니다.”

그는 "사람들은 모든 작업이 원격 데이터 센터를 거치지 않고도 AI 비서에게 긴 문서를 읽어달라고 하거나, 프로젝트를 기억해 달라고 하거나, 코드를 도와 달라고 하거나, 개인 정보를 처리해 달라고 요청할 수 있어야 합니다."라고 덧붙였습니다. "터보퀀트를 상용화함으로써 이것이 가능해집니다. 로컬 AI에 더 많은 메모리, 더 많은 컨텍스트, 그리고 일상생활에서 유용하게 활용될 수 있는 더 큰 여지를 제공합니다."

Tether의 구현은 제한된 장치 메모리, 다양한 하드웨어, 장시간 세션, 지연 시간 문제, 중앙 집중식 클라우드 인프라 외부 배포와 같이 실제 AI 환경에서 흔히 발생하는 제약을 고려하여 설계되었습니다. 연구팀이 직접 연구를 재구축할 필요 없이, 오픈 소스 릴리스를 통해 AI 개발자 커뮤니티는 다양한 시스템에서 TurboQuant를 테스트, 개선 및 적용할 수 있는 공유 기반을 마련할 수 있습니다.

TurboQuant는 QVAC SDK 0.12.0에 포함되어, 해당 스택의 핵심 구성 요소 중 하나인 Fabric을 통해 직접 사용할 수 있게 됩니다. QVAC SDK는 Tether의 AI 생태계 내에서 개발하는 개발자에게 권장되는 통합 경로입니다. 동시에, SDK는 다양한 기기와 환경에서 로컬 AI 애플리케이션을 구축하는 데 필요한 모든 QVAC 도구, 라이브러리 및 런타임 구성 요소를 제공합니다.

이번 발표는 테더의 광범위한 AI 전략을 더욱 발전시키는 계기가 될 것입니다. 테더는 중앙 집중식 API와 하이퍼스케일 데이터 센터에만 의존하는 것이 아니라, 개인 기기, 로컬 네트워크, 분산형 인프라 등 사용자에게 더욱 가까운 곳에서 작동할 수 있는 AI를 구축하는 데 주력하고 있습니다. 대규모 컴퓨팅은 여전히 ​​중요하지만, 테더(Tether) 차세대 AI는 소프트웨어 효율성, 이식성, 그리고 사람들이 실제로 사용하는 환경에서 강력한 모델을 실행할 수 있는 능력에 의해 좌우될 것이라고 믿습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
88
즐겨찾기에 추가
18
코멘트