[로컬 LLM을 운영중이라면 주목: 구글 리서치, TurboQuant 발표] AI 모델은 대화를 할 때 "KV 캐시"라는 걸 씁니다. 쉽게 표현하면 AI가 이전에 읽은 내용을 빠르게 참조하기 위한 메모장인데, 대화가 길어질 수록 이게 커져서 GPU 메모리를 다 잡아먹습니다. 그러다보니 이를 소화하려면 비싼 GPU가 필요하게 되는 거죠. (토큰과는 좀 다릅니다. 이건 토큰과 함께 늘어나긴 하는데 메모리에만 잠깐 존재하고 세션 재시작 시 사라지는 임시데이터임) TurboQuant는 이 메모장을 무려 6배 이상 줄이면서도 정확도 손실이 0인 압축 알고리즘입니다. 추가로 속도까지 최대 8배 빨라집니다. 어마어마한 효율성 개선입니다. 기존에도 이러한 시도는 많았지만 아무리 압축하려고 해봤자 추가 메모(오버헤드)가 필요했었기에 적용하기에 좀 문제가 많았습니다. 근데 이번 TurboQuant는 수학적 트릭 (벡터를 극좌표로 변환 + 1비트 에러 체크)을 통해 그 추가 메모 자체를 없앴다는 점에서 혁신적입니다. 결과적으로 - 같은 GPU로 더 긴 대화가 가능해짐 - AI 서비스 운영 비용이 줄어듦 - 로컬 모델에서 더 큰 컨텍스트 윈도우를 쓸 수 있게 됨 이라는 것입니다. Prince 라는 MLX (Ollama같은, 로컬 LLM 돌리는 운영체제)에서 일하는 사람이 이걸 MLX에 직접 구현해서 테스트한 해봤는데, 결과가 아래와 같습니다. 테스트 방식: Qwen3.5-35B-A3B 모델로 Needle-in-a-Haystack 테스트 (8.5K, 32.7K, 64.2K 컨텍스트) - 6/6 전부 정답 (모든 양자화 레벨에서) - TurboQuant 2.5-bit: KV 캐시 4.9배 축소 - TurboQuant 3.5-bit: KV 캐시 3.8배 축소 - 정확도 손실 0 (세상에...) 사실 저도 맥미니 64gb에서 Qwen 27b를 Ollama 통해서 돌리고 있습니다. 정확히는 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled 모델을 돌리고 있었는데, 뭐 그냥 Qwen 쌩으로 돌리는 것보단 distilled 모델이 더 잘나오고 빠릿하긴 했지만 아무래도 속도가 답답했단 말이죠. 계산대로 KV 캐시가 4~5배 줄면 같은 64gb 램에서 컨텍스트 윈도우 32k에서 100k+ 이상급도 나오겠고...지금 운영중인 모델보다 더 큰 모델도 돌릴 수 있겠습니다. 만약 맥미니에서 로컬 모델 돌리고자 했었거나 돌리고 계신 분들이 계시다면 충분히 주목해볼 만한 내용이겠습니다. 더 자세한 내용 및 출처

Telegram
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트