avatar
웹3 솔라나 광기 연구실
팔로우하기
포스팅
avatar
웹3 솔라나 광기 연구실
03-25
[로컬 LLM을 운영중이라면 주목: 구글 리서치, TurboQuant 발표] AI 모델은 대화를 할 때 "KV 캐시"라는 걸 씁니다. 쉽게 표현하면 AI가 이전에 읽은 내용을 빠르게 참조하기 위한 메모장인데, 대화가 길어질 수록 이게 커져서 GPU 메모리를 다 잡아먹습니다. 그러다보니 이를 소화하려면 비싼 GPU가 필요하게 되는 거죠. (토큰과는 좀 다릅니다. 이건 토큰과 함께 늘어나긴 하는데 메모리에만 잠깐 존재하고 세션 재시작 시 사라지는 임시데이터임) TurboQuant는 이 메모장을 무려 6배 이상 줄이면서도 정확도 손실이 0인 압축 알고리즘입니다. 추가로 속도까지 최대 8배 빨라집니다. 어마어마한 효율성 개선입니다. 기존에도 이러한 시도는 많았지만 아무리 압축하려고 해봤자 추가 메모(오버헤드)가 필요했었기에 적용하기에 좀 문제가 많았습니다. 근데 이번 TurboQuant는 수학적 트릭 (벡터를 극좌표로 변환 + 1비트 에러 체크)을 통해 그 추가 메모 자체를 없앴다는 점에서 혁신적입니다. 결과적으로 - 같은 GPU로 더 긴 대화가 가능해짐 - AI 서비스 운영 비용이 줄어듦 - 로컬 모델에서 더 큰 컨텍스트 윈도우를 쓸 수 있게 됨 이라는 것입니다. Prince 라는 MLX (Ollama같은, 로컬 LLM 돌리는 운영체제)에서 일하는 사람이 이걸 MLX에 직접 구현해서 테스트한 해봤는데, 결과가 아래와 같습니다. 테스트 방식: Qwen3.5-35B-A3B 모델로 Needle-in-a-Haystack 테스트 (8.5K, 32.7K, 64.2K 컨텍스트) - 6/6 전부 정답 (모든 양자화 레벨에서) - TurboQuant 2.5-bit: KV 캐시 4.9배 축소 - TurboQuant 3.5-bit: KV 캐시 3.8배 축소 - 정확도 손실 0 (세상에...) 사실 저도 맥미니 64gb에서 Qwen 27b를 Ollama 통해서 돌리고 있습니다. 정확히는 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled 모델을 돌리고 있었는데, 뭐 그냥 Qwen 쌩으로 돌리는 것보단 distilled 모델이 더 잘나오고 빠릿하긴 했지만 아무래도 속도가 답답했단 말이죠. 계산대로 KV 캐시가 4~5배 줄면 같은 64gb 램에서 컨텍스트 윈도우 32k에서 100k+ 이상급도 나오겠고...지금 운영중인 모델보다 더 큰 모델도 돌릴 수 있겠습니다. 만약 맥미니에서 로컬 모델 돌리고자 했었거나 돌리고 계신 분들이 계시다면 충분히 주목해볼 만한 내용이겠습니다. 더 자세한 내용 및 출처
OPUS
1.1%
avatar
웹3 솔라나 광기 연구실
03-15
많은 분들이 모르는 사실: AI랑 한국어로 대화하면 50%-70% 더 비쌉니다. 영어에서는 대략 단어 하나가 토큰 하나에 해당됩니다. "Hello"는 1토큰, "artificial intelligence"는 2토큰이죠. 근데 한국어는 좀 다릅니다. "안녕하세요"가 2, 3토큰으로 쪼개집니다. 한글은 조합 구조 때문에 영어보다 토큰을 구조적으로 더 많이 쓰게 되어 있습니다. 같은 내용을 한국어로 쓰면 영어보다 약 1.52배 더 많은 토큰을 소비합니다. API 비용은 토큰에 비례하기 때문에 같은 내용으로도 한국어가 무려 50% - 70%는 더 비쌉니다. 여기에 AI의 답변까지 한국어로 받으면 출력 토큰도 마찬가지로 50-70% 더 비쌉니다. 그리고 이에 대해서 다른 연구결과가 있다고 말하는 분들도 좀 계시던데 (arxiv.org/pdf/2507.00246), 이건 수학만 테스트한 결과인데다가 심지어 GPT, Claude 같은 저희가 자주 사용하는 모델이 쏙 빠져 있는 연구결과에요. 이 모델들은 영어 중심으로 RLHF 받아서 결과가 다를 수 있습니다. 이 연구에 사용한 모델은 DeepSeek R1, Qwen 2.5, Qwen 3이라서 전부 중국발 LLM… 그리고 "토큰 절감 = 효율"이라는 전제가 좀 문제가 있어요. 한국어로 thinking하면 토큰 수는 줄어도 한국어 토큰 1개의 비용이 영어 토큰 1개보다 비쌉니다. (바이트 수, 처리 비용). 그러니 결론적으로 본인이 AI를 자주 쓰셔서 자꾸 rate limit에 도달하시거든, 일단 영어 공부하는 셈 치고 영어로 대화 나누시길 권장드립니다 ㅎㅎㅎ
GPT
0%
loading indicator
Loading..