[로컬 LLM을 운영중이라면 주목: 구글 리서치, TurboQuant 발표]

AI 모델은 대화를 할 때 "KV 캐시"라는 걸 씁니다. 쉽게 표현하면 AI가 이전에 읽은 내용을 빠르게 참조하기 위한 메모장인데, 대화가 길어질 수록 이게 커져서 GPU 메모리를 다 잡아먹습니다. 그러다보니 이를 소화하려면 비싼 GPU가 필요하게 되는 거죠. (토큰과는 좀 다릅니다. 이건 토큰과 함께 늘어나긴 하는데 메모리에만 잠깐 존재하고 세션 재시작 시 사라지는 임시데이터임)

TurboQuant는 이 메모장을 무려 6배 이상 줄이면서도 정확도 손실이 0인 압축 알고리즘입니다. 추가로 속도까지 최대 8배 빨라집니다. 어마어마한 효율성 개선입니다.

기존에도 이러한 시도는 많았지만 아무리 압축하려고 해봤자 추가 메모(오버헤드)가 필요했었기에 적용하기에 좀 문제가 많았습니다. 근데 이번 TurboQuant는 수학적 트릭 (벡터를 극좌표로 변환 + 1비트 에러 체크)을 통해 그 추가 메모 자체를 없앴다는 점에서 혁신적입니다.

결과적으로
- 같은 GPU로 더 긴 대화가 가능해짐
- AI 서비스 운영 비용이 줄어듦
- 로컬 모델에서 더 큰 컨텍스트 윈도우를 쓸 수 있게 됨
이라는 것입니다. 

Prince 라는 MLX (Ollama같은, 로컬 LLM 돌리는 운영체제)에서 일하는 사람이 이걸 MLX에 직접 구현해서 테스트한 해봤는데, 결과가 아래와 같습니다.

테스트 방식: Qwen3.5-35B-A3B 모델로 Needle-in-a-Haystack 테스트 (8.5K, 32.7K, 64.2K 컨텍스트)
 - 6/6 전부 정답 (모든 양자화 레벨에서)
 - TurboQuant 2.5-bit: KV 캐시 4.9배 축소
 - TurboQuant 3.5-bit: KV 캐시 3.8배 축소
 - 정확도 손실 0 (세상에...)

사실 저도 맥미니 64gb에서 Qwen 27b를 Ollama 통해서 돌리고 있습니다. 정확히는 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled 모델을 돌리고 있었는데, 뭐 그냥 Qwen 쌩으로 돌리는 것보단 distilled 모델이 더 잘나오고 빠릿하긴 했지만 아무래도 속도가 답답했단 말이죠.

계산대로 KV 캐시가 4~5배 줄면 같은 64gb 램에서 컨텍스트 윈도우 32k에서 100k+ 이상급도 나오겠고...지금 운영중인 모델보다 더 큰 모델도 돌릴 수 있겠습니다. 
만약 맥미니에서 로컬 모델 돌리고자 했었거나 돌리고 계신 분들이 계시다면 충분히 주목해볼 만한 내용이겠습니다. 

더 자세한 내용 및 출처

Telegram

【本地LLM专案用户请注意：Google研究院发布TurboQuant】

AI模型在对话过程中会使用一种叫做「键值快取」（KV快取）的东西。简单来说，它就像一个记事本，AI用它来快速引用之前读取的内容；然而，随著对话时间的延长，这个快取会越来越大，最终耗尽GPU记忆体。因此，处理这个快取需要昂贵的GPU。 （这与词元略有不同。虽然键值快取也会随著词元增长，但它是临时数据，只在记忆体中短暂存在，并在会话重启后消失。）

TurboQuant是一种压缩演算法，它可以将这个记事本的大小减少六倍以上，同时保持零精度损失。此外，它的速度也提升了八倍。这代表著效率的巨大提升。

过去曾有许多尝试，但无论压缩程度如何，都需要额外的记忆体（开销），这给实现带来了巨大的挑战。然而，TurboQuant 的创新之处在于，它透过数学技巧（将向量转换为极座标 + 1 位元错误检查）消除了额外的记忆体占用。

因此，结论如下：

- 在同一 GPU 上可以进行更长的对话

- AI 服务的运作成本降低

- 本地模型可以使用更大的上下文窗口

以上是结果。

一位名叫 Prince 的 MLX（一个用于运行类似 Ollama 的本地 LLM 的作业系统）员工直接在 MLX 上实现了这一功能并进行了测试，结果如下。

测试方法：使用 Qwen3.5-35B-A3B 模型进行「大海捞针」测试（8.5K、32.7K、64.2K 个情境）

- 6 个答案全部正确（所有量化等级）

- TurboQuant 2.5 位元：键值快取减少 4.9 倍

- TurboQuant 3.5 位元：键值快取减少 3.8 倍

- 准确率无损失（难以置信…）

实际上，我还在一台 64GB 的 Mac Mini 上透过 Ollama 运行了 Qwen 27b。准确来说，我运行的是 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled 模型。虽然精简后的模型表现更好，反应速度也比直接运行 Qwen 更快，但速度仍然慢得令人沮丧。

如果按照计算结果，KV快取减少4到5倍，那么在相同的64GB记忆体下，效能有望超过10万+，上下文视窗也将从32KB提升……甚至有可能运行比目前模型更大的模型。

如果您计划在Mac Mini上运行本地模型，或者目前正在这样做，那么这无疑是一个值得关注的消息。

更多详情和来源

加密货币市场正处于十字路口，准备迎接未来的发展。鉴于金融环境持续动荡，比特币（$ BTC）已达到至关重要的阶段……

比特币价格停滞预示着突破 71,000 美元阻力位后波动性将大幅扩大

2026 年 2 月，稳定币月交易量达到 7.2 万亿镁，次超越了自动清算系统 (ACH) 网络的 6.8 万亿镁。
ACH是一种对外支付系统……

稳定币的资金量流动量超过了美国核心金融体系。

来源：新智元
就在刚刚，AI圈发生了一场足以载入史册的「闭关锁国」事件。
Anthropic已正式禁止使用自家套餐接入OpenClaw！！！
Claude Code之父Boris Cherny宣布：
从美国东部时间4月4日下午3点（北京时间4月5日凌晨3点）开始，Claude封杀全部第三方工具，只能使用额外套餐或API使用这些工具。
[OpenClaw]
这意味着，成千上万依赖OpenClaw提升...