[로컬 LLM을 운영중이라면 주목: 구글 리서치, TurboQuant 발표]

AI 모델은 대화를 할 때 "KV 캐시"라는 걸 씁니다. 쉽게 표현하면 AI가 이전에 읽은 내용을 빠르게 참조하기 위한 메모장인데, 대화가 길어질 수록 이게 커져서 GPU 메모리를 다 잡아먹습니다. 그러다보니 이를 소화하려면 비싼 GPU가 필요하게 되는 거죠. (토큰과는 좀 다릅니다. 이건 토큰과 함께 늘어나긴 하는데 메모리에만 잠깐 존재하고 세션 재시작 시 사라지는 임시데이터임)

TurboQuant는 이 메모장을 무려 6배 이상 줄이면서도 정확도 손실이 0인 압축 알고리즘입니다. 추가로 속도까지 최대 8배 빨라집니다. 어마어마한 효율성 개선입니다.

기존에도 이러한 시도는 많았지만 아무리 압축하려고 해봤자 추가 메모(오버헤드)가 필요했었기에 적용하기에 좀 문제가 많았습니다. 근데 이번 TurboQuant는 수학적 트릭 (벡터를 극좌표로 변환 + 1비트 에러 체크)을 통해 그 추가 메모 자체를 없앴다는 점에서 혁신적입니다.

결과적으로
- 같은 GPU로 더 긴 대화가 가능해짐
- AI 서비스 운영 비용이 줄어듦
- 로컬 모델에서 더 큰 컨텍스트 윈도우를 쓸 수 있게 됨
이라는 것입니다. 

Prince 라는 MLX (Ollama같은, 로컬 LLM 돌리는 운영체제)에서 일하는 사람이 이걸 MLX에 직접 구현해서 테스트한 해봤는데, 결과가 아래와 같습니다.

테스트 방식: Qwen3.5-35B-A3B 모델로 Needle-in-a-Haystack 테스트 (8.5K, 32.7K, 64.2K 컨텍스트)
 - 6/6 전부 정답 (모든 양자화 레벨에서)
 - TurboQuant 2.5-bit: KV 캐시 4.9배 축소
 - TurboQuant 3.5-bit: KV 캐시 3.8배 축소
 - 정확도 손실 0 (세상에...)

사실 저도 맥미니 64gb에서 Qwen 27b를 Ollama 통해서 돌리고 있습니다. 정확히는 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled 모델을 돌리고 있었는데, 뭐 그냥 Qwen 쌩으로 돌리는 것보단 distilled 모델이 더 잘나오고 빠릿하긴 했지만 아무래도 속도가 답답했단 말이죠.

계산대로 KV 캐시가 4~5배 줄면 같은 64gb 램에서 컨텍스트 윈도우 32k에서 100k+ 이상급도 나오겠고...지금 운영중인 모델보다 더 큰 모델도 돌릴 수 있겠습니다. 
만약 맥미니에서 로컬 모델 돌리고자 했었거나 돌리고 계신 분들이 계시다면 충분히 주목해볼 만한 내용이겠습니다. 

더 자세한 내용 및 출처

Telegram

【本地LLM專案用戶請注意：Google研究院發布TurboQuant】

AI模型在對話過程中會使用一種叫做「鍵值快取」（KV快取）的東西。簡單來說，它就像一個記事本，AI用它來快速引用之前讀取的內容；然而，隨著對話時間的延長，這個快取會越來越大，最終耗盡GPU記憶體。因此，處理這個快取需要昂貴的GPU。 （這與詞元略有不同。雖然鍵值快取也會隨著詞元增長，但它是臨時數據，只在記憶體中短暫存在，並在會話重啟後消失。）

TurboQuant是一種壓縮演算法，它可以將這個記事本的大小減少六倍以上，同時保持零精度損失。此外，它的速度也提升了八倍。這代表著效率的巨大提升。

過去曾有許多嘗試，但無論壓縮程度如何，都需要額外的記憶體（開銷），這給實現帶來了巨大的挑戰。然而，TurboQuant 的創新之處在於，它透過數學技巧（將向量轉換為極座標 + 1 位元錯誤檢查）消除了額外的記憶體佔用。

因此，結論如下：

- 在同一 GPU 上可以進行更長的對話

- AI 服務的運作成本降低

- 本地模型可以使用更大的上下文窗口

以上是結果。

一位名叫 Prince 的 MLX（一個用於運行類似 Ollama 的本地 LLM 的作業系統）員工直接在 MLX 上實現了這一功能並進行了測試，結果如下。

測試方法：使用 Qwen3.5-35B-A3B 模型進行「大海撈針」測試（8.5K、32.7K、64.2K 個情境）

- 6 個答案全部正確（所有量化等級）

- TurboQuant 2.5 位元：鍵值快取減少 4.9 倍

- TurboQuant 3.5 位元：鍵值快取減少 3.8 倍

- 準確率無損失（難以置信…）

實際上，我還在一台 64GB 的 Mac Mini 上透過 Ollama 運行了 Qwen 27b。準確來說，我運行的是 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled 模型。雖然精簡後的模型表現更好，反應速度也比直接運行 Qwen 更快，但速度仍然慢得令人沮喪。

如果按照計算結果，KV快取減少4到5倍，那麼在相同的64GB記憶體下，效能有望超過10萬+，上下文視窗也將從32KB提升……甚至有可能運行比目前模型更大的模型。

如果您計劃在Mac Mini上運行本地模型，或者目前正在這樣做，那麼這無疑是一個值得關注的消息。

更多詳情和來源

加密貨幣市場正處於十字路口，準備迎接未來的發展。鑑於金融環境持續動盪，比特幣（$ BTC）已達到至關重要的階段……

比特幣價格停滯預示著突破 71,000 美元阻力位後波動性將大幅擴大

2026 年 2 月，穩定幣月交易量達到 7.2 萬億鎂，次超越了自動清算系統 (ACH) 網絡的 6.8 萬億鎂。
ACH是一種對外支付系統……

穩定幣的資金量流動量超過了美國核心金融體系。

來源：新智元
就在剛剛，AI圈發生了一場足以載入史冊的「閉關鎖國」事件。
Anthropic已正式禁止使用自家套餐接入OpenClaw！！！
Claude Code之父Boris Cherny宣佈：
從美國東部時間4月4日下午3點（北京時間4月5日凌晨3點）開始，Claude封殺全部第三方工具，只能使用額外套餐或API使用這些工具。
[OpenClaw]
這意味著，成千上萬依賴OpenClaw提升...