【本地LLM專案用戶請注意:Google研究院發布TurboQuant】 AI模型在對話過程中會使用一種叫做「鍵值快取」(KV快取)的東西。簡單來說,它就像一個記事本,AI用它來快速引用之前讀取的內容;然而,隨著對話時間的延長,這個快取會越來越大,最終耗盡GPU記憶體。因此,處理這個快取需要昂貴的GPU。 (這與詞元略有不同。雖然鍵值快取也會隨著詞元增長,但它是臨時數據,只在記憶體中短暫存在,並在會話重啟後消失。) TurboQuant是一種壓縮演算法,它可以將這個記事本的大小減少六倍以上,同時保持零精度損失。此外,它的速度也提升了八倍。這代表著效率的巨大提升。 過去曾有許多嘗試,但無論壓縮程度如何,都需要額外的記憶體(開銷),這給實現帶來了巨大的挑戰。然而,TurboQuant 的創新之處在於,它透過數學技巧(將向量轉換為極座標 + 1 位元錯誤檢查)消除了額外的記憶體佔用。 因此,結論如下: - 在同一 GPU 上可以進行更長的對話 - AI 服務的運作成本降低 - 本地模型可以使用更大的上下文窗口 以上是結果。 一位名叫 Prince 的 MLX(一個用於運行類似 Ollama 的本地 LLM 的作業系統)員工直接在 MLX 上實現了這一功能並進行了測試,結果如下。 測試方法:使用 Qwen3.5-35B-A3B 模型進行「大海撈針」測試(8.5K、32.7K、64.2K 個情境) - 6 個答案全部正確(所有量化等級) - TurboQuant 2.5 位元:鍵值快取減少 4.9 倍 - TurboQuant 3.5 位元:鍵值快取減少 3.8 倍 - 準確率無損失(難以置信…) 實際上,我還在一台 64GB 的 Mac Mini 上透過 Ollama 運行了 Qwen 27b。準確來說,我運行的是 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled 模型。雖然精簡後的模型表現更好,反應速度也比直接運行 Qwen 更快,但速度仍然慢得令人沮喪。 如果按照計算結果,KV快取減少4到5倍,那麼在相同的64GB記憶體下,效能有望超過10萬+,上下文視窗也將從32KB提升……甚至有可能運行比目前模型更大的模型。 如果您計劃在Mac Mini上運行本地模型,或者目前正在這樣做,那麼這無疑是一個值得關注的消息。 更多詳情和來源
本文為機器翻譯
展示原文

Telegram
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論
分享


