avatar
웹3 솔라나 광기 연구실
關注
動態
avatar
웹3 솔라나 광기 연구실
03-25
【本地LLM專案用戶請注意:Google研究院發布TurboQuant】 AI模型在對話過程中會使用一種叫做「鍵值快取」(KV快取)的東西。簡單來說,它就像一個記事本,AI用它來快速引用之前讀取的內容;然而,隨著對話時間的延長,這個快取會越來越大,最終耗盡GPU記憶體。因此,處理這個快取需要昂貴的GPU。 (這與詞元略有不同。雖然鍵值快取也會隨著詞元增長,但它是臨時數據,只在記憶體中短暫存在,並在會話重啟後消失。) TurboQuant是一種壓縮演算法,它可以將這個記事本的大小減少六倍以上,同時保持零精度損失。此外,它的速度也提升了八倍。這代表著效率的巨大提升。 過去曾有許多嘗試,但無論壓縮程度如何,都需要額外的記憶體(開銷),這給實現帶來了巨大的挑戰。然而,TurboQuant 的創新之處在於,它透過數學技巧(將向量轉換為極座標 + 1 位元錯誤檢查)消除了額外的記憶體佔用。 因此,結論如下: - 在同一 GPU 上可以進行更長的對話 - AI 服務的運作成本降低 - 本地模型可以使用更大的上下文窗口 以上是結果。 一位名叫 Prince 的 MLX(一個用於運行類似 Ollama 的本地 LLM 的作業系統)員工直接在 MLX 上實現了這一功能並進行了測試,結果如下。 測試方法:使用 Qwen3.5-35B-A3B 模型進行「大海撈針」測試(8.5K、32.7K、64.2K 個情境) - 6 個答案全部正確(所有量化等級) - TurboQuant 2.5 位元:鍵值快取減少 4.9 倍 - TurboQuant 3.5 位元:鍵值快取減少 3.8 倍 - 準確率無損失(難以置信…) 實際上,我還在一台 64GB 的 Mac Mini 上透過 Ollama 運行了 Qwen 27b。準確來說,我運行的是 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled 模型。雖然精簡後的模型表現更好,反應速度也比直接運行 Qwen 更快,但速度仍然慢得令人沮喪。 如果按照計算結果,KV快取減少4到5倍,那麼在相同的64GB記憶體下,效能有望超過10萬+,上下文視窗也將從32KB提升……甚至有可能運行比目前模型更大的模型。 如果您計劃在Mac Mini上運行本地模型,或者目前正在這樣做,那麼這無疑是一個值得關注的消息。 更多詳情和來源
OPUS
1.1%
avatar
웹3 솔라나 광기 연구실
03-15
很多人不知道的事實是:用韓語與人工智能對話的成本要高出 50% 到 70%。 在英語中,一個單詞大致對應一個詞元(token)。例如,“Hello”是一個詞元,“artificial intelligence”是兩個詞元。然而,韓語的情況略有不同。“안녕하세요”(你好)會被拆分成 2 到 3 個詞元。由於韓語的結構是組合式的,因此其結構設計上比英語需要使用更多的詞元。用韓語編寫相同的內容,所需的詞元數量大約是英語的 1.52 倍。 由於 API 的成本與詞元數量成正比,因此,對於相同的內容,用韓語編寫的成本要高出驚人的 50% 到 70%。此外,如果您也收到人工智能的韓語回覆,那麼輸出詞元的成本同樣會高出 50% 到 70%。 關於這一點,有人提到還有其他研究結果(arxiv.org/pdf/2507.00246), 這項研究只測試了數學,甚至完全排除了我們常用的模型,例如 GPT 和 Claude。這些模型基於英語接收 RLHF,因此結果可能有所不同。該研究中使用的模型是 DeepSeek R1、Qwen 2.5 和 Qwen 3,它們都是源自中國的語言學習模型…… 此外,“減少詞元數量 = 效率”的前提也存在一些問題。即使用韓語思考可以減少詞元數量,但一個韓語詞元的成本(字節數、處理成本)仍然高於一個英語詞元。 所以,總而言之,如果你經常使用 AI 並且總是達到速率限制,我建議你暫時用英語交流,把它當作一種英語練習方式,哈哈。
GPT
0%
loading indicator
Loading..