【本地LLM专案用户请注意:Google研究院发布TurboQuant】 AI模型在对话过程中会使用一种叫做「键值快取」(KV快取)的东西。简单来说,它就像一个记事本,AI用它来快速引用之前读取的内容;然而,随著对话时间的延长,这个快取会越来越大,最终耗尽GPU记忆体。因此,处理这个快取需要昂贵的GPU。 (这与词元略有不同。虽然键值快取也会随著词元增长,但它是临时数据,只在记忆体中短暂存在,并在会话重启后消失。) TurboQuant是一种压缩演算法,它可以将这个记事本的大小减少六倍以上,同时保持零精度损失。此外,它的速度也提升了八倍。这代表著效率的巨大提升。 过去曾有许多尝试,但无论压缩程度如何,都需要额外的记忆体(开销),这给实现带来了巨大的挑战。然而,TurboQuant 的创新之处在于,它透过数学技巧(将向量转换为极座标 + 1 位元错误检查)消除了额外的记忆体占用。 因此,结论如下: - 在同一 GPU 上可以进行更长的对话 - AI 服务的运作成本降低 - 本地模型可以使用更大的上下文窗口 以上是结果。 一位名叫 Prince 的 MLX(一个用于运行类似 Ollama 的本地 LLM 的作业系统)员工直接在 MLX 上实现了这一功能并进行了测试,结果如下。 测试方法:使用 Qwen3.5-35B-A3B 模型进行「大海捞针」测试(8.5K、32.7K、64.2K 个情境) - 6 个答案全部正确(所有量化等级) - TurboQuant 2.5 位元:键值快取减少 4.9 倍 - TurboQuant 3.5 位元:键值快取减少 3.8 倍 - 准确率无损失(难以置信…) 实际上,我还在一台 64GB 的 Mac Mini 上透过 Ollama 运行了 Qwen 27b。准确来说,我运行的是 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled 模型。虽然精简后的模型表现更好,反应速度也比直接运行 Qwen 更快,但速度仍然慢得令人沮丧。 如果按照计算结果,KV快取减少4到5倍,那么在相同的64GB记忆体下,效能有望超过10万+,上下文视窗也将从32KB提升……甚至有可能运行比目前模型更大的模型。 如果您计划在Mac Mini上运行本地模型,或者目前正在这样做,那么这无疑是一个值得关注的消息。 更多详情和来源
本文为机器翻译
展示原文

Telegram
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
收藏
评论
分享


