谷歌研究院周三发布了TurboQuant ,这是一种压缩演算法,可以在保持准确性零损失的情况下,将主要的推理记忆体瓶颈缩小至少 6 倍。
该论文计划在 ICLR 2026 上发表,并立即在网路上引起了反响。
Cloudflare执行长马修‧普林斯称之为Google的「DeepSeek时刻」 。包括美光、西部数据和希捷在内的记忆体产业股票价格当天均出现下跌。
量化效率本身就是一项巨大的成就。但「零精度损失」需要结合具体情况来看。
TurboQuant 的目标是 KV 快取——GPU 记忆体的一部分,用于储存语言模型在对话过程中需要记住的所有内容。
随著上下文视窗成长到数百万个令牌,每个会话的快取也会膨胀到数百GB。这才是真正的瓶颈所在,不是运算能力,而是原始记忆体。
传统的压缩方法试图透过向下取整来缩小快取——例如,将 32 位元浮点数向下取整到 16 位,再向下取整到 8 位,最后向下取整到 4 位整数。为了更好地理解这一点,可以想像一下将一张 4K 影像缩小到全高清,再缩小到 720p 等等。很容易看出整体影像是一样的,但 4K 解析度包含更多细节。
但问题在于:为了防止模型故障,他们必须在压缩资料旁边储存额外的「量化常数」。这些常数会为每个值增加 1 到 2 位,从而部分抵消压缩带来的优势。
TurboQuant 声称它可以完全消除这种开销。
它透过两个子演算法来实现这一点。 PolarQuant 将向量的大小与方向分离,而 QJL(量化 Johnson-Lindenstrauss) 将剩余的微小残余误差简化为单一符号位(正或负),储存的常数为零。
谷歌表示,其结果是为驱动 Transformer 模型的注意力计算提供了一个数学上无偏的估计器。
在使用 Gemma 和 Mistral 的基准测试中,TurboQuant 在 4 倍压缩下达到了全精度性能,包括在高达 104,000 个标记的大海捞针任务中实现了完美的检索精度。
为了说明这些基准测试的重要性,我们需要了解,在不损失品质的情况下扩展模型的可用上下文一直是 LLM 部署中最困难的问题之一。
现在,来看细则。
「零精度损失」指的是推理过程中键值快取压缩,而不是模型权重压缩。权重压缩是一个完全不同且更复杂的问题,TurboQuant 并不涉及权重压缩。
它压缩的是储存会话中注意力计算的临时内存,这种内存容错性更高,因为理论上这些数据可以重建。
此外,干净的基准测试与处理数十亿次请求的生产系统之间也存在差距。 TurboQuant 是在开源模型(Gemma、Mistral、Llama)上进行测试的,而不是在大规模的 Google 自家Gemini堆叠上进行测试的。
与DeepSeek 需要从一开始就进行深度架构设计才能实现的效率提升不同,TurboQuant 无需重新训练或微调,并且声称运行时开销可以忽略不计。理论上,它可以直接整合到现有的推理流程中。
正是这一点让记忆体硬体产业感到恐慌——因为如果它在生产环境中有效,那么每个主要的 AI 实验室都可以在他们已经拥有的相同 GPU 上运行得更加精简。
这篇论文将提交给 ICLR 2026。在投入生产之前,「零损失」这个概念还停留在实验室阶段。




