谷歌在不损失准确率的情况下缩小了人工智能内存——但这其中另有隐情

本文为机器翻译

展示原文

谷歌研究院周三发布了TurboQuant ，这是一种压缩演算法，可以在保持准确性零损失的情况下，将主要的推理记忆体瓶颈缩小至少 6 倍。

该论文计划在 ICLR 2026 上发表，并立即在网路上引起了反响。

Cloudflare执行长马修‧普林斯称之为Google的「DeepSeek时刻」。包括美光、西部数据和希捷在内的记忆体产业股票价格当天均出现下跌。

量化效率本身就是一项巨大的成就。但「零精度损失」需要结合具体情况来看。

TurboQuant 的目标是 KV 快取——GPU 记忆体的一部分，用于储存语言模型在对话过程中需要记住的所有内容。

随著上下文视窗成长到数百万个令牌，每个会话的快取也会膨胀到数百GB。这才是真正的瓶颈所在，不是运算能力，而是原始记忆体。

传统的压缩方法试图透过向下取整来缩小快取——例如，将 32 位元浮点数向下取整到 16 位，再向下取整到 8 位，最后向下取整到 4 位整数。为了更好地理解这一点，可以想像一下将一张 4K 影像缩小到全高清，再缩小到 720p 等等。很容易看出整体影像是一样的，但 4K 解析度包含更多细节。

但问题在于：为了防止模型故障，他们必须在压缩资料旁边储存额外的「量化常数」。这些常数会为每个值增加 1 到 2 位，从而部分抵消压缩带来的优势。

TurboQuant 声称它可以完全消除这种开销。

它透过两个子演算法来实现这一点。 PolarQuant 将向量的大小与方向分离，而 QJL（量化 Johnson-Lindenstrauss）将剩余的微小残余误差简化为单一符号位（正或负），储存的常数为零。

谷歌表示，其结果是为驱动 Transformer 模型的注意力计算提供了一个数学上无偏的估计器。

在使用 Gemma 和 Mistral 的基准测试中，TurboQuant 在 4 倍压缩下达到了全精度性能，包括在高达 104,000 个标记的大海捞针任务中实现了完美的检索精度。

为了说明这些基准测试的重要性，我们需要了解，在不损失品质的情况下扩展模型的可用上下文一直是 LLM 部署中最困难的问题之一。

现在，来看细则。

「零精度损失」指的是推理过程中键值快取压缩，而不是模型权重压缩。权重压缩是一个完全不同且更复杂的问题，TurboQuant 并不涉及权重压缩。

它压缩的是储存会话中注意力计算的临时内存，这种内存容错性更高，因为理论上这些数据可以重建。

此外，干净的基准测试与处理数十亿次请求的生产系统之间也存在差距。 TurboQuant 是在开源模型（Gemma、Mistral、Llama）上进行测试的，而不是在大规模的 Google 自家Gemini堆叠上进行测试的。

与DeepSeek 需要从一开始就进行深度架构设计才能实现的效率提升不同，TurboQuant 无需重新训练或微调，并且声称运行时开销可以忽略不计。理论上，它可以直接整合到现有的推理流程中。

正是这一点让记忆体硬体产业感到恐慌——因为如果它在生产环境中有效，那么每个主要的 AI 实验室都可以在他们已经拥有的相同 GPU 上运行得更加精简。

这篇论文将提交给 ICLR 2026。在投入生产之前，「零损失」这个概念还停留在实验室阶段。

来源

免责声明：以上内容仅为作者观点，不代表Followin的任何立场，不构成与Followin相关的任何投资建议。

喜欢