Tether 的开源 TurboQuant 版本压缩了 AI 在长时间会话期间所需的内存,使笔记本电脑、手机、边缘设备和去中心化网络能够处理更大的文档、更长的对话、代码库和个人 AI 助手,而无需将所有数据发送到云端。
2026年6月1日——Tether人工智能研究团队今日宣布正式发布其开源实现的TurboQuant产品。TurboQuant是谷歌研究院开发的内存压缩算法,因其能够显著减少大型AI模型运行所需的内存,而被硅谷誉为“魔笛手”。Tether歌凭借TurboQuant在研究领域取得了突破性进展。Tether则通过其开源的本地/边缘AI引擎QVAC Fabric将其应用于生产环境。QVAC Fabric最初只是一个llama.cpp程序,如今已融合多项突破性技术,进一步拓展了本地设备端智能的边界。
此次发布将 TurboQuant 从一篇论文转变为开源软件,开发者可以在笔记本电脑、消费级 GPU、移动芯片、边缘设备和去中心化推理网络中使用、测试和适配这些软件。它包含完整的量化流程、适用于常用推理框架的适配器、开发者文档以及专为超大规模数据中心之外的实际部署而设计的工作负载优化配置文件。这一改变意义重大,因为内存是导致许多有用的 AI 任务仍然被推向云端的主要原因之一。
当用户使用人工智能助手时,模型不仅需要内存来加载,还需要工作内存来记住它已经处理过的对话、文档、代码库或指令。这部分工作内存被称为键值缓存(KV缓存),它会随着会话时间的延长而增长。简短的提示信息可能很容易处理,但一份完整的合同、一份财务文件、一份研究报告、一本书、一个代码库,或者几个小时的对话,都可能超出大多数笔记本电脑、手机和消费级GPU的内存需求。
大约 26.2 万个词元(相当于几个小时的对话或几百页文本)的规模,对于一个 4B 级模型来说,其键值缓存本身就需要大约 8GB 的内存。四个如此规模的会话,仅缓存本身就会占用大约 32GB 的内存,这还不包括加载模型本身所需的内存。这就是为什么许多 AI 应用仍然依赖远程数据中心,即使用户更希望将工作保留在本地的原因。
TurboQuant 改变了这种局面,它将键值缓存压缩高达 5 倍,同时保持与未压缩模型相近的输出质量。实际上,这意味着本地 AI 可以在用户现有硬件上处理更长的对话、更大的文件、更丰富的上下文信息以及更繁重的工作负载。
对用户而言,这意味着可以要求笔记本电脑上的AI助手阅读并分析一份百页的法律文件,而无需将整个文件上传到云端。这意味着学生可以使用设备端的辅导工具,该工具可以保留整个学习过程,而不会在几条信息后就丢失上下文。这意味着开发者可以运行本地代码助手,该助手能够一次性理解更多代码。这意味着记者、医生、研究人员或小型企业主可以使用AI处理敏感文件,同时将更多工作保留在设备上。
对于开发者和初创公司而言,这意味着无需依赖昂贵的GPU集群即可构建更大型的AI产品。团队不再需要围绕较短的上下文窗口、严格的内存限制或仅限云部署进行设计,而是可以使用TurboQuant来支持更长的会话、更大的工作负载,以及在消费级硬件、边缘设备和点对点网络中更灵活的部署。
“谷歌的研究表明,人工智能内存的压缩效率远超大多数人的想象。我们的工作将这一突破性成果应用于实际生产软件,供开发者、初创公司和用户使用,” Tether首席执行官 Paolo Ardoino 表示。 “如果长上下文人工智能只能在最大的数据中心内部运行,那么人工智能的发展将由拥有最多硬件资源的人主导。TurboQuant 通过降低内存限制,改变了本地人工智能的运行方式。”
他补充道: “人们应该能够让AI助手阅读长篇文档、记住项目、协助编写代码或处理私人信息,而无需每项任务都通过远程数据中心完成。TurboQuant投入生产环境正是实现这一点的关键。它赋予本地AI更大的内存、更丰富的上下文信息,使其在日常生活中发挥更大的作用。”
Tether 的实现方案旨在应对生产级 AI 经常遇到的限制:设备内存受限、硬件混杂、会话时间长、延迟压力大以及部署在集中式云基础设施之外等情况。开源版本无需团队自行重建研究,而是为 AI 开发者社区提供了一个共享的基础,用于在不同系统上测试、改进和调整 TurboQuant。
TurboQuant 将包含在 QVAC SDK 0.12.0 中,使其能够直接通过 Fabric(该技术栈的核心构建模块之一)使用。QVAC SDK 是 Tether AI 生态系统中开发者的推荐集成路径。同时,该 SDK 还整合了构建跨设备和环境的本地 AI 应用所需的全部 QVAC 工具、库和运行时组件。
此次发布也推进了 Tether 更广泛的人工智能战略。该公司正致力于构建能够更贴近用户、在个人设备、本地网络和去中心化基础设施上运行的人工智能,而非仅仅依赖集中式 API 和超大规模数据中心。强大的计算能力固然重要,但Tether认为,人工智能的下一阶段也将取决于软件的效率、可移植性以及在用户实际使用场景下运行强大模型的能力。






