Tether 的開源 TurboQuant 版本壓縮了 AI 在長時間會話期間所需的內存,使筆記本電腦、手機、邊緣設備和去中心化網絡能夠處理更大的文檔、更長的對話、代碼庫和個人 AI 助手,而無需將所有數據發送到雲端。
2026年6月1日——Tether人工智能研究團隊今日宣佈正式發佈其開源實現的TurboQuant產品。TurboQuant是谷歌研究院開發的內存壓縮算法,因其能夠顯著減少大型AI模型運行所需的內存,而被硅谷譽為“魔笛手”。Tether歌憑藉TurboQuant在研究領域取得了突破性進展。Tether則通過其開源的本地/邊緣AI引擎QVAC Fabric將其應用於生產環境。QVAC Fabric最初只是一個llama.cpp程序,如今已融合多項突破性技術,進一步拓展了本地設備端智能的邊界。
此次發佈將 TurboQuant 從一篇論文轉變為開源軟件,開發者可以在筆記本電腦、消費級 GPU、移動芯片、邊緣設備和去中心化推理網絡中使用、測試和適配這些軟件。它包含完整的量化流程、適用於常用推理框架的適配器、開發者文檔以及專為超大規模數據中心之外的實際部署而設計的工作負載優化配置文件。這一改變意義重大,因為內存是導致許多有用的 AI 任務仍然被推向雲端的主要原因之一。
當用戶使用人工智能助手時,模型不僅需要內存來加載,還需要工作內存來記住它已經處理過的對話、文檔、代碼庫或指令。這部分工作內存被稱為鍵值緩存(KV緩存),它會隨著會話時間的延長而增長。簡短的提示信息可能很容易處理,但一份完整的合同、一份財務文件、一份研究報告、一本書、一個代碼庫,或者幾個小時的對話,都可能超出大多數筆記本電腦、手機和消費級GPU的內存需求。
大約 26.2 萬個詞元(相當於幾個小時的對話或幾百頁文本)的規模,對於一個 4B 級模型來說,其鍵值緩存本身就需要大約 8GB 的內存。四個如此規模的會話,僅緩存本身就會佔用大約 32GB 的內存,這還不包括加載模型本身所需的內存。這就是為什麼許多 AI 應用仍然依賴遠程數據中心,即使用戶更希望將工作保留在本地的原因。
TurboQuant 改變了這種局面,它將鍵值緩存壓縮高達 5 倍,同時保持與未壓縮模型相近的輸出質量。實際上,這意味著本地 AI 可以在用戶現有硬件上處理更長的對話、更大的文件、更豐富的上下文信息以及更繁重的工作負載。
對用戶而言,這意味著可以要求筆記本電腦上的AI助手閱讀並分析一份百頁的法律文件,而無需將整個文件上傳到雲端。這意味著學生可以使用設備端的輔導工具,該工具可以保留整個學習過程,而不會在幾條信息後就丟失上下文。這意味著開發者可以運行本地代碼助手,該助手能夠一次性理解更多代碼。這意味著記者、醫生、研究人員或小型企業主可以使用AI處理敏感文件,同時將更多工作保留在設備上。
對於開發者和初創公司而言,這意味著無需依賴昂貴的GPU集群即可構建更大型的AI產品。團隊不再需要圍繞較短的上下文窗口、嚴格的內存限制或僅限雲部署進行設計,而是可以使用TurboQuant來支持更長的會話、更大的工作負載,以及在消費級硬件、邊緣設備和點對點網絡中更靈活的部署。
“谷歌的研究表明,人工智能內存的壓縮效率遠超大多數人的想象。我們的工作將這一突破性成果應用於實際生產軟件,供開發者、初創公司和用戶使用,” Tether首席執行官 Paolo Ardoino 表示。 “如果長上下文人工智能只能在最大的數據中心內部運行,那麼人工智能的發展將由擁有最多硬件資源的人主導。TurboQuant 通過降低內存限制,改變了本地人工智能的運行方式。”
他補充道: “人們應該能夠讓AI助手閱讀長篇文檔、記住項目、協助編寫代碼或處理私人信息,而無需每項任務都通過遠程數據中心完成。TurboQuant投入生產環境正是實現這一點的關鍵。它賦予本地AI更大的內存、更豐富的上下文信息,使其在日常生活中發揮更大的作用。”
Tether 的實現方案旨在應對生產級 AI 經常遇到的限制:設備內存受限、硬件混雜、會話時間長、延遲壓力大以及部署在集中式雲基礎設施之外等情況。開源版本無需團隊自行重建研究,而是為 AI 開發者社區提供了一個共享的基礎,用於在不同系統上測試、改進和調整 TurboQuant。
TurboQuant 將包含在 QVAC SDK 0.12.0 中,使其能夠直接通過 Fabric(該技術棧的核心構建模塊之一)使用。QVAC SDK 是 Tether AI 生態系統中開發者的推薦集成路徑。同時,該 SDK 還整合了構建跨設備和環境的本地 AI 應用所需的全部 QVAC 工具、庫和運行時組件。
此次發佈也推進了 Tether 更廣泛的人工智能戰略。該公司正致力於構建能夠更貼近用戶、在個人設備、本地網絡和去中心化基礎設施上運行的人工智能,而非僅僅依賴集中式 API 和超大規模數據中心。強大的計算能力固然重要,但Tether認為,人工智能的下一階段也將取決於軟件的效率、可移植性以及在用戶實際使用場景下運行強大模型的能力。






