Hôm thứ Tư, Google Research đã công bố TurboQuant , một thuật toán nén giúp thu nhỏ nút thắt cổ chai lớn về bộ nhớ trong quá trình suy luận ít nhất 6 lần mà vẫn duy trì độ chính xác bằng không.
Bài báo dự kiến sẽ được trình bày tại hội nghị ICLR 2026, và phản ứng trên mạng đã diễn ra ngay lập tức.
CEO của Cloudflare, Matthew Prince, gọi đó là khoảnh khắc DeepSeek của Google . Giá cổ phiếu các công ty sản xuất bộ nhớ, bao gồm Micron, Western Digital và Seagate, đều giảm trong cùng ngày.
Hiệu quả lượng tử hóa tự nó đã là một thành tựu lớn. Nhưng "mất độ chính xác bằng không" cần được đặt trong bối cảnh cụ thể.
TurboQuant nhắm mục tiêu vào bộ nhớ cache KV — phần bộ nhớ GPU lưu trữ mọi thứ mà mô hình ngôn ngữ cần ghi nhớ trong suốt cuộc hội thoại.
Khi số lượng cửa sổ ngữ cảnh tăng lên đến hàng triệu token, bộ nhớ đệm sẽ phình to lên đến hàng trăm gigabyte mỗi phiên. Đó mới là nút thắt cổ chai thực sự. Không phải sức mạnh tính toán mà là bộ nhớ thô .
Các phương pháp nén truyền thống cố gắng thu nhỏ bộ nhớ đệm bằng cách làm tròn số xuống—ví dụ, từ số thực 32 Bit xuống 16 bit, từ 8 bit xuống số nguyên 4 Bit . Để dễ hiểu hơn, hãy tưởng tượng việc thu nhỏ một hình ảnh từ 4K xuống Full HD, rồi xuống 720p, v.v. Dễ dàng nhận ra đó vẫn là cùng một hình ảnh tổng thể, nhưng độ phân giải 4K có nhiều chi tiết hơn.
Vấn đề nằm ở chỗ: họ phải lưu trữ thêm các "hằng số lượng tử hóa" cùng với dữ liệu đã nén để tránh cho mô hình hoạt động sai. Các hằng số này thêm từ 1 đến 2 Bits cho mỗi giá trị, làm giảm một phần hiệu quả đạt được.
TurboQuant khẳng định họ loại bỏ hoàn toàn chi phí phát sinh đó.
Nó thực hiện điều này thông qua hai thuật toán con. PolarQuant tách độ lớn khỏi hướng trong các vectơ, và QJL (Quantized Johnson-Lindenstrauss) lấy sai số dư nhỏ còn lại và giảm nó xuống thành một Bit dấu duy nhất, dương hoặc âm, với không có hằng số nào được lưu trữ.
Theo Google, kết quả là một công cụ ước lượng không thiên vị về mặt toán học cho các phép tính chú ý thúc đẩy các mô hình Transformer.
Trong các bài kiểm tra hiệu năng sử dụng Gemma và Mistral, TurboQuant đạt hiệu năng tương đương với độ chính xác đầy đủ khi nén 4x, bao gồm độ chính xác truy xuất hoàn hảo trong các tác vụ tìm kim trong đống rơm với số lượng token lên đến 104.000.
Để hiểu rõ hơn lý do tại sao các tiêu chuẩn đó lại quan trọng, việc mở rộng ngữ cảnh sử dụng được của mô hình mà không làm giảm chất lượng là một trong những vấn đề khó khăn nhất trong việc triển khai LLM.
Giờ đến phần chi tiết.
"Không mất độ chính xác" áp dụng cho việc nén bộ nhớ cache KV trong quá trình suy luận—chứ không phải cho trọng số của mô hình. Nén trọng số là một vấn đề hoàn toàn khác, khó hơn. TurboQuant không can thiệp vào việc đó.
Nó nén bộ nhớ tạm thời lưu trữ các phép tính chú ý giữa phiên, điều này giúp việc xử lý dữ liệu dễ dàng hơn vì về mặt lý thuyết, dữ liệu đó có thể được khôi phục.
Ngoài ra còn có khoảng cách giữa một bài kiểm tra hiệu năng đơn giản và một hệ thống sản xuất xử lý hàng tỷ yêu cầu. TurboQuant được thử nghiệm trên các mô hình mã nguồn mở—Gemma, Mistral, Llama—chứ không phải trên hệ thống Gemini của chính Google ở quy mô lớn.
Không giống như những cải tiến về hiệu quả của DeepSeek , vốn đòi hỏi những quyết định kiến trúc chuyên sâu ngay từ đầu, TurboQuant không yêu cầu huấn luyện lại hay tinh chỉnh và tuyên bố có chi phí vận hành không đáng kể. Về lý thuyết, nó có thể tích hợp trực tiếp vào các quy trình suy luận hiện có.
Đó là điều khiến ngành công nghiệp phần cứng bộ nhớ lo ngại — bởi vì nếu nó hoạt động trong môi trường sản xuất, mọi phòng thí nghiệm AI lớn đều vận hành hiệu quả hơn với cùng các GPU mà họ đã sở hữu.
Bài báo này sẽ được trình bày tại ICLR 2026. Cho đến khi được đưa vào sản xuất hàng loạt, tiêu đề "không tổn thất" vẫn chỉ nằm trong phòng thí nghiệm.



