Phiên bản TurboQuant mã nguồn mở của Tether giúp nén bộ nhớ mà AI cần trong các phiên làm việc dài, cho phép máy tính xách tay, điện thoại, thiết bị biên và mạng lưới phi tập trung xử lý các tài liệu lớn hơn, các cuộc hội thoại dài hơn, mã nguồn và trợ lý AI cá nhân mà không cần gửi mọi thứ lên đám mây.
Ngày 1 tháng 6 năm 2026 – Nhóm Nghiên cứu AI của Tether hôm nay đã công bố phát hành phiên bản mã nguồn mở của TurboQuant, thuật toán nén bộ nhớ của Google Research, được ví như “Người thổi sáo thần kỳ” ở Thung lũng Silicon nhờ khả năng giảm đáng kể lượng bộ nhớ mà các mô hình AI lớn cần để hoạt động. Với TurboQuant, Google đã tạo ra một bước đột phá trong nghiên cứu. Tether đang hiện thực hóa nó trong sản xuất với công cụ AI cục bộ/biên mã nguồn mở QVAC Fabric, ban đầu chỉ là một tệp llama.cpp, nay Fabric đã tích hợp nhiều đột phá giúp mở rộng giới hạn của trí thông minh cục bộ trên thiết bị.
Bản phát hành này biến TurboQuant từ một bài báo thành phần mềm mã nguồn mở mà các nhà phát triển có thể sử dụng, thử nghiệm và điều chỉnh trên máy tính xách tay, GPU dành cho người tiêu dùng, chip di động, thiết bị biên và mạng suy luận phi tập trung. Nó bao gồm một quy trình lượng tử hóa hoàn chỉnh, bộ điều hợp cho các khung suy luận phổ biến, tài liệu dành cho nhà phát triển và các cấu hình được tinh chỉnh theo khối lượng công việc được thiết kế để triển khai thực tế bên ngoài các trung tâm dữ liệu siêu quy mô. Sự thay đổi này rất quan trọng vì bộ nhớ là một trong những lý do lớn nhất khiến các tác vụ AI hữu ích vẫn bị đẩy lên đám mây.
Khi ai đó sử dụng trợ lý AI, mô hình không chỉ cần bộ nhớ để tải mà còn cần bộ nhớ làm việc để ghi nhớ cuộc hội thoại, tài liệu, mã nguồn hoặc hướng dẫn mà nó đã thấy. Bộ nhớ làm việc đó được gọi là bộ nhớ đệm KV, và nó sẽ tăng lên khi phiên làm việc kéo dài. Một lời nhắc Short có thể dễ dàng xử lý. Một hợp đồng đầy đủ, hồ sơ tài chính, báo cáo nghiên cứu, sách, kho mã nguồn hoặc vài giờ hội thoại có thể đẩy yêu cầu bộ nhớ vượt quá khả năng hỗ trợ của hầu hết các máy tính xách tay, điện thoại và GPU dành cho người tiêu dùng.
Với khoảng 262.000 token, tương đương với vài giờ hội thoại hoặc vài trăm trang văn bản, bộ nhớ đệm KV cho mô hình 4B có thể sử dụng khoảng 8 GB bộ nhớ. Bốn phiên làm việc với quy mô đó có thể đẩy bộ nhớ đệm lên khoảng 32 GB, chưa kể đến bộ nhớ cần thiết để tải mô hình. Đó là lý do tại sao nhiều trải nghiệm AI vẫn dựa vào các trung tâm dữ liệu từ xa, ngay cả khi người dùng muốn giữ công việc của họ ở cục bộ.
TurboQuant thay đổi điều đó bằng cách nén bộ nhớ cache KV lên đến 5 lần trong khi vẫn duy trì chất lượng đầu ra gần với mô hình không nén. Trên thực tế, điều này có nghĩa là AI cục bộ có thể xử lý các cuộc hội thoại dài hơn, các tệp lớn hơn, nhiều ngữ cảnh hơn và khối lượng công việc nặng hơn trên phần cứng mà người dùng đã sở hữu.
Đối với người dùng, điều này có nghĩa là yêu cầu trợ lý AI trên máy tính xách tay đọc và phân tích một tài liệu pháp lý dài hàng trăm trang mà không cần tải toàn bộ tệp lên nhà cung cấp dịch vụ đám mây. Điều này có nghĩa là một sinh viên sử dụng gia sư trên thiết bị có thể lưu giữ toàn bộ buổi học thay vì bị mất ngữ cảnh sau vài tin nhắn. Điều này có nghĩa là một nhà phát triển đang chạy trợ lý lập trình cục bộ có thể hiểu được nhiều mã nguồn hơn cùng một lúc. Điều này có nghĩa là một nhà báo, bác sĩ, nhà nghiên cứu hoặc chủ doanh nghiệp nhỏ có thể sử dụng AI trên các tệp nhạy cảm trong khi vẫn giữ được nhiều công việc hơn trên thiết bị.
Đối với các nhà phát triển và các công ty khởi nghiệp, điều này có nghĩa là các sản phẩm AI quy mô lớn hơn có thể được xây dựng mà không cần phải có quyền truy cập vào các cụm GPU đắt tiền. Thay vì thiết kế dựa trên các cửa sổ ngữ cảnh Short , giới hạn bộ nhớ nghiêm ngặt hoặc chỉ triển khai trên đám mây, các nhóm có thể sử dụng TurboQuant để hỗ trợ các phiên dài hơn, khối lượng công việc lớn hơn và triển khai linh hoạt hơn trên phần cứng người dùng cuối, thiết bị biên và mạng ngang hàng.
“Nghiên cứu của Google cho thấy bộ nhớ AI có thể được nén hiệu quả hơn nhiều so với hầu hết mọi người vẫn nghĩ. Công trình của chúng tôi đưa bước đột phá đó vào phần mềm sản xuất mà các nhà phát triển, công ty khởi nghiệp và người dùng thực sự có thể sử dụng,” Paolo Ardoino, Giám đốc điều hành của Tether cho biết. “Nếu AI ngữ cảnh dài chỉ hoạt động bên trong các trung tâm dữ liệu lớn nhất, thì AI sẽ bị định hình bởi người sở hữu nhiều phần cứng nhất. TurboQuant thay đổi những gì AI cục bộ có thể làm bằng cách làm cho bộ nhớ không còn là rào cản nữa.”
“Mọi người nên có thể yêu cầu trợ lý AI đọc một tài liệu dài, ghi nhớ một dự án, hỗ trợ lập trình hoặc xử lý thông tin riêng tư mà không cần mọi tác vụ phải được thực hiện thông qua trung tâm dữ liệu từ xa,” ông nói thêm. “Đây chính là điều mà việc đưa TurboQuant vào sản xuất mang lại. Nó cung cấp cho AI cục bộ nhiều bộ nhớ hơn, nhiều ngữ cảnh hơn và nhiều không gian hơn để trở nên hữu ích trong cuộc sống hàng ngày.”
Việc triển khai của Tether được thiết kế cho các môi trường mà AI trong sản xuất thường gặp phải những hạn chế: bộ nhớ thiết bị hạn chế, phần cứng hỗn hợp, phiên làm việc dài, áp lực về độ trễ và triển khai bên ngoài cơ sở hạ tầng đám mây tập trung. Thay vì yêu cầu các nhóm phải tự xây dựng lại nghiên cứu, bản phát hành mã nguồn mở cung cấp cho cộng đồng nhà phát triển AI một nền tảng chung để thử nghiệm, cải thiện và điều chỉnh TurboQuant trên các hệ thống khác nhau.
TurboQuant sẽ được tích hợp vào QVAC SDK 0.12.0, cho phép sử dụng trực tiếp thông qua Fabric, một trong những khối xây dựng cốt lõi trong hệ sinh thái này. QVAC SDK là lộ trình tích hợp được khuyến nghị cho các nhà phát triển xây dựng trong hệ sinh thái AI của Tether. Đồng thời, SDK này tập hợp đầy đủ các công cụ, thư viện và thành phần thời gian chạy của QVAC cần thiết để xây dựng các ứng dụng AI cục bộ trên nhiều thiết bị và môi trường khác nhau.
Việc ra mắt sản phẩm này cũng thúc đẩy chiến lược AI rộng lớn hơn của Tether. Công ty đang hướng tới việc xây dựng AI có thể hoạt động gần gũi hơn với người dùng, trên các thiết bị cá nhân, mạng cục bộ và cơ sở hạ tầng phi tập trung, thay vì chỉ dựa vào các API tập trung và trung tâm dữ liệu siêu lớn. Khả năng tính toán quy mô lớn vẫn sẽ rất quan trọng, nhưng Tether tin rằng giai đoạn tiếp theo của AI cũng sẽ được định hình bởi hiệu quả phần mềm, tính di động và khả năng chạy các mô hình mạnh mẽ ở những nơi mà người dùng thực sự sử dụng chúng.






