Bài viết này được dịch máy
Xem bản gốc

[Lưu ý nếu bạn đang sử dụng LLM cục bộ: Google Research công bố TurboQuant] Các mô hình AI sử dụng thứ gọi là "bộ nhớ đệm KV" khi hội thoại. Nói một cách đơn giản, đó là một cuốn sổ tay được AI sử dụng để nhanh chóng tham chiếu nội dung đã đọc trước đó; tuy nhiên, khi cuộc hội thoại dài hơn, bộ nhớ đệm này sẽ lớn dần và tiêu thụ toàn bộ bộ nhớ GPU. Do đó, việc xử lý điều này đòi hỏi một GPU đắt tiền. (Điều này hơi khác so với token. Mặc dù nó tăng lên cùng với token, nhưng nó là dữ liệu tạm thời chỉ tồn tại trong thời gian ngắn trong bộ nhớ và biến mất khi phiên khởi động lại.) TurboQuant là một thuật toán nén giúp giảm kích thước cuốn sổ tay này hơn sáu lần mà vẫn duy trì độ chính xác bằng không. Ngoài ra, nó còn tăng tốc độ lên đến tám lần. Điều này thể hiện sự cải thiện đáng kể về hiệu quả. Đã có nhiều nỗ lực trong quá khứ, nhưng bất kể mức độ nén được thực hiện như thế nào, đều cần thêm bộ nhớ (chi phí phụ), điều này gây ra những thách thức đáng kể cho việc triển khai. Tuy nhiên, TurboQuant mang tính đột phá ở chỗ nó tự loại bỏ bộ nhớ bổ sung đó thông qua các thủ thuật toán học (chuyển đổi vectơ sang tọa độ cực + kiểm tra lỗi 1 bit). Do đó, kết luận là: - Các cuộc hội thoại dài hơn có thể thực hiện được trên cùng một GPU - Chi phí vận hành dịch vụ AI được giảm - Có thể sử dụng cửa sổ ngữ cảnh lớn hơn trong các mô hình cục bộ Đây là kết quả. Một người tên Prince, làm việc tại MLX (một hệ điều hành để chạy các mô hình LLM cục bộ như Ollama), đã trực tiếp triển khai điều này trên MLX và thử nghiệm, và kết quả như sau. Phương pháp kiểm tra: Kiểm tra "tìm kim trong đống rơm" với mô hình Qwen3.5-35B-A3B (8.5K, 32.7K, 64.2K ngữ cảnh) - 6/6 câu trả lời đúng (ở tất cả các mức lượng tử hóa) - TurboQuant 2.5-bit: Bộ nhớ cache KV giảm 4.9 lần - TurboQuant 3.5-bit: Bộ nhớ cache KV giảm 3.8 lần - Không mất độ chính xác (Thật không thể tin được...) Thực tế, tôi cũng đang chạy Qwen 27b trên Mac Mini 64GB thông qua Ollama. Cụ thể hơn, tôi đang chạy mô hình Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled. Mặc dù mô hình được tinh chế hoạt động tốt hơn và nhanh hơn so với chạy Qwen thô, tốc độ vẫn chậm đến mức khó chịu. Nếu bộ nhớ cache KV giảm từ 4 đến 5 lần như tính toán, chúng ta có thể thấy hiệu năng vượt quá 100k+ trên cùng 64GB RAM, chuyển từ cửa sổ ngữ cảnh 32k... và có khả năng chạy các mô hình lớn hơn mô hình hiện đang hoạt động. Nếu bạn đang có kế hoạch chạy các mô hình cục bộ trên Mac Mini, hoặc hiện đang làm như vậy, đây chắc chắn là tin đáng chú ý. Thêm chi tiết và nguồn tham khảo

Telegram
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận