PANews, ngày 18 tháng 2, DeepSeek đội ngũ đã công bố một bài báo kỹ thuật có tựa đề "Chú ý thưa thớt bản địa: Cơ chế chú ý thưa thớt được căn chỉnh phần cứng và có thể được đào tạo bản địa". Họ giới thiệu về cơ chế NSA (Chú ý thưa thớt bản địa) của họ. NSA kết hợp đổi mới thuật toán và tối ưu hóa phần cứng, nhằm đạt được mô hình hóa văn bản dài hiệu quả. Các sáng tạo cốt lõi bao gồm:
1. Chiến lược phân tầng thưa thớt động, kết hợp nén token thô và lựa chọn token tinh, để giữ lại thông tin ngữ cảnh toàn cục và độ chính xác cục bộ;
2. Đáng kể tăng tốc tính toán thông qua thiết kế thuật toán cân bằng cường độ số học và tối ưu hóa phần cứng hiện đại;
3. Hỗ trợ đào tạo end-to-end, giảm chi phí tính toán tiền đào tạo, đồng thời duy trì hiệu suất mô hình.
Kết quả thực nghiệm cho thấy, NSA có hiệu suất vượt trội trong các nhiệm vụ văn bản dài và suy luận chỉ dẫn, đặc biệt là trong xử lý chuỗi 64k, đạt được tăng tống đáng kể trong giải mã, truyền tiến về phía trước và truyền ngược.