DeepSeek phát hành bài báo "Native Sparse Attention: Cơ chế Sparse Attention được liên kết với phần cứng và có thể đào tạo gốc"

avatar
PANews
02-18
Bài viết này được dịch máy
Xem bản gốc

PANews, ngày 18 tháng 2, DeepSeek đội ngũ đã công bố một bài báo kỹ thuật có tựa đề "Chú ý thưa thớt bản địa: Cơ chế chú ý thưa thớt được căn chỉnh phần cứng và có thể được đào tạo bản địa". Họ giới thiệu về cơ chế NSA (Chú ý thưa thớt bản địa) của họ. NSA kết hợp đổi mới thuật toán và tối ưu hóa phần cứng, nhằm đạt được mô hình hóa văn bản dài hiệu quả. Các sáng tạo cốt lõi bao gồm:

1. Chiến lược phân tầng thưa thớt động, kết hợp nén token thô và lựa chọn token tinh, để giữ lại thông tin ngữ cảnh toàn cục và độ chính xác cục bộ;

2. Đáng kể tăng tốc tính toán thông qua thiết kế thuật toán cân bằng cường độ số học và tối ưu hóa phần cứng hiện đại;

3. Hỗ trợ đào tạo end-to-end, giảm chi phí tính toán tiền đào tạo, đồng thời duy trì hiệu suất mô hình.

Kết quả thực nghiệm cho thấy, NSA có hiệu suất vượt trội trong các nhiệm vụ văn bản dài và suy luận chỉ dẫn, đặc biệt là trong xử lý chuỗi 64k, đạt được tăng tống đáng kể trong giải mã, truyền tiến về phía trước và truyền ngược.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận