PANews 2月18日消息，DeepSeek团队近日发布了一篇题为《原生稀疏注意力：硬件对齐且可原生训练的稀疏注意力机制》的技术论文，介绍了他们提出的NSA（Natively Sparse Attention）机制。NSA结合了算法创新和硬件优化，旨在实现高效的长文本建模。其核心创新包括：
1. 动态分层稀疏策略，结合粗粒度的令牌压缩与细粒度的令牌选择，以保留全局上下文信息和局部精度；
2. 通过平衡算术强度的算法设计和现代硬件优化，显著加速计算；
3. 支持端到端训练，减少预训练计算成本，同时保持模型性能。
实验结果表明，NSA在长文本任务和指令推理等领域表现优异，尤其在64k长度的序列处理中，实现了解码、前向传播和反向传播的显著加速。

PANews 2月18日消息，DeepSeek团队近日发布了一篇题为《原生稀疏注意力：硬件对齐且可原生训练的稀疏注意力机制》的技术论文，介绍了他们提出的NSA（Natively Sparse Attention）机制。NSA结合了算法创新和硬件优化，旨在实现高效的长文本建模。其核心创新包括：1. 动态分层稀疏策略，结合粗粒度的令牌压缩与细粒度的令牌选择，以保留全局上下文信息和局部精度；2. 通过平衡算术强度的算法设计和现代硬件优化，显著加速计算；3. 支持端到端训练，减少预训练计算成本，同时保持模型性能。实验结果表明，NSA在长文本任务和指令推理等领域表现优异，尤其在64k长度的序列处理中，实现了解码、前向传播和反向传播的显著加速。

DeepSeek发布《原生稀疏注意力：硬件对齐且可原生训练的稀疏注意力机制》论文

Tin tức PANews ngày 18 tháng 2, đội ngũ DeepSeek gần đây đã công bố một bài báo kỹ thuật có tựa đề "Chú ý thưa thớt bản địa: Cơ chế chú ý thưa thớt được căn chỉnh phần cứng và có thể được đào tạo bản địa", giới thiệu về cơ chế NSA (Chú ý thưa thớt bản địa) mà họ đề xuất. NSA kết hợp các sáng kiến thuật toán và tối ưu hóa phần cứng, nhằm thực hiện mô hình hóa văn bản dài hiệu quả. Các sáng kiến cốt lõi bao gồm:
1. Chiến lược phân tầng thưa thớt động, kết hợp nén token thô và lựa chọn token tinh tế, để giữ lại thông tin ngữ cảnh toàn cục và độ chính xác cục bộ;
2. Đáng kể tăng tốc tính toán thông qua thiết kế thuật toán cân bằng cường độ số học và tối ưu hóa phần cứng hiện đại;
3. Hỗ trợ đào tạo <đầu cuối>, giảm chi phí tính toán <tiền huấn luyện>, đồng thời duy trì hiệu suất mô hình.
Kết quả thực nghiệm cho thấy, NSA có hiệu suất vượt trội trong các nhiệm vụ văn bản dài và suy luận chỉ dẫn, đặc biệt là trong xử lý chuỗi 64k, đạt được gia tốc đáng kể trong giải mã, truyền tiến về phía trước và truyền ngược.

PANews, ngày 18 tháng 2, DeepSeek đội ngũ đã công bố một bài báo kỹ thuật có tựa đề "Chú ý thưa thớt bản địa: Cơ chế chú ý thưa thớt được căn chỉnh phần cứng và có thể được đào tạo bản địa". Họ giới thiệu về cơ chế NSA (Chú ý thưa thớt bản địa) của họ. NSA kết hợp đổi mới thuật toán và tối ưu hóa phần cứng, nhằm đạt được mô hình hóa văn bản dài hiệu quả. Các sáng tạo cốt lõi bao gồm:1. Chiến lược phân tầng thưa thớt động, kết hợp nén token thô và lựa chọn token tinh, để giữ lại thông tin ngữ cảnh toàn cục và độ chính xác cục bộ;2. Đáng kể tăng tốc tính toán thông qua thiết kế thuật toán cân bằng cường độ số học và tối ưu hóa phần cứng hiện đại;3. Hỗ trợ đào tạo end-to-end, giảm chi phí tính toán tiền đào tạo, đồng thời duy trì hiệu suất mô hình.Kết quả thực nghiệm cho thấy, NSA có hiệu suất vượt trội trong các nhiệm vụ văn bản dài và suy luận chỉ dẫn, đặc biệt là trong xử lý chuỗi 64k, đạt được tăng tống đáng kể trong giải mã, truyền tiến về phía trước và truyền ngược.

DeepSeek phát hành bài báo "Native Sparse Attention: Cơ chế Sparse Attention được liên kết với phần cứng và có thể đào tạo gốc"

Lời dẫn nhập: Bài đăng của CZ châm ngòi cho làn sóng
Vào ngày 15 tháng 3 năm 2025, thị trường tiền điện tử đã chứng kiến một làn sóng do sự xuất hiện của một đồng <MEME> mới nổi - Mubarak. Tất cả bắt nguồn từ một bài đăng bí ẩn của CZ (赵长鹏), nhà sáng lập của Binance. Trong ngày đó, anh ấy đăng trên Binance Plaza: "Cuối tuần này tôi sẽ gặp một người bạn", kèm theo một <MEME> liên quan đến Mubarak. Hành động này như châm ngòi cho một làn sóa, giá trị vốn hóa thị trường của Mubarak đã tăng vọt lên 40 triệu USD, cộng đồng không ngừng bàn tán: Liệu đây có phải là sự ra đời của một huyền thoại như TST hay không? Mubarak có thể đạt được mức tăng 10 lần...

CZ công khai kêu gọi Mubarak - Binance trở thành TST tiếp theo không?

Bitcoin sau khi giảm xuống dưới 77.000 USD vào ngày 11 đã phục hồi, và trong những ngày gần đây tiếp tục dao động trên mức 80.000 USD, mặc dù đã chọc thủng mức 85.000 USD vào ngày 14, nhưng hôm nay lại giảm nhẹ, một lần giảm xuống dưới 84.000 USD, tại thời điểm đóng báo, Bitcoin đang giao dịch ở mức 84.138 USD, giảm 0,76% trong 24 giờ qua.
<BlockTempo - Trang tin blockchain ảnh hưởng nhất>Bitcoin có thể điều chỉnh giá trong 8 tháng
Markus Thielen, Giám đốc nghiên cứu Crypto hàng đầu của 10x Research, cho biết ông không排除khả năng Bitcoin...

Thị trường bò đã kết thúc chưa? Nghiên cứu 10x: Bitcoin có thể điều chỉnh giá trong 8 tháng nữa, thị trường thiếu động lực săn Mua bắt đáy

Khối lượng giao dịch trên các <Sàn phi tập trung (DEX)> trên <chuỗi> <Solana> đã giảm xuống mức thấp nhất kể từ đầu năm.
Điều này phản ánh sự suy giảm trong hoạt động mạng và sự yếu kém...