DeepSeek發佈《原生稀疏注意力:硬件對齊且可原生訓練的稀疏注意力機制》論文

avatar
PANews
02-18

PANews 2月18日消息,DeepSeek團隊近日發佈了一篇題為《原生稀疏注意力:硬件對齊且可原生訓練的稀疏注意力機制》的技術論文,介紹了他們提出的NSA(Natively Sparse Attention)機制。NSA結合了算法創新和硬件優化,旨在實現高效的長文本建模。其核心創新包括:

1. 動態分層稀疏策略,結合粗粒度的令牌壓縮與細粒度的令牌選擇,以保留全局上下文信息和局部精度;

2. 通過平衡算術強度的算法設計和現代硬件優化,顯著加速計算;

3. 支持端到端訓練,減少預訓練計算成本,同時保持模型性能。

實驗結果表明,NSA在長文本任務和指令推理等領域表現優異,尤其在64k長度的序列處理中,實現瞭解碼、前向傳播和反向傳播的顯著加速。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論
Followin logo