피에이뉴스(PANews) 2월 18일 소식, 딥씨크(DeepSeek) 팀은 최근 《원생 희소 주의: 하드웨어 정렬 및 원생 훈련 가능한 희소 주의 메커니즘》이라는 제목의 기술 논문을 발표했습니다. 이들은 NSA(Natively Sparse Attention) 메커니즘을 제안했습니다. NSA는 알고리즘 혁신과 하드웨어 최적화를 결합하여 효율적인 장문 모델링을 실현하고자 합니다. 핵심 혁신은 다음과 같습니다:
1. 동적 계층 희소 전략, 토큰 압축과 토큰 선택의 조합을 통해 전역 상황 정보와 지역 정확도를 유지합니다;
2. 연산 강도 균형 알고리즘 설계와 현대 하드웨어 최적화를 통해 계산을 크게 가속화합니다;
3. 엔드-투-엔드 훈련을 지원하여 사전 훈련 계산 비용을 줄이면서도 모델 성능을 유지합니다.
실험 결과에 따르면 NSA는 장문 작업과 명령 추론 등 다양한 분야에서 우수한 성능을 보였으며, 특히 64k 길이 시퀀스 처리에서 디코딩, 순전파, 역전파의 큰 가속화를 달성했습니다.