DeepSeek에서 "네이티브 스파스 어텐션: 하드웨어 정렬 및 네이티브 학습 가능한 스파스 어텐션 메커니즘" 논문을 발표

avatar
PANews
02-18
이 기사는 기계로 번역되었습니다
원문 표시

피에이뉴스(PANews) 2월 18일 소식, 딥씨크(DeepSeek) 팀은 최근 《원생 희소 주의: 하드웨어 정렬 및 원생 훈련 가능한 희소 주의 메커니즘》이라는 제목의 기술 논문을 발표했습니다. 이들은 NSA(Natively Sparse Attention) 메커니즘을 제안했습니다. NSA는 알고리즘 혁신과 하드웨어 최적화를 결합하여 효율적인 장문 모델링을 실현하고자 합니다. 핵심 혁신은 다음과 같습니다:

1. 동적 계층 희소 전략, 토큰 압축과 토큰 선택의 조합을 통해 전역 상황 정보와 지역 정확도를 유지합니다;

2. 연산 강도 균형 알고리즘 설계와 현대 하드웨어 최적화를 통해 계산을 크게 가속화합니다;

3. 엔드-투-엔드 훈련을 지원하여 사전 훈련 계산 비용을 줄이면서도 모델 성능을 유지합니다.

실험 결과에 따르면 NSA는 장문 작업과 명령 추론 등 다양한 분야에서 우수한 성능을 보였으며, 특히 64k 길이 시퀀스 처리에서 디코딩, 순전파, 역전파의 큰 가속화를 달성했습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트