Open AI의 오픈 소스 모델 gpt-oss 정보 유출! 이는 운영 체제 시리즈 모델로, 최소 매개변수 20B, 최대 매개변수 120B 모델의 구성 파일도 유출됨: MoE 트랜스포머: 36층, 128개 전문가, Top-4 라우팅 주의력: 64개 주의력 헤드, 헤드당 64차원; GQA 총 매개변수(희소 총량) ≈ 116B 훈련/기본 컨텍스트: initial_context_length: 4096 RoPE 긴 컨텍스트 확장: 사용 가능한 컨텍스트를 약 4096×32 ≈ 131k 토큰으로 확장 가능 슬라이딩 윈도우 주의력: sliding_window: 128은 주로 로컬 주의력 윈도우 128을 사용함을 의미 KV 캐시 점유: 토큰당 각 층의 K+V 요소 수 ≈ 72 KB/토큰. GQA로 점유를 크게 줄임. 요약: 대규모 희소 MoE(총 매개변수 ~116B, 활성 ~5.1B)의 긴 컨텍스트 모델(~128k 수준, NTK RoPE 포함), 메모리 및 계산 감소를 위해 GQA + 슬라이딩 윈도우 주의력 사용; 주의력 투영을 숨겨진 차원보다 넓게 하여 용량 증가. 높은 처리량과 긴 텍스트 시나리오에 적합하며, 디코딩 측면에서 우수한 KV 오버헤드 및 병렬 특성을 가짐.
이 기사는 기계로 번역되었습니다
원문 표시

Jimmy Apples
@acc
08-01
So before people take credit, I found the oai os a min after they uploaded and saved the config and other stuff before it was removed.
It’s an OS model and coming soon so kinda feels like ruining a surprise


Twitter에서
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트
공유





