사전 학습 속도는 2~3배 향상되었지만, Nous의 새로운 솔루션인 TST는 경쟁사와의 "충돌" 문제로 논란에 휩싸였습니다.

이 기사는 기계로 번역되었습니다

원문 표시

ME 뉴스에 따르면, Beating의 모니터링 결과, 5월 14일(UTC+8)에 Nous Research가 대규모 모델을 위한 새로운 사전 학습 방식인 Tense Stacking Training(TST)을 발표했습니다. 이 방식은 학습 초기 단계에서 인접한 어휘 단위를 패키징하고 압축함으로써 동일한 연산 부하에서 사전 학습 시간을 2~3배 단축합니다. TST는 두 단계로 구성됩니다. 학습의 처음 20~40% 동안 모델은 어휘 단위를 하나씩 읽는 대신, 인접한 어휘 단위를 "패키징"하고 평균값을 입력으로 사용하여 다음 패키지에 포함될 어휘 단위(내부 순서와 관계 없음)를 예측합니다. 그 후, 모델은 평소처럼 다음 어휘 단위를 예측합니다. 기본 아키텍처는 변경되지 않으므로 추론 시 최종 모델은 일반 모델과 완전히 동일합니다. 이 방법은 최대 100억 개의 매개변수를 가진 MoE 모델에서 검증되었습니다. 이 방식의 핵심은 "데이터를 연산 능력과 교환"하는 것으로, 코퍼스 소비 속도를 높이는 대신 연산 시간을 단축하는 것입니다. 만약 미래에 고품질 텍스트가 부족해진다면, 데이터 소비 속도를 높이는 이 방식은 오히려 약점이 될 수 있습니다. 더욱이, 논문 발표 후 몇 시간 만에 독자들은 TST의 메커니즘이 2024년에 발표된 *Beyond Next Token Prediction*과 놀라울 정도로 유사하다는 점을 지적했습니다. 저자들은 이후 Hugging Face에서 이를 "불행한 수렴 연구"라고 인정하고 추가 인용문을 포함하여 논문을 업데이트하겠다고 약속했습니다. (출처: ME)

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트