Nous Research는 단어 분할의 이점을 순수 바이트를 사용하여 시뮬레이션할 수 있음을 확인했으며, 이는 대규모 단어 분할 없는 모델에 대한 획기적인 발전입니다.

이 기사는 기계로 번역되었습니다
원문 표시
ME 뉴스에 따르면, Beating의 모니터링 결과, 5월 22일(UTC+8) Nous Research는 대규모 언어 모델이 오랫동안 의존해 온 단어 분할기가 미래에 대체될 수 있음을 시사하는 논문을 발표했습니다. 연구팀은 17억 개의 파라미터 규모에서 통제된 테스트를 통해 단어 분할 메커니즘의 성능 이점을 체계적으로 정량화하고, 이러한 이점을 엔지니어링 방법을 통해 순수 바이트 수준에서 효과적으로 시뮬레이션할 수 있음을 입증했습니다. 실험 결과, 데이터 처리량을 늘리고 네이티브 바이트 모델에 형태학적 경계를 삽입하는 것만으로도 성능 격차를 크게 줄일 수 있는 것으로 나타났습니다. 동일한 해시레이트 예산에서 시뮬레이션된 압축은 단일 단계 기울기 처리량을 증가시켜 검증 손실을 가장 크게 줄이는 데 직접적으로 기여했습니다. 동시에, 서브워드 경계를 이진 시퀀스로 입력 바이트에 중첩함으로써 미래 정보 유출 없이 모델에 장기적인 귀납적 편향을 성공적으로 구축할 수 있었습니다. 더 큰 매개변수에서의 시너지 효과는 추가 검증이 필요하지만, 이번 테스트 결과 17억 규모에서는 어휘 매개변수 스케일링 및 다음 하위 단어 예측을 포함한 네 가지 메커니즘의 이점이 극히 제한적인 것으로 나타났습니다. 이는 단어 분할이 필요 없는 대규모 모델 개발에 있어 중요한 돌파구를 마련하며, 향후 아키텍처 최적화는 실제 처리량 향상에 직접적으로 초점을 맞추고 형태론적 사전 정보를 비공개 방식으로 명시적으로 통합해야 함을 시사합니다. (출처: ME)

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트