제가 가장 좋아하는 발견 중 하나는 위치 임베딩이 마치 훈련용 보조 바퀴와 같다는 것입니다. 위치 임베딩은 수렴에는 도움이 되지만 장기적인 컨텍스트 일반화에는 악영향을 미칩니다. 사전 학습 후 위치 임베딩을 삭제하고 원래 예산의 1% 미만으로 재보정하면 엄청난 컨텍스트 창을 활용할 수 있다는 것을 발견했습니다.
이 기사는 기계로 번역되었습니다
원문 표시

Sakana AI
@SakanaAILabs
01-12
Introducing DroPE: Extending the Context of Pretrained LLMs by Dropping Their Positional Embeddings
https://pub.sakana.ai/DroPE/
We are releasing a new method called DroPE to extend the context length of pretrained LLMs without the massive compute costs usually associated with
Twitter에서
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트
공유




