我最喜歡的發現之一是:位置嵌入就像輔助輪。它們有助於模型收斂,但會損害長上下文泛化能力。 我們發現,如果在預訓練後直接刪除位置嵌入,並將預算調整到原預算的不到 1%,就能解鎖巨大的上下文窗口。
本文為機器翻譯
展示原文

Sakana AI
@SakanaAILabs
01-12
Introducing DroPE: Extending the Context of Pretrained LLMs by Dropping Their Positional Embeddings
https://pub.sakana.ai/DroPE/
We are releasing a new method called DroPE to extend the context length of pretrained LLMs without the massive compute costs usually associated with
來自推特
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論
分享




