本文为机器翻译
展示原文

我最喜欢的发现之一是:位置嵌入就像辅助轮。它们有助于模型收敛,但会损害长上下文泛化能力。 我们发现,如果在预训练后直接删除位置嵌入,并将预算调整到原预算的不到 1%,就能解锁巨大的上下文窗口。

Sakana AI
@SakanaAILabs
01-12
Introducing DroPE: Extending the Context of Pretrained LLMs by Dropping Their Positional Embeddings https://pub.sakana.ai/DroPE/ We are releasing a new method called DroPE to extend the context length of pretrained LLMs without the massive compute costs usually associated with
来自推特
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
收藏
评论