本文为机器翻译
展示原文
RePo简介:具有上下文重定位功能的语言模型
网址:pub.sakana.ai/repo
论文:arxiv.org/abs/2512.14391
标准语言模型将资讯处理为僵化的线性序列,其中结构的唯一讯号是固定的词元索引,这迫使它们将物理上的接近性视为语义相关性。认知负荷理论表明,这种方法效率低。正如人类在关键资讯被杂讯淹没时难以理解一样,模型也会浪费有限的认知能力来处理杂乱无章的输入,而不是专注于深度推理。
RePo透过允许模型主动重组其上下文来打破这一瓶颈。我们的模组不使用固定的索引,而是学习基于内容相关性来分配位置。这使得模型能够动态地将相关的远距离资讯拉近,并将杂讯推开,从而有效地重塑注意力结构以匹配问题结构。
这种灵活性显著提高了模型的稳健性。 RePo 在处理噪音环境、结构化资料和长程依赖关系时优于标准编码,同时保持了具有竞争力的整体效能。它标志著模型朝著智慧管理自身工作记忆而非被动接受输入顺序的方向迈出了重要一步。
来自推特
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
收藏
评论
分享
