本文為機器翻譯
展示原文
RePo簡介:具有上下文重定位功能的語言模型
網址:pub.sakana.ai/repo
論文:arxiv.org/abs/2512.14391
標準語言模型將資訊處理為僵化的線性序列,其中結構的唯一訊號是固定的詞元索引,這迫使它們將物理上的接近性視為語義相關性。認知負荷理論表明,這種方法效率低。正如人類在關鍵資訊被雜訊淹沒時難以理解一樣,模型也會浪費有限的認知能力來處理雜亂無章的輸入,而不是專注於深度推理。
RePo透過允許模型主動重組其上下文來打破這一瓶頸。我們的模組不使用固定的索引,而是學習基於內容相關性來分配位置。這使得模型能夠動態地將相關的遠距離資訊拉近,並將雜訊推開,從而有效地重塑注意力結構以匹配問題結構。
這種靈活性顯著提高了模型的穩健性。 RePo 在處理噪音環境、結構化資料和長程依賴關係時優於標準編碼,同時保持了具有競爭力的整體效能。它標誌著模型朝著智慧管理自身工作記憶而非被動接受輸入順序的方向邁出了重要一步。
來自推特
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論
分享
