Bài viết này được dịch máy
Xem bản gốc
Giới thiệu RePo: Mô hình ngôn ngữ với khả năng định vị lại ngữ cảnh
Trang web: pub.sakana.ai/repo
Bài báo: arxiv.org/abs/2512.14391
Các mô hình ngôn ngữ tiêu chuẩn xử lý thông tin như một chuỗi tuyến tính cứng nhắc, trong đó tín hiệu duy nhất cho cấu trúc là chỉ số Token cố định, buộc chúng phải coi sự gần gũi về mặt vật lý như là sự liên quan về mặt ngữ nghĩa. Lý thuyết Tải trọng Nhận thức cho rằng điều này là không hiệu quả. Giống như con người gặp khó khăn khi các thông tin quan trọng bị chôn vùi trong nhiễu, các mô hình lãng phí năng lực hữu hạn để quản lý các đầu vào không được tổ chức thay vì tập trung vào suy luận sâu sắc.
RePo phá vỡ nút thắt cổ chai này bằng cách cho phép các mô hình chủ động sắp xếp lại ngữ cảnh của chúng. Thay vì sử dụng một chỉ mục cố định, mô-đun của chúng tôi học cách gán vị trí dựa trên mức độ liên quan của nội dung. Điều này cho phép mô hình chủ động kéo thông tin liên quan ở xa lại gần hơn và đẩy nhiễu ra xa, từ đó định hình lại hình học chú ý một cách hiệu quả để phù hợp với cấu trúc bài toán.
Tính linh hoạt này mang lại những lợi ích đáng kể về độ bền vững. RePo vượt trội hơn các phương pháp mã hóa tiêu chuẩn trong các ngữ cảnh nhiễu, dữ liệu có cấu trúc và các phụ thuộc tầm xa, đồng thời vẫn duy trì hiệu suất tổng thể cạnh tranh. Nó đại diện cho một bước tiến hướng tới các mô hình tự quản lý bộ nhớ làm việc của mình một cách thông minh thay vì chỉ thụ động chấp nhận thứ tự đầu vào.
Từ Twitter
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận
Chia sẻ


