avatar
Sakana AI
19,138 người theo dõi trên Twitter
Theo dõi
We are a Tokyo-based R&D company on a quest to create a new kind of foundational AI model based on nature-inspired intelligence. https://sakana.ai/careers
Bài đăng
avatar
Sakana AI
01-19
Nội dung chủ đề
Giới thiệu RePo: Mô hình ngôn ngữ với khả năng định vị lại ngữ cảnh Trang web: pub.sakana.ai/repo Bài báo: arxiv.org/abs/2512.14391 Các mô hình ngôn ngữ tiêu chuẩn xử lý thông tin như một chuỗi tuyến tính cứng nhắc, trong đó tín hiệu duy nhất cho cấu trúc là chỉ số Token cố định, buộc chúng phải coi sự gần gũi về mặt vật lý như là sự liên quan về mặt ngữ nghĩa. Lý thuyết Tải trọng Nhận thức cho rằng điều này là không hiệu quả. Giống như con người gặp khó khăn khi các thông tin quan trọng bị chôn vùi trong nhiễu, các mô hình lãng phí năng lực hữu hạn để quản lý các đầu vào không được tổ chức thay vì tập trung vào suy luận sâu sắc. RePo phá vỡ nút thắt cổ chai này bằng cách cho phép các mô hình chủ động sắp xếp lại ngữ cảnh của chúng. Thay vì sử dụng một chỉ mục cố định, mô-đun của chúng tôi học cách gán vị trí dựa trên mức độ liên quan của nội dung. Điều này cho phép mô hình chủ động kéo thông tin liên quan ở xa lại gần hơn và đẩy nhiễu ra xa, từ đó định hình lại hình học chú ý một cách hiệu quả để phù hợp với cấu trúc bài toán. Tính linh hoạt này mang lại những lợi ích đáng kể về độ bền vững. RePo vượt trội hơn các phương pháp mã hóa tiêu chuẩn trong các ngữ cảnh nhiễu, dữ liệu có cấu trúc và các phụ thuộc tầm xa, đồng thời vẫn duy trì hiệu suất tổng thể cạnh tranh. Nó đại diện cho một bước tiến hướng tới các mô hình tự quản lý bộ nhớ làm việc của mình một cách thông minh thay vì chỉ thụ động chấp nhận thứ tự đầu vào.
-- HẾT --