OpenMythos — Một nỗ lực mã nguồn mở nhằm truy tìm cấu trúc bên trong của Claude dựa trên các bài báo công khai → Đây là một dự án tái cấu trúc lý thuyết, lắp ráp lại kiến trúc "Mythos" của Claude từ đầu chỉ bằng cách sử dụng các tài liệu nghiên cứu công khai. → Giả thuyết cốt lõi là Mythos là một Recurrent-Depth Transformer (Transformer vòng lặp) chạy cùng một lớp nhiều lần. → Không giống như Chain-of-Thought, vốn tạo ra các token trung gian, suy luận lặp diễn ra một cách lặng lẽ trong không gian tiềm ẩn trong một lần truyền tiến duy nhất. → Tác giả giải thích rằng độ sâu được giải quyết thông qua vòng lặp, trong khi độ rộng giữa các vùng được giải quyết thông qua MoE (Mixture of Experts). → Cùng với việc triển khai PyTorch, các ý tưởng hỗ trợ như bằng chứng ổn định, quy luật tỷ lệ và nhúng chỉ số vòng lặp cũng được sắp xếp. **Điểm khác biệt so với các Transformer hiện có** Các Transformer hiện có đảm bảo độ sâu bằng cách xếp chồng hàng trăm lớp khác nhau theo chuỗi. Mô hình Looped Transformer được OpenMythos tái cấu trúc chia thành ba khối. Luồng hoạt động là: Khúc dạo đầu (Mã hóa đầu vào) → Khối lặp lại (Thực thi lặp) → Kết thúc (Làm sạch đầu ra), trong đó Khối lặp lại trung gian được chạy nhiều lần với cùng một trọng số. Cấu trúc này khuyến khích tư duy sâu hơn bằng cách tăng số vòng lặp cho các bài toán khó hơn. Quy tắc cập nhật quan trọng Trong mỗi vòng lặp, trạng thái ẩn được cập nhật bằng công thức h_{t+1} = A·h_t + B·e + Transformer(h_t, e). Điểm quan trọng ở đây là đầu vào ban đầu e được đưa trở lại trong mỗi vòng lặp. Nếu không có điều này, tín hiệu ban đầu sẽ bị mờ đi khi số lần lặp tăng lên, nhưng việc đưa đầu vào trở lại sẽ ngăn chặn điều này. Tại sao Mythos được cho là có cấu trúc này Tác giả đưa ra bốn lý do. Thứ nhất, Looped Transformer vượt qua quá trình khái quát hóa có hệ thống, xử lý các tổ hợp chưa từng thấy trong quá trình huấn luyện. Thứ hai, ngay cả khi được huấn luyện với suy luận 5 bước, hiện tượng ngoại suy độ sâu vẫn được quan sát thấy, trong đó việc tăng số vòng lặp trong quá trình suy luận cho phép mô hình giải quyết các bài toán 10 bước. Thứ ba, mỗi vòng lặp tương ứng với một bước CoT duy nhất trong không gian tiềm ẩn liên tục, điều này đã được chứng minh chính thức trong bài báo của Saunshi et al. (2025). Thứ tư, chạy k lớp L lần cho chất lượng tương tự như mô hình kL lớp, cho phép đạt được độ sâu mà không gây ra sự bùng nổ tham số. Lưu ý Kho lưu trữ này chỉ là sự tái cấu trúc lý thuyết dựa trên các tài liệu công khai, và chưa được xác minh liệu Anthropic có thực sự xây dựng Mythos với cấu trúc này hay không. Kho lưu trữ này thuộc giấy phép MIT và bao gồm mã ví dụ PyTorch và tài liệu API. Để chạy kho lưu trữ này, cần phải chọn loại chú ý (mla hoặc gqa) và cấu hình MythosConfig. #LoopedTransformer #ClaudeMythos #MoE #AIArchitecture #OpenSource
Bài viết này được dịch máy
Xem bản gốc

Telegram
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận
Chia sẻ






