本文為機器翻譯
展示原文

OpenMythos — 基於公開論文的開源項目,旨在重構 Claude 的內部結構 → 這是一個理論重構項目,它僅使用公開的研究文獻,從零開始重建 Claude 的“Mythos”架構。 → 其核心假設是 Mythos 是一個循環深度 Transformer(循環 Transformer),它會多次運行同一層。 → 與會輸出中間詞元的 Chain-of-Thought 不同,迭代推理在單次前向傳播中於潛在空間內悄然進行。 → 作者解釋說,深度是通過循環來實現的,而區域間的廣度則通過 MoE(專家混合模型)來解決。 → 除了 PyTorch 實現之外,該項目還組織了穩定性證明、擴展性定律和循環索引嵌入等支持性概念。 **與現有 Transformer 的區別** 現有 Transformer 通過堆疊數百個不同的層來實現深度。 OpenMythos 重構的循環 Transformer 將結構分為三個模塊。流程為:前奏(輸入編碼)→ 循環模塊(迭代執行)→ 尾聲(輸出清理),其中中間的循環模塊會使用相同的權重多次運行。這種結構鼓勵深入思考,通過增加循環次數來解決更復雜的問題。 關鍵更新規則 在每次循環中,隱藏狀態使用公式 h_{t+1} = A·h_t + B·e + Transformer(h_t, e) 進行更新。關鍵在於,原始輸入 e 在每次循環中都會被重新注入。如果沒有這一步驟,隨著迭代次數的增加,原始信號會變得模糊,而輸入注入可以避免這種情況。 Mythos 為何被認為採用這種結構 作者提出了四個原因。首先,循環 Transformer 能夠進行系統性的泛化,從而處理訓練過程中從未遇到過的組合。第二,即使使用 5 跳推理進行訓練,也能觀察到深度外推現象,即增加推理過程中的循環次數可以讓模型解決 10 跳問題。第三,每個循環對應於連續潛在空間中的一個 CoT 步,這已在 Saunshi 等人 (2025) 的論文中得到正式證明。第四,運行 k 層 L 次可以獲得與 kL 層模型類似的質量,從而在不發生參數爆炸的情況下實現深度。 注意 本倉庫嚴格基於公開文獻進行理論重構,尚未驗證 Anthropic 是否實際構建了 Mythos 時採用了這種結構。本倉庫採用 MIT 許可證,包含 PyTorch 示例代碼和 API 文檔。運行本倉庫需要選擇注意力類型(MLA 或 GQA)並配置 MythosConfig。 #LoopedTransformer #ClaudeMythos #MoE #AIArchitecture #OpenSource

Telegram
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論