OpenMythos — 基於公開論文的開源項目,旨在重構 Claude 的內部結構
→ 這是一個理論重構項目,它僅使用公開的研究文獻,從零開始重建 Claude 的“Mythos”架構。
→ 其核心假設是 Mythos 是一個循環深度 Transformer(循環 Transformer),它會多次運行同一層。
→ 與會輸出中間詞元的 Chain-of-Thought 不同,迭代推理在單次前向傳播中於潛在空間內悄然進行。
→ 作者解釋說,深度是通過循環來實現的,而區域間的廣度則通過 MoE(專家混合模型)來解決。
→ 除了 PyTorch 實現之外,該項目還組織了穩定性證明、擴展性定律和循環索引嵌入等支持性概念。
**與現有 Transformer 的區別**
現有 Transformer 通過堆疊數百個不同的層來實現深度。 OpenMythos 重構的循環 Transformer 將結構分為三個模塊。流程為:前奏(輸入編碼)→ 循環模塊(迭代執行)→ 尾聲(輸出清理),其中中間的循環模塊會使用相同的權重多次運行。這種結構鼓勵深入思考,通過增加循環次數來解決更復雜的問題。
關鍵更新規則
在每次循環中,隱藏狀態使用公式 h_{t+1} = A·h_t + B·e + Transformer(h_t, e) 進行更新。關鍵在於,原始輸入 e 在每次循環中都會被重新注入。如果沒有這一步驟,隨著迭代次數的增加,原始信號會變得模糊,而輸入注入可以避免這種情況。
Mythos 為何被認為採用這種結構
作者提出了四個原因。首先,循環 Transformer 能夠進行系統性的泛化,從而處理訓練過程中從未遇到過的組合。第二,即使使用 5 跳推理進行訓練,也能觀察到深度外推現象,即增加推理過程中的循環次數可以讓模型解決 10 跳問題。第三,每個循環對應於連續潛在空間中的一個 CoT 步,這已在 Saunshi 等人 (2025) 的論文中得到正式證明。第四,運行 k 層 L 次可以獲得與 kL 層模型類似的質量,從而在不發生參數爆炸的情況下實現深度。
注意
本倉庫嚴格基於公開文獻進行理論重構,尚未驗證 Anthropic 是否實際構建了 Mythos 時採用了這種結構。本倉庫採用 MIT 許可證,包含 PyTorch 示例代碼和 API 文檔。運行本倉庫需要選擇注意力類型(MLA 或 GQA)並配置 MythosConfig。
#LoopedTransformer #ClaudeMythos #MoE #AIArchitecture #OpenSource