OpenMythos — 基于公开论文的开源项目,旨在重构 Claude 的内部结构
→ 这是一个理论重构项目,它仅使用公开的研究文献,从零开始重建 Claude 的“Mythos”架构。
→ 其核心假设是 Mythos 是一个循环深度 Transformer(循环 Transformer),它会多次运行同一层。
→ 与会输出中间词元的 Chain-of-Thought 不同,迭代推理在单次前向传播中于潜在空间内悄然进行。
→ 作者解释说,深度是通过循环来实现的,而区域间的广度则通过 MoE(专家混合模型)来解决。
→ 除了 PyTorch 实现之外,该项目还组织了稳定性证明、扩展性定律和循环索引嵌入等支持性概念。
**与现有 Transformer 的区别**
现有 Transformer 通过堆叠数百个不同的层来实现深度。 OpenMythos 重构的循环 Transformer 将结构分为三个模块。流程为:前奏(输入编码)→ 循环模块(迭代执行)→ 尾声(输出清理),其中中间的循环模块会使用相同的权重多次运行。这种结构鼓励深入思考,通过增加循环次数来解决更复杂的问题。
关键更新规则
在每次循环中,隐藏状态使用公式 h_{t+1} = A·h_t + B·e + Transformer(h_t, e) 进行更新。关键在于,原始输入 e 在每次循环中都会被重新注入。如果没有这一步骤,随着迭代次数的增加,原始信号会变得模糊,而输入注入可以避免这种情况。
Mythos 为何被认为采用这种结构
作者提出了四个原因。首先,循环 Transformer 能够进行系统性的泛化,从而处理训练过程中从未遇到过的组合。第二,即使使用 5 跳推理进行训练,也能观察到深度外推现象,即增加推理过程中的循环次数可以让模型解决 10 跳问题。第三,每个循环对应于连续潜在空间中的一个 CoT 步,这已在 Saunshi 等人 (2025) 的论文中得到正式证明。第四,运行 k 层 L 次可以获得与 kL 层模型类似的质量,从而在不发生参数爆炸的情况下实现深度。
注意
本仓库严格基于公开文献进行理论重构,尚未验证 Anthropic 是否实际构建了 Mythos 时采用了这种结构。本仓库采用 MIT 许可证,包含 PyTorch 示例代码和 API 文档。运行本仓库需要选择注意力类型(MLA 或 GQA)并配置 MythosConfig。
#LoopedTransformer #ClaudeMythos #MoE #AIArchitecture #OpenSource