OpenMythos — Claude의 내부 구조를 공개 논문만으로 역추적해본 오픈소스 시도
→ Claude "Mythos" 아키텍처를 공개된 연구 문헌만 가지고 처음부터 다시 조립해본 이론적 재구성 프로젝트입니다.
→ 핵심 가설은 Mythos가 같은 레이어를 여러 번 돌리는 Recurrent-Depth Transformer(Looped Transformer)라는 것입니다.
→ Chain-of-Thought처럼 중간 토큰을 뱉는 방식이 아니라, 한 번의 forward pass 안에서 잠재 공간(latent space)에서 조용히 반복 추론이 일어납니다.
→ 깊이는 looping으로, 영역 간 넓이는 MoE(Mixture of Experts)로 해결한다는 것이 저자의 설명입니다.
→ PyTorch 구현과 함께 안정성 증명, 스케일링 법칙, 루프 인덱스 임베딩 같은 보조 아이디어까지 정리되어 있습니다.

기존 Transformer와 뭐가 다른가
기존 Transformer는 서로 다른 수백 개의 레이어를 직렬로 쌓아 깊이를 확보합니다. OpenMythos가 재구성한 Looped Transformer는 구조를 세 덩어리로 나눕니다. Prelude(입력 인코딩) → Recurrent Block(반복 실행) → Coda(출력 정리)의 흐름인데, 중간의 Recurrent Block을 같은 가중치로 여러 번 돌립니다. 더 어려운 문제일수록 loop 수를 늘려서 더 깊이 생각하게 만드는 구조입니다.

핵심 업데이트 규칙
매 loop마다 hidden state는 h_{t+1} = A·h_t + B·e + Transformer(h_t, e) 식으로 업데이트됩니다. 여기서 중요한 점은 원래 입력 e가 매 loop마다 다시 주입된다는 것입니다. 이게 없으면 반복이 길어질수록 원본 신호가 흐려져버리는데, input injection이 그걸 막아줍니다.

왜 Mythos가 이 구조일 거라고 보는가
저자는 네 가지 근거를 제시합니다. 첫째, Looped Transformer는 훈련 중 본 적 없는 조합을 다루는 systematic generalization을 통과합니다. 둘째, 5-hop 추론으로 학습해도 inference 시 loop를 늘리면 10-hop 문제를 풀어내는 depth extrapolation이 관찰됩니다. 셋째, 각 loop는 continuous latent space에서의 CoT 한 단계에 해당하며, 이는 Saunshi 등(2025) 논문에서 형식적으로 증명되었습니다. 넷째, k개 레이어를 L번 돌리면 kL개 레이어 모델과 비슷한 품질을 내므로 파라미터 폭발 없이 깊이를 확보할 수 있습니다.

주의사항
이 저장소는 어디까지나 공개 문헌을 기반으로 한 이론적 재구성이며, Anthropic이 Mythos를 실제로 이 구조로 만들었는지는 확인되지 않았습니다. 리포지토리는 MIT 라이선스이며 PyTorch 예제 코드와 API 문서가 포함되어 있습니다. 실행에는 attention type(mla 또는 gqa) 선택과 MythosConfig 설정이 필요합니다.

#LoopedTransformer #ClaudeMythos #MoE #AIArchitecture #OpenSource

Telegram

OpenMythos — 基於公開論文的開源項目，旨在重構 Claude 的內部結構

→ 這是一個理論重構項目，它僅使用公開的研究文獻，從零開始重建 Claude 的“Mythos”架構。

→ 其核心假設是 Mythos 是一個循環深度 Transformer（循環 Transformer），它會多次運行同一層。

→ 與會輸出中間詞元的 Chain-of-Thought 不同，迭代推理在單次前向傳播中於潛在空間內悄然進行。

→ 作者解釋說，深度是通過循環來實現的，而區域間的廣度則通過 MoE（專家混合模型）來解決。

→ 除了 PyTorch 實現之外，該項目還組織了穩定性證明、擴展性定律和循環索引嵌入等支持性概念。

**與現有 Transformer 的區別**

現有 Transformer 通過堆疊數百個不同的層來實現深度。 OpenMythos 重構的循環 Transformer 將結構分為三個模塊。流程為：前奏（輸入編碼）→ 循環模塊（迭代執行）→ 尾聲（輸出清理），其中中間的循環模塊會使用相同的權重多次運行。這種結構鼓勵深入思考，通過增加循環次數來解決更復雜的問題。

關鍵更新規則

在每次循環中，隱藏狀態使用公式 h_{t+1} = A·h_t + B·e + Transformer(h_t, e) 進行更新。關鍵在於，原始輸入 e 在每次循環中都會被重新注入。如果沒有這一步驟，隨著迭代次數的增加，原始信號會變得模糊，而輸入注入可以避免這種情況。

Mythos 為何被認為採用這種結構

作者提出了四個原因。首先，循環 Transformer 能夠進行系統性的泛化，從而處理訓練過程中從未遇到過的組合。第二，即使使用 5 跳推理進行訓練，也能觀察到深度外推現象，即增加推理過程中的循環次數可以讓模型解決 10 跳問題。第三，每個循環對應於連續潛在空間中的一個 CoT 步，這已在 Saunshi 等人 (2025) 的論文中得到正式證明。第四，運行 k 層 L 次可以獲得與 kL 層模型類似的質量，從而在不發生參數爆炸的情況下實現深度。

注意

本倉庫嚴格基於公開文獻進行理論重構，尚未驗證 Anthropic 是否實際構建了 Mythos 時採用了這種結構。本倉庫採用 MIT 許可證，包含 PyTorch 示例代碼和 API 文檔。運行本倉庫需要選擇注意力類型（MLA 或 GQA）並配置 MythosConfig。

#LoopedTransformer #ClaudeMythos #MoE #AIArchitecture #OpenSource

這一輪以太坊 meme，要從一隻小狗和馬斯克的一條回覆開始。
前幾日，SpaceX 創始人 Elon Musk 在 X 上回復了媒體人 Glenn Beck 的一條帖子。帖子裡說的是：一個十幾歲的女孩在罹患癌症去世前，親手設計了一隻柴犬玩偶，取名 Asteroid，並把它送上了 2024 年的 SpaceX Polaris Dawn 任務，那隻玩偶在飛船裡充當零重力指示器，是人類進入失重狀態時第一...

以太坊Meme季捲土重來

基於Sui生態系統的 Volo Protocol 流動性Staking協議近日遭遇嚴重安全攻擊，導致其金庫中約 350 萬鎂資產提取。

Sui Volo Protocol 項目遭到黑客攻擊，造成 350 萬鎂的損失。

【孫宇晨起訴WLFI，指控其剝奪投票權 -比特幣新聞- 最新加密貨幣新聞更新 2026】WLFI 案表明，控制權可以凌駕於市場預期之上，從而直接影響……