Crypto AI 的聖盃：去中心化訓練的前沿探索

06-11

作者：0xjacobzhao 及 ChatGPT 4o

特別感謝 Advait Jayant（Peri Labs）、Sven Wellmann（Polychain Capital）、Chao（Metropolis DAO）、Jiahao（Flock）、Alexander Long（Pluralis Research）Ben Fielding & Jeff Amico (Gensyn) 的建議與反饋

在 AI 的全價值鏈中，模型訓練是資源消耗最大、技術門檻最高的環節，直接決定了模型的能力上限與實際應用效果。相比推理階段的輕量級調用，訓練過程需要持續的大規模算力投入、複雜的數據處理流程和高強度的優化算法支持，是 AI 系統構建的真正“重工業”。從架構範式來看，訓練方式可劃分為四類：集中化訓練、分佈式訓練、聯邦學習以及本文重點討論的去中心化訓練。

集中化訓練是最常見的傳統方式，由單一機構在本地高性能集群內完成全部訓練流程，從硬件（如 NVIDIA GPU）、底層軟件（CUDA、cuDNN）、集群調度系統（如 Kubernetes），到訓練框架（如基於 NCCL 後端的 PyTorch）所有組件都由統一的控制系統協調運行。這種深度協同的體系結構使得內存共享、梯度同步和容錯機制的效率達到最佳，非常適合 GPT、Gemini 等大規模模型的訓練，具有效率高、資源可控的優勢，但同時存在數據壟斷、資源壁壘、能源消耗和單點風險等問題。
分佈式訓練（Distributed Training） 是當前大模型訓練的主流方式，其核心是將模型訓練任務拆解後，分發至多臺機器協同執行，以突破單機計算與存儲瓶頸。儘管在物理上具備“分佈式”特徵，但整體仍由中心化機構控制調度與同步，常運行於高速局域網環境中，通過 NVLink 高速互聯總線技術，由主節點統一協調各子任務。主流方法包括：

數據並行（Data Parallel）：每個節點訓練不同數據參數共享，需匹配模型權重
模型並行（Model Parallel）：將模型不同部分部署在不同節點，實現強擴展性；
管道並行（Pipeline Parallel）：分階段串行執行，提高吞吐率；
張量並行（Tensor Parallel）：精細化分割矩陣計算，提升並行粒度。

分佈式訓練是“集中控制 + 分佈式執行”的組合，類比同一老闆遠程指揮多個“辦公室”員工協作完成任務。目前幾乎所有主流大模型（GPT-4、Gemini、LLaMA 等）都是通過此方式完成訓練。

去中心化訓練（Decentralized Training） 則代表更具開放性與抗審查特性的未來路徑。其核心特徵在於：多個互不信任的節點（可能是家用電腦、雲端 GPU 或邊緣設備）在沒有中心協調器的情況下協同完成訓練任務，通常通過協議驅動任務分發與協作，並藉助加密激勵機制確保貢獻的誠實性。該模式面臨的主要挑戰包括：

設備異構與切分困難：異構設備協調難度高，任務切分效率低；
通信效率瓶頸：網絡通信不穩定，梯度同步瓶頸明顯；
可信執行缺失：缺乏可信執行環境，難以驗證節點是否真正參與計算；
缺乏統一協調：無中央調度器，任務分發、異常回滾機制複雜。

去中心化訓練可以理解為：一群全球的志願者，各自貢獻算力協同訓練模型，但“真正可行的大規模去中心化訓練”仍是一項系統性的工程挑戰，涉及系統架構、通信協議、密碼安全、經濟機制、模型驗證等多個層面，但能否“協同有效 + 激勵誠實 + 結果正確”尚處於早期原型探索階段。

聯邦學習（Federated Learning） 作為分佈式與去中心化之間的過渡形態，強調數據本地保留、模型參數集中聚合，適用於注重隱私合規的場景（如醫療、金融）。聯邦學習具有分佈式訓練的工程結構和局部協同能力，同時兼具去中心化訓練的數據分散優勢，但仍依賴可信協調方，並不具備完全開放與抗審查的特性。可以看作是在隱私合規場景下的一種“受控去中心化”方案，在訓練任務、信任結構與通信機制上均相對溫和，更適合作為工業界過渡性部署架構。

AI訓練範式全景對比表（技術架構 × 信任激勵 × 應用特徵）

維度	集中式訓練	分佈式訓練（同步 / 異步 / 混合）	聯邦學習	去中心化訓練
定義	所有數據和訓練集中在單節點或集群中進行	在受控環境中將訓練過程分配到多個物理節點	數據保留在本地，僅上傳參數/梯度	無需信任關係、開放參與，訓練由網絡協調完成
通信帶寬要求	極高（本地總線）	高（同步）中（異步）	極低（上傳壓縮後的模型/梯度）	中低（結合異步策略、壓縮通信）
硬件類型	專用服務器 / GPU集群	高速互聯 GPU 集群或跨數據中心服務器	異構設備：手機 / IoT / 邊緣節點	廣義異構設備：GPU / CPU / 終端設備 / 雲節點等
控制與協調機制	單一機構完全控制	主從式或調度式控制可能跨組織部署	中心協調更新參數，本地控制數據	網絡共識協調 + 加密驗證機制
同步機制	實時全同步	同步（全局步步聚合）異步（局部更新）混合（如Partial Sync）	多輪局部訓練 + 聚合（如 FedAvg）	異步訓練 + 軟同步（如 DiLoCo / SWARM）
安全性 / 隱私性	局部可信保障（防火牆/權限隔離）	中等（需加密傳輸，但通常非隱私優先）	強隱私（數據不出本地，支持差分隱私）	強可驗證性，支持 ZK / TEE / MPC 等密碼學方案
容錯機制	中心節點失效即宕機	同步弱，異步好，混合策略容錯中等	支持掉線，迭代收斂穩健	高容錯，天然適配節點頻繁進出或中斷
擴展性	受限於服務器規模	中等（擴展至數百GPU）	高（可用設備越多越強）	極高（理論可擴展至百萬節點，取決於驗證與通信效率）
開放性	❌ 封閉機構內部	⚠️ 半開放（機構內或註冊後參與）	⚠️ 部分開放（註冊系統或特定數據聯盟）	✅ 完全開放（無需許可即可加入和退出）
是否抗審查	❌ 否	❌ 否	⚠️ 一定程度抗審查（本地控制數據）	✅ 抗審查設計，節點自治、無中心停機點
信任假設	✅ 完全信任中心	✅ 信任協調方	✅ 信任中央服務器協調更新	❌ 不信任任何節點，依賴密碼學+網絡博弈驗證
激勵機制	❌ 無	❌ 無或內部指標考核機制	⚠️ 可設積分/信用機制	✅ 代幣經濟驅動，貢獻與獎勵掛鉤（如 Gensyn 等）
代表技術 / 項目	OpenAI GPT / DeepMind Gemini	Megatron / ZeRO / FSDP	Google FedAvg / Flower / OpenFL/ Flock	Gensyn / Pluralis / Nous / Prime Intellect
典型應用場景	企業內部開發、閉源模型訓練	超大模型預訓練（GPT / LLaMA 等）	醫療 / 金融 / IoT 數據保護場景	Crypto AI、開放協作訓練、抗審查模型、全球計算共享訓練
數據是否聚合	✅ 完全聚合	✅ 聚合數據 / 權重	❌ 數據不聚合	❌ 數據與權重不聚合，僅同步壓縮信息 / 模型合併
適配模型大小	任意（受制於本地硬件）	中等偏大（需依賴多GPU同步 / 存儲）	小中型為主（因邊緣設備受限）	中小模型起步，支持 SWARM / Pipe 並行提升大模型能力

去中心化訓練的邊界、機會與現實路徑

從訓練範式來看，去中心化訓練並不適用於所有任務類型。在某些場景中，由於任務結構複雜、資源需求極高或協作難度大，其天然不適合在異構、去信任的節點之間高效完成。例如大模型訓練往往依賴高顯存、低延遲與高速帶寬，難以在開放網絡中有效切分與同步；數據隱私與主權限制強的任務（如醫療、金融、涉密數據）受限於法律合規與倫理約束，無法開放共享；而缺乏協作激勵基礎的任務（如企業閉源模型或內部原型訓練）則缺少外部參與動力。這些邊界共同構成了當前去中心化訓練的現實限制。

但這並不意味著去中心化訓練是偽命題。事實上，在結構輕量、易並行、可激勵的任務類型中，去中心化訓練展現出明確的應用前景。包括但不限於：LoRA 微調、行為對齊類後訓練任務（如 RLHF、DPO）、數據眾包訓練與標註任務、資源可控的小型基礎模型訓練，以及邊緣設備參與的協同訓練場景。這些任務普遍具備高並行性、低耦合性和容忍異構算力的特徵，非常適合通過 P2P 網絡、Swarm 協議、分佈式優化器等方式進行協作式訓練。

去中心化訓練任務適配性總覽表

任務類型	典型場景	去中心化適配性	備註 / 代表路徑
LoRA 微調（Adapter Tuning）	微調極少參數，適合社區協作	✅ 極高	參數輕量、眾包友好、切分簡單
後訓練任務（Post-training）	DPO、SWARM 等行為優化	✅ 高	獎勵明確，任務粒度小
數據眾包訓練（Data-centric）	多節點參與數據生成、標註與評分	✅ 高	數據來源分散、適合激勵機制
小型基礎模型訓練（資源可控）	參數量低，適配消費級 GPU 協同訓練	✅ 高	可異構執行，任務可拆分
邊緣 AI 協同訓練（Edge-coordinated）	IoT / 手機 / TEE 等邊緣設備協作訓練	✅ 高	節點天然分佈，數據本地
資源或系統要求極高的任務	超大模型訓練、複雜 pipeline、實時 RL	❌ 不適合	高顯存、低延遲、高帶寬依賴，任務難以切分
數據合規與主權限制強的任務	醫療、金融、政府涉密數據訓練	❌ 不適合	法規限制重，數據不可協作，難以開放參與
缺乏協作激勵基礎的任務	企業閉源模型、內部原型實驗	❌ 不適合	無開放意願、無激勵機制，天然排斥協作訓練

去中心化訓練經典項目解析

目前在去中心化訓練與聯邦學習前沿領域中，具有代表性的區塊鏈項目主要包括 Prime Intellect、Pluralis.ai、Gensyn、Nous Research 與 Flock.io。從技術創新性與工程實現難度來看，Prime Intellect、Nous Research 和 Pluralis.ai 在系統架構與算法設計上提出了較多原創性探索，代表了當前理論研究的前沿方向；而 Gensyn 與 Flock.io 的實現路徑相對清晰，已能看到初步的工程化進展。本文將依次解析這五個項目背後的核心技術與工程架構路，並進一步探討其在去中心化 AI 訓練體系中的差異與互補關係。

Prime Intellect：訓練軌跡可驗證的強化學習協同網絡先行者

Prime Intellect 致力於構建一個無需信任的 AI 訓練網絡，讓任何人都能參與訓練，並對其計算貢獻獲得可信的獎勵。Prime Intellect 希望通過 PRIME-RL + TOPLOC + SHARDCAST 三大模塊，構建一個具有可驗證性、開放性、激勵機制完備的 AI 去中心化訓練系統。

一、Prime Intellect 協議棧結構與關鍵模塊價值

層級	模塊名稱	功能說明	核心關鍵詞	核心價值
訓練執行層	PRIME-RL	異步強化學習架構，解耦訓練、推理與權重更新，適配異構網絡與非同步參與	異步訓練、訓練解耦、強化學習、異構適配	提升節點彈性與容錯性，降低准入門檻，支持靈活分佈式任務部署
行為驗證層	TOPLOC	基於軌跡局部一致性驗證訓練真實性，規避 ZKML 的高成本	策略驗證、軌跡一致性、輕量 ZK 替代、獎勵可信	提供結構化訓練驗證機制，確保獎勵分配真實有效，構建信任最小化網絡基礎
權重傳播層	SHARDCAST	gossip + 局部同步方式異步聚合權重，支持多版本共存與策略演化	異步聚合、gossip、版本共存、策略演化	降低帶寬消耗，支持異構節點權重漸進融合，提升聚合效率與網絡擴展性
通信層	OpenDiLoCo + PCCL	構建稀疏拓撲的異步通信協議，底層支持梯度壓縮、斷點容錯、多設備兼容	稀疏通信、異步拓撲、壓縮同步、跨設備兼容	提升通信彈性，降低成本，支撐去中心化訓練網絡長期穩定運行
模擬環境層	Synthetic-1	強化學習任務測試平臺，評估協同效率、激勵設計與收斂性	協同測試、激勵驗證、實驗沙盒、多任務支持	降低試錯成本，為協議優化與激勵機制設計提供安全驗證場景
調度與共識層	Protocol Layer	節點註冊、任務發佈、日誌上鍊、獎勵結算與治理整合	任務管理、鏈上記錄、激勵閉環、協議治理	構建鏈上執行與獎勵透明閉環，提升可審計性與系統治理能力

二、Prime Intellect 訓練關鍵機制詳解

PRIME-RL：解耦式異步強化學習任務架構

PRIME-RL 是 Prime Intellect 為去中心化訓練場景定製的任務建模與執行框架，專為異構網絡與異步參與設計。它採用強化學習作為優先適配對象，將訓練、推理與權重上傳過程結構性解耦，使每個訓練節點可以在本地獨立完成任務循環，並通過標準化接口與驗證和聚合機制協同。相比傳統監督學習流程，PRIME-RL 更適合在無中心調度的環境中實現彈性訓練，既降低了系統複雜度，也為支持多任務並行和策略演化奠定了基礎。

TOPLOC：輕量級訓練行為驗證機制

TOPLOC（Trusted Observation & Policy-Locality Check）是 Prime Intellect 提出的訓練可驗證性核心機制，用於判斷一個節點是否真的基於觀測數據完成了有效的策略學習。與 ZKML 等重型方案不同，TOPLOC 不依賴全模型重計算，而是通過分析“觀測序列 ↔ 策略更新”之間的局部一致性軌跡，完成輕量化結構驗證。它首次將訓練過程中的行為軌跡轉化為可驗證對象，是實現無需信任訓練獎勵分配的關鍵創新，為構建可審計、可激勵的去中心化協作訓練網絡提供了可行路徑。

SHARDCAST：異步權重聚合與傳播協議

SHARDCAST 是 Prime Intellect 設計的權重傳播與聚合協議，專為異步、帶寬受限與節點狀態多變的真實網絡環境而優化。它結合 gossip 傳播機制與局部同步策略，允許多個節點在不同步狀態下持續提交部分更新，實現權重的漸進式收斂與多版本演化。相比集中式或同步式 AllReduce 方法，SHARDCAST 顯著提升了去中心化訓練的可擴展性與容錯能力，是構建穩定權重共識與持續訓練迭代的核心基礎。

OpenDiLoCo：稀疏異步通信框架

OpenDiLoCo 是 Prime Intellect 團隊基於 DeepMind 提出的 DiLoCo 理念獨立實現並開源的通信優化框架，專為去中心化訓練中常見的帶寬受限、設備異構與節點不穩定等挑戰而設計。其架構基於數據並行，通過構建 Ring、Expander、Small-World 等稀疏拓撲結構，避免了全局同步的高通信開銷，僅依賴局部鄰居節點即可完成模型協同訓練。結合異步更新與斷點容錯機制，OpenDiLoCo 使消費級 GPU 與邊緣設備也能穩定參與訓練任務，顯著提升了全球協作訓練的可參與性，是構建去中心化訓練網絡的關鍵通信基礎設施之一。

PCCL：協同通信庫

PCCL（Prime Collective Communication Library） 是 Prime Intellect 為去中心化 AI 訓練環境量身打造的輕量級通信庫，旨在解決傳統通信庫（如 NCCL、Gloo）在異構設備、低帶寬網絡中的適配瓶頸。PCCL 支持稀疏拓撲、梯度壓縮、低精度同步與斷點恢復，可運行於消費級 GPU 與不穩定節點，是支撐 OpenDiLoCo 協議異步通信能力的底層組件。它顯著提升了訓練網絡的帶寬容忍度與設備兼容性，為構建真正開放、無需信任的協同訓練網絡打通了“最後一公里”的通信基礎。

三、Prime Intellect激勵網絡與角色分工

Prime Intellect 構建了一個無需許可、可驗證、具備經濟激勵機制的訓練網絡，使任何人都能參與任務並基於真實貢獻獲得獎勵。協議運行基於三類核心角色：

任務發起者：定義訓練環境、初始模型、獎勵函數與驗證標準
訓練節點：執行本地訓練，提交權重更新及觀測軌跡
驗證節點：使用 TOPLOC 機制驗證訓練行為的真實性，並參與獎勵計算與策略聚合

協議核心流程包括任務發佈、節點訓練、軌跡驗證、權重聚合（SHARDCAST）與獎勵發放，構成一個圍繞“真實訓練行為”的激勵閉環。

四、INTELLECT-2：首個可驗證去中心化訓練模型的發佈

Prime Intellect 於 2025 年 5 月發佈了 INTELLECT-2，這是全球首個由異步、無需信任的去中心化節點協作訓練而成的強化學習大模型，參數規模達 32B。INTELLECT-2 模型由遍佈三大洲的 100+ GPU 異構節點協同訓練完成，使用完全異步架構，訓練時長超 400 小時，展示出異步協作網絡的可行性與穩定性。這一模型不僅是一次性能上的突破，更是 Prime Intellect 所提出“訓練即共識”範式的首次系統落地。INTELLECT-2 集成了 PRIME-RL（異步訓練結構）、TOPLOC（訓練行為驗證） 與 SHARDCAST（異步權重聚合） 等核心協議模塊，標誌著去中心化訓練網絡首次實現了訓練過程的開放化、驗證性與經濟激勵閉環。

在性能方面，INTELLECT-2 基於 QwQ-32B訓練並在代碼和數學上做了專門的RL訓練，處於當前開源 RL 微調模型的前沿水準。儘管尚未超越 GPT-4 或 Gemini 等閉源模型，但其真正的意義在於：它是全球首個完整訓練過程可復現、可驗證、可審計的去中心化模型實驗。Prime Intellect 不僅開源了模型，更重要的是開源了訓練過程本身 —— 訓練數據、策略更新軌跡、驗證流程與聚合邏輯均透明可查，構建了一個人人可參與、可信協作、共享收益的去中心化訓練網絡原型。

五、團隊與融資背景

Prime Intellect 於 2025 年 2 月完成 1500 萬美元種子輪融資，由 Founders Fund 領投，Menlo Ventures、Andrej Karpathy、Clem Delangue、Dylan Patel、Balaji Srinivasan、Emad Mostaque、Sandeep Nailwal 等多位行業領袖參投。此前，項目於 2024 年 4 月完成 550 萬美元早期輪融資，由 CoinFund 和 Distributed Global 共同領投，Compound VC、Collab + Currency、Protocol Labs 等機構亦有參與。截至目前，Prime Intellect 累計融資已超過 2000 萬美元。

Prime Intellect 的聯合創始人是 Vincent Weisser 和 Johannes Hagemann，團隊成員背景橫跨 AI 與 Web3 領域，核心成員來自 Meta AI、Google Research、OpenAI、Flashbots、Stability AI 及以太坊基金會，具備系統架構設計與分佈式工程落地的深厚能力，是當前極少數成功完成真實去中心化大模型訓練的執行型團隊之一。

Pluralis：異步模型並行與結構壓縮協同訓練的範式探索者

Pluralis 是一個專注於“可信協同訓練網絡”的 Web3 AI 項目，其核心目標是推動一種去中心化、開放式參與、並具備長期激勵機制的模型訓練範式。與當前主流集中式或封閉式訓練路徑不同，Pluralis 提出了一種名為 Protocol Learning（協議學習） 的全新理念：將模型訓練過程“協議化”，通過可驗證協作機制和模型所有權映射，構建一個具備內生激勵閉環的開放訓練系統。

一、核心理念：Protocol Learning（協議學習）

Pluralis 提出的 Protocol Learning 包含三大關鍵支柱：

不可提取模型(Unmaterializable Models)
模型以碎片形式分佈在多個節點之間，任何單一節點無法還原完整權重保持閉源。這種設計使模型天然成為“協議內資產”，可實現訪問憑證控制、外洩防護與收益歸屬綁定。
基於互聯網的模型並行訓練(Model-parallel Training over Internet)
通過異步 Pipeline 模型並行機制（SWARM 架構），不同節點僅持有部分權重，通過低帶寬網絡協作完成訓練或推理。
按貢獻分配模型所有權(Partial Ownership for Incentives)
所有參與節點根據其訓練貢獻獲得模型部分所有權，從而享有未來收益分成及協議治理權。

二、Pluralis 協議棧的技術架構

層級	模塊名稱	功能說明
訓練調度層	Swarm Parallel	異步 Pipeline 模型並行，支持彈性參與與異構硬件協同訓練
通信壓縮層	Column-Space Sparsification	針對 Transformer 架構設計，結構化壓縮激活張量列空間，90%+通信壓縮率
優化同步層	NAG-Async Update	引入動量前瞻機制，解決異步梯度過時問題，提升訓練穩定性與吞吐率
激勵確權層	Partial Ownership Allocation	綁定模型貢獻與收益，建立參與者長期激勵機制
權重保護層	Protocol Models	模型不可導出，僅在 Swarm 內運行，保障安全與價值歸屬

三、關鍵技術機制詳解

Unmaterializable Models

在《A Third Path: Protocol Learning》中首次系統提出，模型權重以碎片形式分佈，保障“模型資產”只能在 Swarm 網絡中運行，確保其訪問與收益皆受協議控制。此機制是實現去中心化訓練可持續激勵結構的前提。

Asynchronous Model-Parallel Training

在《SWARM Parallel with Asynchronous Updates》中，Pluralis 構建了基於 Pipeline 的異步模型並行架構，並首次在 LLaMA-3 上進行實證。核心創新在於引入 Nesterov Accelerated Gradient（NAG） 機制，有效修正異步更新過程中的梯度漂移與收斂不穩問題，使異構設備間的訓練在低帶寬環境下具備實際可行性。

Column-Space Sparsification

在《Beyond Top-K》中提出，通過結構感知的列空間壓縮方法代替傳統 Top-K，避免破壞語義路徑。該機制兼顧模型準確性與通信效率，實測在異步模型並行環境中可壓縮 90% 以上通信數據，是實現結構感知高效通信的關鍵突破。

四、技術定位與路徑選擇

Pluralis 明確以 “異步模型並行” 為核心方向，強調其相較於數據並行具備以下優勢：

支持 低帶寬網絡 與 非一致性節點；
適配 設備異構，允許消費級 GPU 參與；
天然具備 彈性調度 能力，支持節點頻繁上線/離線；
以 結構壓縮 + 異步更新 + 權重不可提取性 為三大突破點。

目前根據官方網站公佈的六篇技術博客文檔，邏輯結構整合為以下三個主線：

哲學與願景：《A Third Path: Protocol Learning》《Why Decentralized Training Matters》
技術機制細節：《SWARM Parallel》《Beyond Top-K》《Asynchronous Updates》
制度創新探索：《Unmaterializable Models》《Partial Ownership Protocols》

目前 Pluralis 尚未上線產品、測試網或代碼開源，原因在於其所選擇的技術路徑極具挑戰：需先解決底層系統架構、通信協議、權重不可導出等系統級難題，才可能向上封裝產品服務。

在2025年6月Pluralis Research發佈的新論文中，將其去中心化訓練框架從模型預訓練拓展到了模型微調階段，支持異步更新、稀疏通信與部分權重聚合，相比此前偏重理論與預訓練的設計，本次工作更注重落地可行性，標誌著其在訓練全週期架構上的進一步成熟。

五、團隊與融資背景

Pluralis 於 2025 年完成了 760 萬美元的種子輪融資，由 Union Square Ventures（USV） 與 CoinFund 聯合領投。創始人 Alexander Long 來自機器學習博士背景，具備數學與系統研究雙重背景。核心成員全部由擁有博士背景的機器學習研究者組成，是典型的技術驅動型項目，以高密度論文與技術博客為主要發佈路徑，當前尚未建立 BD/Growth 團隊而專注於攻克低帶寬異步模型並行的基礎架構難題。

Gensyn：以可驗證執行驅動的去中心化訓練協議層

Gensyn 是一個專注於“深度學習訓練任務可信執行”的 Web3 AI 項目，核心不在於重構模型架構或訓練範式，而在於構建一個具備“任務分發 + 訓練執行 + 結果驗證 + 公平激勵”全流程的可驗證分佈式訓練執行網絡。通過鏈下訓練 + 鏈上驗證的架構設計，Gensyn 建立起一個高效、開放、可激勵的全球訓練市場，使“訓練即挖礦”成為現實。

一、項目定位：訓練任務的執行協議層

Gensyn 不是“怎麼訓練”，而是“由誰訓練、如何驗證、如何分潤”的基礎設施。其本質是訓練任務的可驗證計算協議，其主要解決：

誰來執行訓練任務（算力分發與動態匹配）
如何驗證執行結果（無需全重算，僅驗證爭議算子）
如何分配訓練收益（Stake、Slashing 與多角色博弈機制）

二、技術架構總覽

層級	模塊	功能說明
執行層	RL Swarm	多模型協同強化學習系統，支持異構設備、局部更新，無需同步梯度
驗證層	Verde + PoL	訓練行為可驗證機制，結合最小化重算與梯度軌跡驗證
通信層	SkipPipe	支持跳層與動態調度的容錯通信機制，提升吞吐與穩定性
HDEE	支持異構專家模型協同訓練，適配多任務複雜數據場景
激勵層	多角色博弈機制	Submitter / Solver / Verifier / Whistleblower 角色協作博弈機制

三、模塊詳解

RL Swarm：協同強化學習訓練系統

Gensyn 首創的 RL Swarm 是一種面向後訓練階段的去中心化多模型協同優化系統，具備以下核心特性：

分佈式推理與學習流程：

生成階段（Answering）：每個節點獨立輸出答案；
批評階段（Critique）：節點互相點評他人輸出，選出最優答案與邏輯；
共識階段（Resolving）：預測大多數節點偏好並據此修改自身回答，實現局部權重更新。

Gensyn 所提出的 RL Swarm 是一個去中心化的多模型協同優化系統，每個節點運行獨立模型並進行本地訓練，無需梯度同步，天然適應異構算力與不穩定網絡環境，同時支持節點彈性接入與退出。該機制借鑑 RLHF 與多智能體博弈的思路，但更貼近協同推理網絡的動態演化邏輯，節點根據與群體共識結果的一致程度獲得獎勵，從而驅動推理能力的持續優化與趨同學習。RL Swarm 顯著提升了模型在開放網絡下的穩健性與泛化能力，已作為核心執行模塊率先在 Gensyn 基於 Ethereum Rollup 的 Testnet Phase 0 中部署上線。

Verde + Proof-of-Learning：可信驗證機制

Gensyn 的 Verde 模塊結合了三種機制：

Proof-of-Learning：基於梯度軌跡與訓練元數據判斷訓練是否真實發生；
Graph-Based Pinpoint：定位訓練計算圖中的分歧節點，僅需重算具體操作；
Refereed Delegation：採用仲裁式驗證機制，由 verifier 與 challenger 提出爭議並局部驗證，極大降低驗證成本。

相較於 ZKP 或全重算驗證方案，Verde 方案在可驗證性與效率之間取得更優平衡。

SkipPipe：通信容錯優化機制

SkipPipe 是為了解決“低帶寬 + 節點掉線”場景下的通信瓶頸問題，其核心能力包括：

跳層機制（Skip Ratio）：跳過受限節點，避免訓練阻塞；
動態調度算法：實時生成最優執行路徑；
容錯執行：即使 50% 節點失效，推理精度僅下降約 7%。

支持訓練吞吐提升高達 55%，並實現“early-exit 推理”、“無縫重排”、“推理補全”等關鍵能力。

HDEE：跨領域異構專家集群

HDEE（Heterogeneous Domain-Expert Ensembles）模塊致力於優化以下場景：

多領域、多模態、多任務訓練；
各類訓練數據分佈不均衡、難度差異大；
設備計算能力異構、通信帶寬不一致的環境下任務分配與調度問題。

其核心特性：

MHe-IHo：為不同難度的任務分配不同大小的模型（模型異構、訓練步長一致）；
MHo-IHe：任務難度統一、但訓練步長異步調整；
支持異構專家模型 + 可插拔訓練策略，提升適應性與容錯性；
強調“並行協同 + 極低通信 + 動態專家分配”，適用於現實中複雜的任務生態。
多角色博弈機制：信任與激勵並行

Gensyn 網絡引入四類參與者：

Submitter：發佈訓練任務、設定結構與預算；
Solver：執行訓練任務，提交結果；
Verifier：驗證訓練行為，確保其合規有效；
Whistleblower：挑戰驗證者，獲取仲裁獎勵或承擔罰沒。

該機制靈感來源於 Truebit 經濟博弈設計，通過強制插入錯誤 + 隨機仲裁，激勵參與者誠實協作，確保網絡可信運行。

四、測試網與路線圖規劃

階段	核心特性	目標
✅ Phase 0	RL Swarm + 身份追蹤機制	實現基本訓練任務協作與歸屬機制
🟡 Phase 1	集成 Verde 驗證與 SkipPipe 通信容錯	支持更多訓練類型與驗證方法
🟢 Phase 2	引入 RL 環境託管 + 模型預訓練任務	支持真實訓練需求、多模型並行
🟣 Phase 3	推理即服務（Inference-as-a-Service）	支持鏈上調用、模型即資產的服務能力
🏁 Final	主網上線 + Token 經濟閉環	構建“去中心化訓練市場”的完整執行層

五、團隊與融資背景

Gensyn 由 Ben Fielding 和 Harry Grieve 聯合創立，總部位於英國倫敦。2023 年 5 月，Gensyn 宣佈完成由 a16z crypto 領投的 4,300 萬美元 A 輪融資，其他投資方包括 CoinFund、Canonical、Ethereal Ventures、Factor 和 Eden Block。團隊背景融合分佈式系統與機器學習工程經驗，長期致力於構建可驗證、去信任化的大規模 AI 訓練執行網絡。

Nous Research：主體性 AI 理念驅動的認知演化式訓練系統

Nous Research 是目前少數兼具哲學高度與工程實現的去中心化訓練團隊，其核心願景源於“Desideratic AI”理念：將 AI 視為具有主觀性與演化能力的智能主體，而非單純的可控工具。Nous Research 的獨特性在於：它不是將 AI 訓練當作“效率問題”來優化，而是將其視為“認知主體”的形成過程。在這一願景驅動下，Nous 聚焦構建一個由異構節點協同訓練、無需中心調度、可抗審查驗證的開放式訓練網絡，並通過全棧式工具鏈進行系統化落地。

一、理念支撐：重新定義訓練的“目的”

Nous 並未在激勵設計或協議經濟學上投入過多，而是試圖改變訓練本身的哲學前提：

反對“alignmentism”：不認同以人類控制為唯一目標的“調教式訓練”，主張訓練應鼓勵模型形成獨立認知風格；
強調模型主體性：認為基礎模型應保留不確定性、多樣性與幻覺生成能力（hallucination as virtue）；
模型訓練即認知形成：模型不是“優化任務完成度”，而是參與認知演化過程的個體。

這一訓練觀雖然“浪漫”，但反映出 Nous 設計訓練基礎設施的核心邏輯：如何讓異構模型在開放網絡中演化，而非被統一規訓。

二、訓練核心：Psyche 網絡與 DisTrO 優化器

Nous 對去中心化訓練最關鍵的貢獻，是構建了 Psyche 網絡 與底層通信優化器 DisTrO（Distributed Training Over-the-Internet），共同構成訓練任務的執行中樞：DisTrO + Psyche 網絡具備多項核心能力，包括通信壓縮（採用 DCT + 1-bit sign 編碼，極大降低帶寬需求）、節點適配性（支持異構 GPU、斷線重連與自主退出）、異步容錯（無需同步亦可持續訓練，具備高容錯性）、以及去中心化調度機制（無需中心協調器，基於區塊鏈實現共識與任務分發）。這一架構為低成本、強彈性、可驗證的開放訓練網絡提供了現實可行的技術基礎。

組件

功能亮點

DisTrO 優化器

DisTrO（Distributed Training Over-the-Internet） 是 Nous 推出的分佈式訓練通信優化機制，旨在使大模型訓練能夠在普通消費級 GPU、非專業集群及高延遲、低帶寬網絡環境下依然實現高效、穩定運行。其核心特性包括：

極致通信壓縮：採用 DCT（離散餘弦變換）將梯度或動量轉化為頻域信號，僅保留能量最高的頻率分量（如 top-k 高頻），大幅降低每輪訓練所需的節點間通信量，有效緩解帶寬瓶頸。
訓練-通信並行（Overlapped DisTrO）：支持在單個節點完成當前梯度計算後立即進入下一輪訓練，而無需等待通信完成，實現訓練與通信重疊執行，顯著提升 GPU 利用率與整體吞吐效率。
異步/部分同步兼容：支持非全同步的訓練更新機制，允許節點在不同步狀態下獨立訓練，可容忍節點延遲、斷線或退出，增強網絡容錯與彈性協作能力。

DisTrO 的設計充分適配真實開放網絡環境，是 Nous 去中心化訓練架構實現“低成本參與 + 穩定收斂”的關鍵基礎組件之一。

Psyche 訓練網絡

分佈式通信與權重共享機制：Psyche 網絡以 Iroh + Solana 區塊鏈為協調層，確保訓練任務、參數更新與見證證明在節點之間的可信傳播，整個系統無需中心服務器或主控調度器，所有模型更新均通過 P2P 網絡與鏈上隨機種子機制自動觸發。

目前，Nous 已在 Psyche 網絡上啟動首個大模型預訓練任務——Consilience 訓練計劃，採用自研的 MLA（Multi-head Latent Attention）架構，區別於主流的 MoE 或 GQA 路線，進一步強調模型結構的表達自由與自我演化潛力。

這一架構設計強調實際可行性：不依賴中心服務器、適配全球志願節點、並具備訓練結果的鏈上可追蹤性。

三、Hermes / Forge / TEE_HEE 構成的推理與代理體系

除了構建去中心化訓練基礎設施，Nous Research 還圍繞“AI 主體性”理念開展了多個探索性系統實驗：

Hermes 開源模型系列：Hermes 1 至 3 是 Nous 推出的代表性開源大模型，基於 LLaMA 3.1 訓練，涵蓋 8B、70B 和 405B 三種參數規模。該系列旨在體現 Nous 所倡導的“去指令化、保留多樣性”訓練理念，在長上下文保持、角色扮演、多輪對話等方面展現出更強的表達力與泛化能力。
Forge Reasoning API：多模式推理系統

Forge 是 Nous 自研的推理框架，結合三種互補機制以實現更具彈性與創造力的推理能力：

MCTS（Monte Carlo Tree Search）：適用於複雜任務的策略搜索；
CoC（Chain of Code）：引入代碼鏈與邏輯推理的結合路徑；
MoA（Mixture of Agents）：允許多個模型進行協商，提升輸出的廣度與多樣性。

該系統強調“非確定性推理”與組合式生成路徑，是對傳統指令對齊範式的有力回應。

TEE_HEE：AI 自主代理實驗：TEE_HEE 是 Nous 在自治代理方向的前沿探索，旨在驗證 AI 是否能夠在可信執行環境（TEE）中獨立運行並擁有唯一的數字身份。該代理具備專屬的 Twitter 和以太坊賬戶，所有控制權限由遠程可驗證的 enclave 管理，開發者無法干預其行為。實驗目標是構建具備“不可篡改性”與“獨立行為意圖”的 AI 主體，邁出構建自治型智能體的重要一步。
AI 行為模擬器平臺：Nous 還開發了包括 WorldSim、Doomscroll、Gods & S8n 等多個模擬器，用於研究 AI 在多角色社會環境中的行為演化與價值形成機制。儘管不直接參與訓練流程，這些實驗為長期自治 AI 的認知行為建模奠定了語義層基礎。

四、團隊與融資概況

Nous Research 成立於 2023 年，由 Jeffrey Quesnelle（CEO）、Karan Malhotra、Teknium、Shivani Mitra 等人聯合創辦。團隊以哲學驅動與系統工程並重，擁有機器學習、系統安全、去中心化網絡等多元背景。2024 年獲得 520 萬美元種子輪融資，2025 年 4 月，完成由 Paradigm 領投的 5,000 萬美元 A 輪融資，估值達 10 億美元，躋身 Web3 AI 獨角獸行列。

Flock：區塊鏈增強型聯邦學習網絡

Flock.io 是一個基於區塊鏈的聯邦學習平臺，旨在實現 AI 訓練的數據、計算和模型的去中心化。FLock 傾向於“聯邦學習 + 區塊鏈獎勵層”的整合框架，本質上是對 傳統 FL 架構的鏈上演進版本，而非構建全新訓練協議的系統性探索。與 Gensyn、Prime Intellect、Nous Research 和 Pluralis 等去中心化訓練項目相比，Flock 側重隱私保護與可用性改進，而非在通信、驗證或訓練方法上展開理論突破，其真正適合對比的對象為 Flower、FedML、OpenFL 等聯邦學習系統。

一、Flock.io 的核心機制

聯邦學習架構：強調數據主權與隱私保護
Flock 基於經典聯邦學習（Federated Learning, FL）範式，允許多個數據擁有者在不共享原始數據的前提下協同訓練統一模型，重點解決數據主權、安全與信任問題。核心流程包括：

本地訓練：每個參與者（Proposer）在本地設備上訓練模型，不上傳原始數據；
鏈上聚合：訓練完成後提交本地權重更新，由鏈上 Miner聚合為全局模型；
委員會評估：通過 VRF 隨機選舉 Voter 節點使用獨立測試集評估聚合模型效果並打分；
激勵與懲罰：根據得分結果執行獎勵或罰沒抵押金，實現抗作惡與動態信任維護。

區塊鏈集成：實現去信任的系統協調
Flock 將訓練過程的核心環節（任務分配、模型提交、評估評分、激勵執行）全部鏈上化，以實現系統透明、可驗證與抗審查。主要機制包括：

VRF 隨機選舉機制：提升 Proposer 與 Voter 的輪換公平性與抗操控能力；
權益抵押機制（PoS）：通過代幣抵押與懲罰約束節點行為，提升系統魯棒性；
鏈上激勵自動執行：通過智能合約實現任務完成與評估結果綁定的獎勵分發與 slashing 扣罰，構建無需信任中介的協作網絡。

zkFL：零知識聚合機制的隱私保護創新：Flock 引入 zkFL 零知識聚合機制，使 Proposer 可提交本地更新的零知識證明，Voter 無需訪問原始梯度即可驗證其正確性，在保障隱私的同時提升訓練過程的可信性，代表了聯邦學習在隱私保護與可驗證性融合方向上的重要創新。

二、Flock 的核心產品組件

AI Arena：是 Flock.io 的去中心化訓練平臺，用戶可通過 train.flock.io 參與模型任務，擔任訓練者、驗證者或委託者角色，通過提交模型、評估表現或委託代幣獲得獎勵。目前任務由官方發佈，未來將逐步開放給社區共創。
FL Alliance：是 Flock 聯邦學習客戶端，支持參與者使用私有數據對模型進一步微調。通過 VRF 選舉、staking 與 slashing 機制，保障訓練過程的誠實性與協作效率，是連接社區初訓與真實部署的關鍵環節。
AI Marketplace：是模型共創與部署平臺，用戶可提議模型、貢獻數據、調用模型服務，支持數據庫接入與 RAG 強化推理，推動 AI 模型在各類實際場景中的落地與流通。

三、團隊與融資概況

Flock.io 由 Sun Jiahao 創立，已發行平臺代幣 FLOCK。項目累計融資 1,100 萬美元，投資方包括 DCG、Lightspeed Faction、Tagus Capital、Animoca Brands、Fenbushi、OKX Ventures 等。2024 年 3 月，Flock 完成 600 萬美元種子輪融資，用於啟動測試網及聯邦學習客戶端；同年 12 月追加 300 萬美元融資，並獲得以太坊基金會資助，專注研究區塊鏈驅動的 AI 激勵機制。目前，平臺創建6428個模型，接入訓練節點176個、驗證節點236個、委託者1178個。

相較於去中心化訓練項目，Flock 這類基於聯邦學習的系統在訓練效率、可擴展性與隱私保護方面更具優勢，尤其適用於中小規模模型的協同訓練，方案務實且易於落地，更偏向工程層面的可行性優化；而 Gensyn、Pluralis 等項目則在訓練方法與通信機制上追求更深層次的理論突破，系統挑戰更大，但也更貼近真正的“去信任、去中心”的訓練範式探索。

EXO：邊緣計算的去中心化訓練嘗試

EXO 是當前邊緣計算場景中極具代表性的AI 項目，致力於在家庭級消費設備上實現輕量化的 AI 訓練、推理與 Agent 應用。其去中心化訓練路徑強調“低通信開銷 + 本地自主執行”，採用 DiLoCo 異步延遲同步算法與 SPARTA 稀疏參數交換機制，大幅降低多設備協同訓練的帶寬需求。系統層面，EXO 並未構建鏈上網絡或引入經濟激勵機制，而是推出單機多進程模擬框架 EXO Gym，支持研究者在本地環境中便捷開展分佈式訓練方法的快速驗證與實驗。

一、核心機制概覽

DiLoCo 異步訓練：每 H 步進行一次節點同步，適配非穩定網絡；
SPARTA 稀疏同步：每步僅交換極少量參數（如 0.1%），保持模型相關性並降低帶寬需求；
異步組合優化：兩者可組合使用，在通信與性能之間取得更優折中。
evML 驗證機制探索：Edge-Verified Machine Learning（evML）提出使用 TEE / Secure Context進行低成本計算驗證，通過遠程驗證+抽查機制實現無需質押的邊緣設備可信參與，是經濟安全與隱私保障之間的工程型折中方案。

二、工具與場景應用

EXO Gym：可在單臺設備模擬多節點訓練環境，支持 NanoGPT、CNN、Diffusion 等模型的通信策略實驗；
EXO Desktop App：面向個人用戶的桌面 AI 工具，支持本地大模型運行、iPhone 鏡像控制、私人上下文集成（如短信、日曆、視頻記錄）等隱私友好型個性化功能。

EXO Gym更像是一個以探索導向的去中心化訓練實驗項目，主要通過整合現有的通信壓縮技術（如 DiLoCo 與 SPARTA）來實現訓練路徑的輕量化。相較於 Gensyn、Nous、Pluralis 等項目，EXO 尚未邁入鏈上協作、可驗證激勵機制或真實分佈式網絡部署等核心階段。

去中心化訓練的前鏈條引擎：模型預訓練全景研究

面對去中心化訓練中普遍存在的設備異構、通信瓶頸、協調困難與缺乏可信執行等核心挑戰，Gensyn、Prime Intellect、Pluralis 與 Nous Research 分別提出了具有差異化的系統架構路徑。從訓練方法和通信機制兩個層面來看，這四個項目展現了各自獨特的技術焦點與工程實現邏輯。

在訓練方法優化方面，四者分別從協同策略、更新機制和異步控制等關鍵維度展開探索，覆蓋了從預訓練到後訓練的不同階段。

Prime Intellect 的 PRIME-RL 屬於面向預訓練階段的異步調度結構，通過“本地訓練 + 週期性同步”的策略，在異構環境下實現高效而可驗證的訓練調度機制。該方法強具有較強的通用性與靈活性。理論創新度較高，在訓練控制結構上提出明確範式；工程實現難度中高，對底層通信與控制模塊有較高要求。
Nous Research 推出的 DeMo 優化器，則聚焦於異步低帶寬環境下的訓練穩定性問題，實現了異構 GPU 條件下的高容錯梯度更新流程，是當前少數在“異步通信壓縮閉環”上完成理論與工程統一的方案。理論創新度很高，特別是在壓縮與調度協同路徑上具有代表性；工程實現難度也很高，尤其依賴異步並行的協調精度。
Pluralis 的 SWARM + NAG 則是目前異步訓練路徑中最具系統性與突破性的設計之一。它基於異步模型並行框架，引入 Column-space 稀疏通信與 NAG 動量修正，構建出一種可在低帶寬條件下穩定收斂的大模型訓練方案。理論創新度極高，是異步協同訓練的結構性開創者；工程難度同樣極高，需要多級同步與模型切分的深度集成。
Gensyn 的 RL Swarm 主要服務於後訓練階段，聚焦於策略微調與智能體協同學習。其訓練過程遵循“生成 - 評估 - 投票”的三步流程，特別適合多代理系統中複雜行為的動態調整。理論創新度中高，主要體現在智能體協同邏輯上；工程實現難度適中，主要挑戰在於系統調度與行為收斂控制。

在通信機制優化層面，這四個項目亦各有針對性佈局，普遍關注帶寬瓶頸、節點異構與調度穩定性問題的系統解法。

Prime Intellect 的 PCCL 是一個用於替代傳統 NCCL 的底層通信庫，旨在為上層訓練協議提供更穩健的集體通信基礎。理論創新度中高，在容錯通信算法上有一定突破；工程難度中等，具備較強的模塊適配性。
Nous Research 的 DisTrO 是 DeMo 的通信核心模塊，強調在低帶寬下實現最小通信開銷的同時保障訓練閉環的連貫性。理論創新度高，在調度協同結構上具備通用性設計價值；工程難度高，對壓縮精度與訓練同步要求高。
Pluralis 的通信機制深度嵌入 SWARM 架構中，顯著降低了大模型異步訓練中的通信負載，在保障收斂性的同時保持高效吞吐。理論創新度高，為異步模型通信設計樹立了範式；工程難度極高，依賴分佈式模型編排與結構稀疏性控制。
Gensyn 的 SkipPipe 是配套 RL Swarm 的容錯調度組件。該方案部署成本低，主要用於工程落地層的訓練穩定性增強。理論創新度一般，更多是已知機制的工程化實現；工程難度較低，但在實際部署中實用性強。

此外，我們可以從區塊鏈協作層與AI訓練層更為宏觀的兩大類衡量去中心化訓練項目的價值：

區塊鏈協作層面：強調協議可信性與激勵協作邏輯

可驗證性：對訓練過程是否可驗證、是否引入博弈或加密機制建立信任；
激勵機制 ：是否設計了任務驅動的 Token 獎勵/角色機制；
開放性與准入門檻 ：節點是否易於接入，是否中心化或許可控制。

AI訓練系統層面：突出工程能力與性能可達性

調度與容錯機制 ：是否容錯、異步、動態、分佈式調度；
訓練方法優化 ：是否對模型訓練算法或結構有優化；
通信路徑優化：是否壓縮梯度/稀疏通信，適應低帶寬。

以下表格基於上述指標體系，對 Gensyn、Prime Intellect、Pluralis 和 Nous Research 在去中心化訓練路徑上的技術深度、工程成熟度與理論創新進行了系統性評估。

維度	Gensyn	Prime Intellect	Pluralis	Nous Research	Flock.io
任務控制層級	任務層（通用）	策略層（強化學習）	模型層（並行訓練）	模型層（哲學驅動訓練）	參數層（聯邦聚合）
架構形式與模型限制	自由網絡調度 + Proof 驗證；無模型限制	異步強化學習結構；模型需兼容 RL 形式	模型分片 + 權重不可提取；必須支持模型並行	無中心調度；訓練方式自主演化	經典聯邦學習；支持本地訓練 + 參數上鍊聚合
可驗證機制與對象	PoL + Graph Pinpoint；驗證訓練行為真實性	TOPLOC（軌跡驗證）；驗證觀測-策略是否真實	尚無完整驗證系統；未來依賴模型不可提取實現控制	拒絕外部驗證機制；強調行為本體與智能演化	VRF + 投票機制 + Staking 懲罰；不依賴 ZK/FHE
激勵機制結構	提交者 / 驗證者 / 吹哨人角色博弈 + 挑戰獎勵	軌跡真實性驅動獎勵；多任務池積分分配	貢獻換取模型所有權 + 推理激勵 + 治理權投票	激勵非核心；實驗性自治體設計	模型打分發獎勵；惡意節點罰沒抵押金；鏈上透明執行
調度與容錯設計	SkipPipe 容錯機制 + 路由調度 + 掉線恢復	Shardcast 異步權重合並 + 多版本共存	Swarm Pipeline 異步訓練 + 彈性上下線	DisTrO + Psyche 支持異步分發 + 任意節點接入退出	VRF 選舉調度 + 抵押/懲罰機制；無通信容錯結構
訓練方法優化	RL Swarm：多模型協同訓練 + 自適應強化學習	PRIME-RL：任務-策略-更新解耦訓練結構	SWARM + NAG 異步優化器；低帶寬穩定性設計	去對齊訓練 + 多風格生成；強調幻覺作為創造性來源	本地訓練 + 聚合；缺乏核心訓練創新
通信機制優化	SkipPipe：跳躍路徑 + Early-exit 路由 + 推理重排	PCCL：全異步 all-reduce + 跨洲恢復拓撲	Column Space 稀疏壓縮 Transformer 激活路徑	DCT + 1-bit Sign 壓縮通信 + 並行訓練執行	無通信優化機制；通信量本就較低
開放性與准入門檻	支持輕節點接入 + 任務自由創建 + 無需許可	異步結構適配低算力節點 + 無許可機制	異構友好；節點彈性參與 + 支持非穩定網絡	完全開放；節點身份與行為皆可自由演化	節點需質押 FLOCK 代幣；任務/驗證有資格門檻
理論創新定位	訓練即任務市場；任務-驗證-激勵一體結構	軌跡即共識；可驗證強化軌跡即激勵基礎	Protocol Learning：訓練即協議；建構不可提取模型與所有權	Desideratic AI：AI 為演化主體；拒絕對齊式訓練範式	聯邦學習鏈上落地；聚焦數據隱私與信任激勵機制
工程複雜度	高	高	中高	極高	中
項目進展	✅ RL Swarm 已上線測試網	✅ INTELLECT-2 模型與機制發佈	🔄 研究階段；尚未上線測試版本	🔬 Hermes 模型已開源；TEE_HEE 自治實驗上線	✅ AI Arena / FL Alliance 已運行；模型數超過 30

去中心化訓練的後鏈條生態：基於 LoRA 的模型微調

在去中心化訓練的完整價值鏈中，Prime Intellect、Pluralis.ai、Gensyn 和 Nous Research 等項目主要聚焦於模型預訓練、通信機制與協同優化等前端基礎設施建設。然而，另有一類項目則專注於訓練後階段的模型適配與推理部署（post-training fine-tuning & inference delivery），不直接參與預訓練、參數同步或通信優化等系統性訓練流程。代表性項目包括 Bagel、Pond 和 RPS Labs，他們均以 LoRA 微調方法為核心，構成去中心化訓練生態圖譜中關鍵的“後鏈條”一環。

LoRA + DPO：Web3 微調部署的現實路徑

LoRA（Low-Rank Adaptation）是一種高效的參數微調方法，其核心思路是在預訓練大模型中插入低秩

來源

免責聲明：以上內容僅為作者觀點，不代表Followin的任何立場，不構成與Followin相關的任何投資建議。

喜歡

評論