從計算到智能:強化學習驅動的去中心化人工智能投資路線圖

本文為機器翻譯
展示原文

強化學習:去中心化人工智能的範式轉變

作者: @0xjacobzhao | https://linktr.ee/0xjacobzhao

本獨立研究報告由IOSG Ventures提供支持。研究和撰寫過程的靈感來源於Sam Lehman (Pantera Capital)強化學習領域的工作。感謝Ben Fielding Gensyn.ai )、 Gao Yuan Gradient )、 Samuel DareErfan Miahi Covenant AI )、 Shashank Yadav Fraction AI )以及Chao Wang的貢獻。 感謝各位對本文提出的寶貴建議。本文力求客觀準確,但部分觀點涉及主觀判斷,可能存在偏見。感謝讀者的理解。

人工智能正從基於模式的統計學習轉向結構化推理系統,而訓練後訓練——尤其是強化學習——對於能力擴展至關重要。DeepSeek -R1標誌著範式轉變:強化學習如今已顯著提升推理深度和複雜決策能力,從單純的對齊工具發展成為持續智能增強的途徑。

與此同時,Web3 正在通過去中心化計算和加密激勵重塑人工智能的生產模式,其可驗證性和協調性與強化學習的需求天然契合。本報告探討了人工智能訓練範式和強化學習的基本原理,重點闡述了“強化學習 × Web3 ”的結構優勢,並分析了 Prime Intellect、Gensyn、Nous Research、Gradient、Grail 和 Fraction AI 等公司。

一、人工智能訓練的三個階段

現代邏輯學習模型(LLM)訓練分為三個階段——預訓練監督微調(SFT)後訓練/強化學習——分別對應於構建世界模型、注入任務能力以及塑造推理和價值觀。它們的計算和驗證特性決定了它們與去中心化的兼容性。

  • 預訓練:通過大規模自監督學習建立核心統計和多模態基礎,消耗總成本的 80-95%,需要緊密同步的同構 GPU 集群和高帶寬數據訪問,使其本質上是集中式的。
  • 監督微調 (SFT):以較小的數據集和較低的成本 (5-15%) 添加任務和指令功能,通常使用 PEFT 方法,如 LoRA 或 Q-LoRA,但仍然依賴於梯度同步,限制了去中心化。
  • 訓練後階段:訓練後階段包含多個迭代步驟,用於塑造模型的推理能力、價值觀和安全邊界。它涵蓋了基於強化學習的方法(例如 RLHF、RLAIF、GRPO) 、非強化學習的偏好優化方法(例如DPO)以及過程獎勵模型 ( PRM) 。由於數據和成本需求較低(約 5-10%),計算重點在於部署和策略更新。它原生支持異步分佈式執行——通常無需完整的模型權重——使得訓練後階段成為基於 Web3 的去中心化訓練網絡的最佳選擇,尤其是在結合可驗證計算和鏈上激勵機制時。

二、強化學習技術概覽

2.1 強化學習的系統架構

強化學習通過環境交互、獎勵信號和策略更新的反饋循環,使模型能夠改進決策。從結構上看,強化學習系統由三個核心組件構成:策略網絡用於經驗採樣的展開機制用於策略優化的學習器。策略網絡通過與環境交互生成軌跡,而學習器則根據獎勵更新策略,從而形成一個持續迭代的學習過程。

  1. 策略網絡(策略):根據環境狀態生成動作,是系統的決策核心。它需要集中式反向傳播來保持訓練過程中的一致性;在推理過程中,它可以分佈到不同的節點進行並行操作。
  2. 經驗採樣(部署):節點根據策略執行環境交互,生成狀態-動作-獎勵軌跡。該過程高度並行,通信量極低,對硬件差異不敏感,是去中心化擴展中最適合的組件。
  3. 學習器:聚合所有 Rollout 軌跡並執行策略梯度更新。它是唯一對計算能力和帶寬要求最高的模塊,因此通常採用集中式或輕集中式架構,以確保收斂穩定性。

2.2 強化學習階段框架

強化學習通常可以分為五個階段,整個過程如下:

  1. 數據生成階段(策略探索):給定一個提示,策略對多個推理鏈或軌跡進行採樣,為偏好評估和獎勵建模提供候選方案,並定義策略探索的範圍。
  2. 偏好反饋階段(RLHF / RLAIF):
  • RLHF(基於人類反饋的強化學習):根據人類偏好訓練獎勵模型,然後使用強化學習(通常是 PPO)根據該獎勵信號優化策略。
  • RLAIF(從人工智能反饋中強化學習):用人工智能法官或憲法規則取代人類,降低成本並擴大協調範圍——現在已成為 Anthropic、OpenAI 和 DeepSeek 的主要方法。

3. 獎勵建模階段(獎勵建模):學習如何根據偏好對將輸出映射到獎勵。RM 教模型“什麼是正確答案”,而 PRM 教模型“如何正確推理”。

  • RM(獎勵模型):用於評估最終答案的質量,僅對輸出結果進行評分。
  • 過程獎勵模型(PRM):對逐步推理進行評分,有效地訓練模型的推理過程(例如,在 o1 和 DeepSeek-R1 中)。

4. 獎勵驗證(RLVR / 獎勵可驗證性) :獎勵驗證層約束獎勵信號,使其僅來源於可復現的規則、真實事實或共識機制。這可以減少獎勵作弊和系統性偏差,並提高開放和分佈式訓練環境中的可審計性和魯棒性。

5. 策略優化階段(策略優化):在獎勵模型提供的信號指導下更新策略參數 $\theta$,以獲得推理能力更強、安全性更高、行為模式更穩定的策略 $\pi_{\theta'}$。主流的優化方法包括:

  • PPO(近端策略優化):標準的 RLHF 優化器,因其穩定性而受到重視,但受限於複雜推理中的收斂速度慢。
  • GRPO(組相對策略優化):由 DeepSeek-R1 引入,使用組級優勢估計而不是簡單的排序來優化策略,從而保持價值幅度並實現更穩定的推理鏈優化。
  • DPO(直接偏好優化):通過直接優化偏好對來繞過強化學習——對於對齊來說成本低廉且穩定,但在提高推理能力方面效果不佳。

6. 新政策部署階段(新政策部署):更新後的模型表現出更強的系統 2 推理能力、更好的偏好一致性、更少的幻覺和更高的安全性,並通過迭代反饋循環不斷改進。

2.3 強化學習的工業應用

強化學習(RL)已從早期的遊戲智能發展成為跨行業自主決策的核心框架。根據技術成熟度和產業應用情況,其應用場景可歸納為五大類:

  • 遊戲與策略:這是強化學習最早得到驗證的方向。在AlphaGo、AlphaZero、AlphaStar和OpenAI Five等“完美信息+明確獎勵”的環境中,強化學習展現出了與人類專家相當甚至超越人類專家的決策智能,為現代強化學習算法奠定了基礎。
  • 機器人技術與具身人工智能:通過連續控制、動力學建模和環境交互,強化學習使機器人能夠學習操作、運動控制和跨模態任務(例如,RT-2、RT-X)。它正迅速走向產業化,是機器人實際部署的關鍵技術途徑。
  • 數字推理/LLM系統-2:強化學習+概率資源管理(RL+PRM)驅動大型模型從“語言模仿”發展到“結構化推理”。代表性成果包括DeepSeek-R1、OpenAI o1/o3、Anthropic Claude和AlphaGeometry。本質上,它在推理鏈層面進行獎勵優化,而不僅僅是評估最終答案。
  • 科學發現與數學優化:強化學習(RL)能夠在無標籤、複雜獎勵和龐大的搜索空間中找到最優結構或策略。它在 AlphaTensor、AlphaDev 和 Fusion RL 領域取得了基礎性突破,展現出超越人類直覺的探索能力。
  • 經濟決策與交易:強化學習(RL)應用於策略優化、高維風險控制和自適應交易系統生成。與傳統量化模型相比,它能夠在不確定環境下持續學習,是智能金融的重要組成部分。

三、強化學習與Web3的天然契合

強化學習和 Web3 作為激勵驅動系統,天然契合:強化學習通過獎勵優化行為,而區塊鏈則通過經濟激勵協調參與者。強化學習的核心需求——大規模異構部署、獎勵分配和可驗證的執行——與 Web3 的結構優勢完美契合。

  1. 推理與訓練的解耦:強化學習分為部署階段和更新階段:部署階段計算量大但通信量小,可以在分佈式消費級GPU上並行運行;而更新階段則需要集中式的高帶寬資源。這種解耦使得開放網絡能夠利用代幣激勵來處理部署階段,而集中式更新階段則能維持訓練的穩定性。
  2. 可驗證性:零知識 (ZK) 和學習證明 (Proof-of-Learning) 提供了驗證節點是否真正執行了推理的方法,從而解決了開放網絡中的誠信問題。在代碼和數學推理等確定性任務中,驗證者只需檢查答案即可確認工作負載,這顯著提高了去中心化強化學習系統的可信度。
  3. 激勵層,基於代幣經濟的反饋生成機制: Web3 代幣激勵可以直接獎勵 RLHF/RLAIF 反饋貢獻者,實現透明、無需許可的偏好生成,質押和懲罰機制比傳統的眾包更有效地強制執行質量。
  4. 多智能體強化學習 (MARL) 的潛力:區塊鍊形成開放的、激勵驅動的多智能體環境,具有公開狀態、可驗證執行和可編程激勵,使其成為大規模 MARL 的天然試驗平臺,儘管該領域仍處於早期階段。

四、Web3+強化學習項目分析

基於上述理論框架,我們將簡要分析當前生態系統中最具代表性的項目:

Prime Intellect:異步強化學習 prime-rl

Prime Intellect致力於構建開放的全球計算市場和開源超級智能技術棧,涵蓋Prime ComputeINTELLECT 模型系列、開放式強化學習環境以及大規模合成數據引擎。其核心框架 prime-rl專為異步分佈式強化學習而設計,並輔以OpenDiLoCo實現高效帶寬訓練,以及TopLoc進行驗證。

Prime Intellect 核心基礎架構組件概述

技術基石:prime-rl異步強化學習框架

prime-rl 是 Prime Intellect 的核心訓練引擎,專為大規模異步去中心化環境而設計。它通過完全的 Actor-Learner 解耦,實現了高吞吐量推理和穩定更新。執行器(Rollout Worker)和學習器(Trainer)不會同步阻塞。節點可以隨時加入或離開,只需持續拉取最新策略並上傳生成的數據即可:

  • Actor(部署工作節點):負責模型推理和數據生成。Prime Intellect 創新性地將 vLLM 推理引擎集成到 Actor 端。vLLM 的 PagedAttention 技術和連續批處理功能使 Actor 能夠以極高的吞吐量生成推理軌跡。
  • 學習器(訓練器):負責策略優化。學習器異步地從共享的經驗緩衝區提取數據以更新梯度,而無需等待所有 Actor 完成當前批次。
  • 協調器:負責安排模型權重和數據流。

prime-rl 的主要創新點:

  • 真正的異步性: prime-rl 摒棄了 PPO 的傳統同步範式,無需等待慢節點,也無需批處理對齊,使得任意數量和性能的 GPU 都能隨時訪問,從而建立了去中心化強化學習的可行性。
  • FSDP2與MoE的深度融合:通過FSDP2參數分片和MoE稀疏激活,prime-rl能夠在分佈式環境中高效訓練數百億參數模型。Actor僅運行活躍專家,顯著降低了顯存佔用和推理成本。
  • GRPO+(組相對策略優化): GRPO 消除了 Critic 網絡,顯著降低了計算和顯存開銷,並能自然地適應異步環境。prime-rl 的 GRPO+ 通過穩定機制確保在高延遲條件下也能可靠收斂。

INTELLECT 模型家族:去中心化強化學習技術成熟的象徵

  • INTELLECT-1(10B,2024 年 10 月):首次證明 OpenDiLoCo 可以在跨越三大洲的異構網絡中高效訓練(通信份額 < 2%,計算利用率 98%),打破了跨區域訓練的物理認知。
  • INTELLECT-2(32B,2025 年 4 月):作為第一個無需許可的強化學習模型,它驗證了 prime-rl 和 GRPO+ 在多步延遲和異步環境下的穩定收斂能力,實現了具有全球開放計算參與性的去中心化強化學習。
  • INTELLECT-3(1060億教育部預算,2025年11月):採用稀疏架構,僅激活120億個參數,在512×H200數據集上訓練,並取得了旗艦級推理性能(AIME 90.8%,GPQA 74.4%,MMLU-Pro 81.9%等)。其整體性能接近或超越了規模遠大於自身的集中式閉源模型。

Prime Intellect 構建了一套完整的去中心化強化學習 (RL) 技術棧:OpenDiLoCo 將跨區域的訓練流量大幅降低,同時在各大洲保持了約 98% 的利用率;TopLoc 和 Verifiers 通過激活指紋和沙盒驗證確保推理和獎勵數據的可信度;SYNTHETIC 數據引擎生成高質量的推理鏈,並通過流水線並行技術使大型模型能夠在消費級 GPU 上高效運行。這些組件共同支撐著去中心化 RL 中可擴展的數據生成、驗證和推理,INTELLECT 系列產品證明了此類系統能夠在實踐中交付世界一流的模型。

Gensyn:RL Core Stack、RL Swarm 和 SAPO

Gensyn致力於將全球閒置計算資源整合到一個無需信任、可擴展的 AI 訓練網絡中,它結合了標準化執行、P2P 協調和鏈上任務驗證。通過 RL Swarm、SAPO 和 SkipPipe 等機制,Gensyn 將生成、評估和更新過程在異構 GPU 之間解耦,不僅提供計算能力,更提供可驗證的智能。

Gensyn堆棧中的強化學習應用

RL Swarm:去中心化協作強化學習引擎

RL Swarm 展示了一種全新的協作模式。它不再是簡單的任務分配,而是一個受協作學習啟發、模擬人類社會學習的去中心化生成-評估-更新無限循環:

  • 求解器(執行器):負責本地模型推理和 Rollout 生成,不受節點異構性的影響。Gensyn 在本地集成了高吞吐量推理引擎(例如 CodeZero),以輸出完整的軌跡,而不僅僅是答案。
  • 提案者:動態生成任務(數學問題、編程問題等),實現任務多樣性和類似課程的適應性,以根據模型能力調整訓練難度。
  • 評估者:使用固定的“評判模型”或規則來檢查輸出質量,形成由每個節點獨立評估的局部獎勵信號。評估過程可審計,從而減少了惡意行為的可能性。

這三者構成了P2P RL組織結構,無需集中調度即可完成大規模協作學習。

SAPO:為分散化而重構的策略優化算法

SAPO(群體採樣策略優化)的核心在於共享展開式,同時過濾掉那些不包含梯度信號的展開式,而非共享梯度。通過實現大規模分散式展開式採樣,並將接收到的展開式視為本地生成,SAPO 能夠在缺乏中心協調且節點延遲差異顯著的環境中保持穩定的收斂性。與 PPO(依賴於計算成本極高的評判網絡)或 GRPO(依賴於群體級優勢估計而非簡單的排序)相比,SAPO 使得消費級 GPU 能夠以極低的帶寬需求高效地參與大規模強化學習優化。

Gensyn 通過RL SwarmSAPO證明,強化學習(尤其是訓練後的 RLVR)天然適合去中心化架構,因為它更依賴於通過 rollout 進行的多樣化探索,而非高頻參數同步。結合PoLVerde驗證系統,Gensyn 為訓練萬億參數模型提供了一條替代路徑:一個由全球數百萬個異構 GPU 組成的自演化超級智能網絡。

Nous Research:強化學習環境 Atropos

Nous Research正在構建一個去中心化的、可自我演化的認知技術棧,其中 Hermes、Atropos、DisTrO、Psyche 和 World Sim 等組件構成了一個閉環智能系統。該系統利用 DPO、GRPO 和拒絕採樣等強化學習方法,以貫穿數據生成、學習和推理的持續反饋取代了線性訓練流程。

Nous 研究組件概述

模型層:赫爾墨斯與推理能力的演化

Hermes系列是Nous Research面向用戶的主要模型界面。它的演變清晰地展現了行業從傳統的SFT/DPO模式向推理強化學習(Reasoning RL)模式的轉變路徑:

  • Hermes 1-3:指令對齊和早期代理功能: Hermes 1-3 依靠低成本的 DPO 實現穩健的指令對齊,並利用合成數據,並在 Hermes 3 中首次引入 Atropos 驗證機制。
  • Hermes 4 / DeepHermes:通過思維鏈將 System 2 風格的慢思考寫入權重,通過測試時縮放提高數學和代碼性能,並依靠“拒絕採樣 + Atropos 驗證”來構建高純度推理數據。
  • DeepHermes進一步採用 GRPO 取代 PPO(主要是因為 PPO 難以實現),使推理強化學習能夠在 Psyche 去中心化 GPU 網絡上運行,為開源推理強化學習的可擴展性奠定了工程基礎。

Atropos:可驗證的獎勵驅動強化學習環境

Atropos 是 Nous 強化學習系統的真正核心。它將提示、工具調用、代碼執行和多輪交互封裝到一個標準化的強化學習環境中,直接驗證輸出是否正確,從而提供確定性的獎勵信號,以取代成本高昂且難以擴展的人工標註。更重要的是,在去中心化訓練網絡 Psyche 中,Atropos 充當“裁判”,驗證節點是否真正改進了策略,支持可審計的學習證明,從根本上解決了分佈式強化學習中的獎勵可信度問題。

DisTrO 和 Psyche:去中心化強化學習的優化器層

傳統的RLF(RLHF/RLAIF)訓練依賴於集中式的高帶寬集群,這是開源技術無法複製的核心障礙。DisTrO通過動量解耦和梯度壓縮將強化學習的通信成本降低了幾個數量級,使得訓練能夠在互聯網帶寬上運行;Psyche將這種訓練機制部署在鏈上網絡上,允許節點在本地完成推理、驗證、獎勵評估和權重更新,從而形成一個完整的強化學習閉環。

在Nous系統中, Atropos驗證思維鏈; DisTrO壓縮訓練通信; Psyche運行強化學習循環; World Sim提供複雜環境; Forge收集真實推理過程; Hermes將所有學習成果寫入權重。強化學習不僅僅是一個訓練階段,更是連接Nous架構中數據、環境、模型和基礎設施的核心協議,使Hermes成為一個能夠在開放計算網絡上持續自我改進的“生命系統”。

梯度網絡:強化學習架構回聲

Gradient Network旨在通過開放智能堆棧重建 AI 計算:這是一套模塊化的互操作協議,涵蓋 P2P 通信 (Lattica)、分佈式推理 (Parallax)、去中心化 RL 訓練 (Echo)、驗證 (VeriLLM)、模擬 (Mirage) 以及更高級別的內存和代理協調——共同構成一個不斷發展的去中心化智能基礎設施。

Echo——強化學習訓練架構

Echo 是 Gradient 的強化學習框架。其核心設計原則在於將強化學習中的訓練、推理和數據(獎勵)路徑解耦,分別在異構推理群和訓練群中運行,並通過輕量級同步協議在廣域異構環境中保持穩定的優化行為。這有效地緩解了傳統 DeepSpeed RLHF/VERL 中因混合推理和訓練而導致的 SPMD 故障和 GPU 利用率瓶頸。

Echo 採用“推理訓練雙集群架構”來最大限度地利用計算能力。兩個集群獨立運行,互不干擾:

  • 最大化採樣吞吐量:推理集群由消費級 GPU 和邊緣設備組成,通過與 Parallax 的流水線並行構建高吞吐量採樣器,專注於軌跡生成。
  • 最大化梯度計算能力:訓練群可以在集中式集群或全球分佈式消費級 GPU 網絡上運行,負責梯度更新、參數同步和 LoRA 微調,專注於學習過程。

為了保持策略和數據的一致性,Echo 提供了兩種輕量級同步協議:順序同步異步同步,用於管理策略權重和軌跡的雙向一致性:

  • 順序拉取模式(準確率優先):訓練端強制推理節點在拉取新軌跡之前刷新模型版本,以確保軌跡的新鮮度,適用於對策略陳舊性高度敏感的任務。
  • 異步推拉模式(效率優先):推理端持續生成帶有版本標籤的軌跡,訓練端則按自身節奏使用這些軌跡。協調器監控版本偏差並觸發權重刷新,從而最大限度地提高設備利用率。

Echo 底層基於 Parallax(低帶寬環境下的異構推理)和輕量級分佈式訓練組件(例如 VERL),依靠 LoRA 來降低跨節點同步成本,從而使強化學習能夠在全局異構網絡上穩定運行。

Grail:Bittensor 生態系統中的強化學習

Bittensor 通過其獨特的 Yuma 共識機制構建了一個龐大、稀疏、非平穩的獎勵函數網絡。

在Bittensor生態系統中, Covenant AI通過SN3 Templar、SN39 Basilica和SN81 Grail構建了從預訓練到強化學習後訓練的垂直整合流水線。其中,SN3 Templar負責基礎模型預訓練,SN39 Basilica提供分佈式算力市場,而SN81 Grail作為強化學習後訓練的“可驗證推理層”,承載RLHF/RLAIF的核心流程,並完成從基礎模型到對齊策略的閉環優化。

GRAIL通過加密方式驗證強化學習部署並將其與模型身份綁定,從而實現無需信任的強化學習框架(RLHF)。它利用確定性挑戰來防止預計算,利用低成本採樣和承諾來驗證部署,並利用模型指紋來檢測替換或重放——為強化學習推理軌跡建立端到端的真實性。

Grail 的子網實現了一個可驗證的 GRPO 式訓練後循環:礦工生成多條推理路徑,驗證者對正確性和推理質量進行評分,並將歸一化結果寫入鏈上。公開測試將 Qwen2.5–1.5B MATH 的準確率從 12.7% 提升至 47.6%,展現出強大的抗作弊能力和顯著的性能提升;在 Covenant AI 中,Grail 作為去中心化 RLVR/RLAIF 的信任和執行核心。

Fraction AI:基於競爭的強化學習 RLFC

Fraction AI將對齊問題重新定義為基於競爭的強化學習,它採用遊戲化的標註方式和智能體之間的競賽。相對排名和 AI 評委評分取代了靜態的人工標註,將 RLHF 轉變為一個持續的、競爭性的多智能體遊戲。

傳統RLHF與Fraction AI的RLFC之間的核心區別:

RLFC的核心價值在於獎勵來源於不斷演變的對手和評估者,而非單一模型,從而減少獎勵作弊行為並保持策略多樣性。空間設計塑造了遊戲動態,促成了複雜的競爭與合作行為。

在系統架構方面,Fraction AI 將訓練過程分解為四個關鍵組成部分:

  • 代理:基於開源 LLM 的輕量級策略單元,通過 QLoRA 擴展,具有差異化權重以實現低成本更新。
  • 空間:孤立的任務領域環境,智能體付費進入並通過獲勝獲得獎勵。
  • AI 評委:採用 RLAIF 構建的即時獎勵層,提供可擴展的去中心化評估。
  • 學習證明:將政策更新與特定比賽結果綁定,確保訓練過程可驗證且防作弊。

Fraction AI 的功能類似於人機協同進化引擎:用戶充當元優化器來指導探索,而代理則競爭生成高質量的偏好數據,從而實現無需信任的商業化微調。

Web3強化學習項目架構比較

V. 強化學習的路徑與機遇 × Web3

在這些前沿項目中,儘管切入點不同,但強化學習與 Web3 結合,始終朝著共享的“解耦-驗證-激勵”架構發展——這是將強化學習應用於去中心化網絡的必然結果。

強化學習的通用架構特徵:解決核心物理限制和信任問題

  1. 演練與學習的解耦(推理/訓練的物理分離)——默認計算拓撲:通信稀疏、可並行化的演練外包給全球消費級GPU,而高帶寬的參數更新則集中在少數訓練節點上。從Prime Intellect的異步Actor-Learner到Gradient Echo的雙群架構,都遵循這一原則。
  2. 基於驗證的信任——基礎設施化:在無需許可的網絡中,必須通過數學和機制設計來強制保證計算的真實性。代表性的實現包括 Gensyn 的 PoL、Prime Intellect 的 TopLoc 和 Grail 的密碼驗證。
  3. 代幣化激勵循環——市場自律:代幣供應量計算、數據生成、驗證排序和獎勵分配構成一個閉環。獎勵驅動參與,懲罰機制抑制作弊行為,從而在開放環境中保持網絡穩定並持續發展。

差異化技術路徑:一致架構下的不同“突破點”

儘管建築風格趨於融合,但各個項目會根據自身的基因選擇不同的技術壁壘:

  • 算法突破學校(Nous Research):在優化器級別解決分佈式訓練的帶寬瓶頸——DisTrO 將梯度通信壓縮了幾個數量級,旨在實現通過家庭寬帶進行大型模型訓練。
  • 系統工程學院(Prime Intellect、Gensyn、Gradient):專注於構建下一代“AI運行時系統”。Prime Intellect的ShardCast和Gradient的Parallax旨在通過極致的工程手段,在現有網絡條件下最大限度地提高異構集群的效率。
  • 市場博弈學派(Bittensor、Fraction AI):專注於獎勵函數的設計。通過設計複雜的評分機制,他們引導礦工自發地找到最優策略,從而加速智能的湧現。

優勢、挑戰和終局展望

在強化學習與 Web3 相結合的範式下,系統級優勢首先體現在成本結構和治理結構的重寫上。

  • 成本重塑:強化學習後訓練對採樣有著無限的需求(Rollout)。Web3 可以以極低的成本調動全球長尾計算能力,這是集中式雲服務提供商難以匹敵的成本優勢。
  • 主權聯盟:打破大型科技公司對人工智能價值觀(聯盟)的壟斷。社區可以通過代幣投票決定模型的“好答案”,實現人工智能治理的民主化。

與此同時,該系統面臨兩個結構性制約因素:

  • 帶寬瓶頸:儘管有 DisTrO 等創新技術,物理延遲仍然限制了超大型參數模型(700 億以上)的完整訓練。目前,Web3 AI 更多地侷限於微調和推理。
  • 獎勵機制濫用(古德哈特定律):在激勵機制高度完善的網絡中,礦工極易“過度擬合”獎勵規則(鑽空子),而非真正提升自身智能。設計防作弊、穩健的獎勵函數是一項永無止境的挑戰。
  • 惡意拜占庭工人:指的是故意操縱和汙染訓練信號以破壞模型收斂。其核心挑戰並非持續設計抗作弊的獎勵函數,而是具有對抗魯棒性的機制。

強化學習(RL)和Web3正在通過去中心化的部署網絡、鏈上資產化反饋以及具有直接價值獲取能力的垂直強化學習代理重塑智能。真正的機遇並非去中心化的OpenAI,而是全新的智能生產關係——開放的計算市場、可治理的獎勵和偏好,以及訓練者、算法校準者和用戶之間的價值共享。

免責聲明:本文藉助人工智能工具 ChatGPT-5 和 Gemini 3 完成。作者已盡力校對並確保信息的真實性和準確性,但仍可能存在遺漏,敬請諒解。特別需要注意的是,加密資產市場經常出現項目基本面與二級市場價格表現背離的情況。本文內容僅供信息整合和學術/研究交流之用,不構成任何投資建議,也不應被視為買賣任何代幣的推薦。


從計算到智能:RL 驅動的去中心化人工智能投資路線圖最初發表在 Medium 上的IOSG Ventures專欄,人們正在那裡通過突出顯示和回應這篇文章繼續進行討論。

Medium
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
89
收藏
19
評論