Từ tính toán đến trí tuệ: Bản đồ đầu tư cho trí tuệ nhân tạo phi tập trung dựa trên học tăng cường (RL-Driven Decentralized AI)

12-26

Bài viết này được dịch máy

Xem bản gốc

Học tăng cường: Bước chuyển mình đột phá trong trí tuệ nhân tạo phi tập trung

Tác giả: @0xjacobzhao | https://linktr.ee/0xjacobzhao

Báo cáo nghiên cứu độc lập này được hỗ trợ bởi IOSG Ventures . Quá trình nghiên cứu và biên soạn được lấy cảm hứng từ công trình nghiên cứu về học tăng cường của Sam Lehman (Pantera Capital) . Xin cảm ơn Ben Fielding ( Gensyn.ai ), Gao Yuan ( Gradient ), Samuel Dare & Erfan Miahi ( Covenant AI ), Shashank Yadav ( Fraction AI ), Chao Wang. Cảm ơn những ý kiến đóng góp quý báu của các bạn về bài viết này. Bài viết này hướng đến sự khách quan và chính xác, nhưng một số quan điểm có thể mang tính chủ quan và chứa đựng sự thiên vị. Chúng tôi rất mong nhận được sự thông cảm của độc giả.

Trí tuệ nhân tạo đang chuyển dịch từ học tập thống kê dựa trên mẫu sang các hệ thống suy luận có cấu trúc , với việc huấn luyện sau đó — đặc biệt là học tăng cường — trở thành yếu tố trung tâm để mở rộng khả năng. DeepSeek-R1 báo hiệu một sự thay đổi mô hình: học tăng cường giờ đây đã chứng minh được khả năng cải thiện độ sâu suy luận và ra quyết định phức tạp, phát triển từ một công cụ đơn thuần thành một con đường nâng cao trí tuệ liên tục.

Song song đó, Web3 đang định hình lại quá trình sản xuất AI thông qua điện toán phi tập trung và các ưu đãi tiền điện tử, với khả năng kiểm chứng và phối hợp phù hợp một cách tự nhiên với nhu cầu của học tăng cường. Báo cáo này xem xét các mô hình huấn luyện AI và các nguyên tắc cơ bản của học tăng cường, nêu bật những lợi thế về cấu trúc của “ Học tăng cường × Web3 ”, và phân tích Prime Intellect, Gensyn, Nous Research, Gradient, Grail và Fraction AI.

I. Ba giai đoạn huấn luyện trí tuệ nhân tạo

Quá trình huấn luyện LLM hiện đại trải qua ba giai đoạn — huấn luyện trước , tinh chỉnh có giám sát (SFT) và huấn luyện sau/học tăng cường — tương ứng với việc xây dựng mô hình thế giới, tích hợp khả năng thực hiện nhiệm vụ và định hình lý luận cũng như giá trị. Đặc điểm tính toán và xác minh của chúng quyết định mức độ tương thích với việc phân quyền.

Huấn luyện trước: thiết lập nền tảng thống kê và đa phương thức cốt lõi thông qua học tự giám sát quy mô lớn, chiếm 80–95% tổng chi phí và yêu cầu các cụm GPU đồng bộ chặt chẽ, đồng nhất cùng khả năng truy cập dữ liệu băng thông cao, do đó mang tính tập trung hóa cao.
Điều chỉnh tinh chỉnh có giám sát (SFT): bổ sung khả năng thực hiện nhiệm vụ và hướng dẫn với tập dữ liệu nhỏ hơn và chi phí thấp hơn (5–15%), thường sử dụng các phương pháp PEFT như LoRA hoặc Q-LoRA, nhưng vẫn phụ thuộc vào đồng bộ hóa gradient, hạn chế tính phân quyền.
Sau huấn luyện: Sau huấn luyện bao gồm nhiều giai đoạn lặp đi lặp lại nhằm định hình khả năng suy luận, giá trị và ranh giới an toàn của mô hình. Giai đoạn này bao gồm cả các phương pháp dựa trên học tăng cường (RL) (ví dụ: RLHF, RLAIF, GRPO) , tối ưu hóa ưu tiên không dựa trên RL (ví dụ: DPO) và các mô hình phần thưởng quy trình ( PRM) . Với yêu cầu dữ liệu và chi phí thấp hơn (khoảng 5–10%), quá trình tính toán tập trung vào việc triển khai và cập nhật chính sách. Khả năng hỗ trợ tự nhiên cho việc thực thi phân tán, không đồng bộ — thường không yêu cầu trọng số đầy đủ của mô hình — làm cho sau huấn luyện trở thành giai đoạn phù hợp nhất cho các mạng huấn luyện phi tập trung dựa trên Web3 khi kết hợp với tính toán có thể kiểm chứng và các ưu đãi trên chuỗi.

II. Bức tranh tổng quan về công nghệ học tăng cường

2.1 Kiến trúc hệ thống của học tăng cường

Học tăng cường (Reinforcement Learning - RL) cho phép các mô hình cải thiện khả năng ra quyết định thông qua vòng phản hồi tương tác với môi trường, tín hiệu phần thưởng và cập nhật chính sách. Về cấu trúc, một hệ thống RL bao gồm ba thành phần cốt lõi: mạng lưới chính sách , quá trình triển khai để lấy mẫu kinh nghiệm và bộ học để tối ưu hóa chính sách . Chính sách tạo ra các quỹ đạo thông qua tương tác với môi trường, trong khi bộ học cập nhật chính sách dựa trên phần thưởng, tạo thành một quá trình học tập lặp đi lặp lại liên tục.

Mạng lưới chính sách (Policy Network): Tạo ra các hành động từ trạng thái môi trường và là cốt lõi ra quyết định của hệ thống. Nó yêu cầu lan truyền ngược tập trung để duy trì tính nhất quán trong quá trình huấn luyện; trong quá trình suy luận, nó có thể được phân tán đến các nút khác nhau để hoạt động song song.
Lấy mẫu trải nghiệm (Triển khai): Các nút thực hiện tương tác với môi trường dựa trên chính sách, tạo ra các quỹ đạo trạng thái-hành động-phần thưởng. Quá trình này có tính song song cao, yêu cầu giao tiếp cực thấp, không nhạy cảm với sự khác biệt về phần cứng và là thành phần phù hợp nhất để mở rộng trong môi trường phi tập trung.
Mô-đun Học tập: Tổng hợp tất cả các quỹ đạo triển khai và thực hiện cập nhật độ dốc chính sách. Đây là mô-đun duy nhất có yêu cầu cao nhất về sức mạnh tính toán và băng thông, do đó nó thường được đặt tập trung hoặc phân tán một phần để đảm bảo tính ổn định hội tụ.

2.2 Khung giai đoạn học tăng cường

Học tăng cường thường được chia thành năm giai đoạn, và quy trình tổng thể như sau:

Giai đoạn tạo dữ liệu (Khám phá chính sách): Khi nhận được một tín hiệu đầu vào, chính sách sẽ lấy mẫu nhiều chuỗi lập luận hoặc quỹ đạo khác nhau, cung cấp các ứng cử viên cho việc đánh giá sở thích và mô hình hóa phần thưởng, đồng thời xác định phạm vi khám phá chính sách.
Giai đoạn phản hồi ưu tiên (RLHF / RLAIF):

RLHF (Học tăng cường từ phản hồi của con người): huấn luyện một mô hình phần thưởng dựa trên sở thích của con người, sau đó sử dụng học tăng cường (thường là PPO) để tối ưu hóa chính sách dựa trên tín hiệu phần thưởng đó.
RLAIF (Học tăng cường từ phản hồi của AI): thay thế con người bằng các thẩm phán hoặc quy tắc hiến pháp do AI đặt ra, giúp giảm chi phí và mở rộng quy mô hoạt động — hiện là phương pháp chủ đạo của Anthropic, OpenAI và DeepSeek.

3. Giai đoạn Mô hình hóa phần thưởng (Reward Modeling): Học cách ánh xạ đầu ra với phần thưởng dựa trên các cặp ưu tiên. RM dạy mô hình "đâu là câu trả lời đúng", trong khi PRM dạy mô hình "cách suy luận đúng".

RM (Mô hình khen thưởng): Được sử dụng để đánh giá chất lượng câu trả lời cuối cùng, chỉ chấm điểm kết quả đầu ra.
Mô hình phần thưởng quy trình (PRM): chấm điểm quá trình suy luận từng bước, giúp huấn luyện hiệu quả quá trình suy luận của mô hình (ví dụ: trong o1 và DeepSeek-R1).

4. Xác minh phần thưởng (RLVR / Khả năng xác minh phần thưởng) : Lớp xác minh phần thưởng giới hạn các tín hiệu phần thưởng phải được suy ra từ các quy tắc có thể tái tạo, các sự kiện thực tế hoặc các cơ chế đồng thuận. Điều này làm giảm việc gian lận phần thưởng và sự thiên vị hệ thống, đồng thời cải thiện khả năng kiểm toán và tính ổn định trong môi trường huấn luyện mở và phân tán.

5. Giai đoạn Tối ưu hóa Chính sách (Policy Optimization): Cập nhật các tham số chính sách $\theta$ dưới sự hướng dẫn của các tín hiệu do mô hình phần thưởng cung cấp để có được chính sách $\pi_{\theta'}$ với khả năng suy luận mạnh mẽ hơn, độ an toàn cao hơn và các mô hình hành vi ổn định hơn. Các phương pháp tối ưu hóa chính bao gồm:

PPO (Proximal Policy Optimization): thuật toán tối ưu hóa RLHF tiêu chuẩn, được đánh giá cao về tính ổn định nhưng bị hạn chế bởi tốc độ hội tụ chậm trong các suy luận phức tạp.
GRPO (Group Relative Policy Optimization): được giới thiệu bởi DeepSeek-R1, tối ưu hóa các chính sách bằng cách sử dụng ước tính lợi thế ở cấp độ nhóm thay vì xếp hạng đơn giản , bảo toàn độ lớn giá trị và cho phép tối ưu hóa chuỗi suy luận ổn định hơn.
DPO (Tối ưu hóa ưu tiên trực tiếp): bỏ qua RL bằng cách tối ưu hóa trực tiếp trên các cặp ưu tiên — rẻ và ổn định cho việc căn chỉnh, nhưng không hiệu quả trong việc cải thiện khả năng suy luận.

6. Giai đoạn triển khai chính sách mới (New Policy Deployment): mô hình được cập nhật cho thấy khả năng suy luận Hệ thống 2 mạnh mẽ hơn, sự phù hợp sở thích tốt hơn, ít ảo giác hơn và an toàn hơn, đồng thời tiếp tục được cải thiện thông qua các vòng phản hồi lặp đi lặp lại.

2.3 Ứng dụng công nghiệp của học tăng cường

Học tăng cường (Reinforcement Learning - RL) đã phát triển từ trí tuệ nhân tạo trong trò chơi điện tử trở thành một khuôn khổ cốt lõi cho việc ra quyết định tự động trong nhiều ngành công nghiệp. Các kịch bản ứng dụng của nó, dựa trên mức độ trưởng thành về công nghệ và triển khai trong công nghiệp, có thể được tóm tắt thành năm loại chính:

Trò chơi & Chiến lược: Đây là hướng đi sớm nhất mà học tăng cường (RL) được kiểm chứng. Trong các môi trường có “thông tin hoàn hảo + phần thưởng rõ ràng” như AlphaGo, AlphaZero, AlphaStar và OpenAI Five, RL đã chứng minh khả năng ra quyết định thông minh tương đương hoặc vượt trội so với các chuyên gia con người, đặt nền móng cho các thuật toán RL hiện đại.
Robot học và Trí tuệ nhân tạo thể hiện: Thông qua điều khiển liên tục, mô hình hóa động lực học và tương tác môi trường, học tăng cường (RL) cho phép robot học cách thao tác, điều khiển chuyển động và thực hiện các nhiệm vụ đa phương thức (ví dụ: RT-2, RT-X). Công nghệ này đang nhanh chóng tiến tới công nghiệp hóa và là một lộ trình kỹ thuật quan trọng cho việc triển khai robot trong thế giới thực.
Hệ thống suy luận số / LLM System-2: RL + PRM thúc đẩy các mô hình lớn từ "bắt chước ngôn ngữ" sang "suy luận có cấu trúc". Những thành tựu tiêu biểu bao gồm DeepSeek-R1, OpenAI o1/o3, Anthropic Claude và AlphaGeometry. Về cơ bản, nó thực hiện tối ưu hóa phần thưởng ở cấp độ chuỗi suy luận thay vì chỉ đánh giá câu trả lời cuối cùng.
Khám phá khoa học và tối ưu hóa toán học: Học tăng cường (RL) tìm ra các cấu trúc hoặc chiến lược tối ưu trong không gian tìm kiếm khổng lồ, phức tạp và không có nhãn. Nó đã đạt được những đột phá mang tính nền tảng trong AlphaTensor, AlphaDev và Fusion RL, cho thấy khả năng khám phá vượt xa trực giác của con người.
Ra quyết định kinh tế và giao dịch: Học tăng cường (RL) được sử dụng để tối ưu hóa chiến lược, kiểm soát rủi ro đa chiều và tạo ra hệ thống giao dịch thích ứng. So với các mô hình định lượng truyền thống, nó có thể học liên tục trong môi trường không chắc chắn và là một thành phần quan trọng của tài chính thông minh.

III. Sự phù hợp tự nhiên giữa học tăng cường và Web3

Học tăng cường (Reinforcement Learning - RL) và Web3 có sự tương đồng tự nhiên với tư cách là các hệ thống hướng đến động lực: RL tối ưu hóa hành vi thông qua phần thưởng, trong khi blockchain điều phối các bên tham gia thông qua các động lực kinh tế. Các nhu cầu cốt lõi của RL — triển khai quy mô lớn không đồng nhất, phân phối phần thưởng và thực thi có thể kiểm chứng — hoàn toàn phù hợp với các thế mạnh cấu trúc của Web3.

Tách biệt quá trình suy luận và huấn luyện: Học tăng cường được chia thành hai giai đoạn: triển khai và cập nhật: triển khai đòi hỏi nhiều tài nguyên tính toán nhưng ít tài nguyên truyền thông và có thể chạy song song trên các GPU phân tán của người dùng, trong khi cập nhật yêu cầu tài nguyên tập trung, băng thông cao. Sự tách biệt này cho phép các mạng mở xử lý việc triển khai bằng các phần thưởng token, trong khi cập nhật tập trung duy trì tính ổn định của quá trình huấn luyện.
Khả năng kiểm chứng: ZK (Zero-Knowledge) và Proof-of-Learning cung cấp phương tiện để xác minh xem các nút có thực sự thực hiện quá trình suy luận hay không, giải quyết vấn đề trung thực trong các mạng mở. Trong các tác vụ mang tính xác định như lập trình và suy luận toán học, người kiểm chứng chỉ cần kiểm tra câu trả lời để xác nhận khối lượng công việc, cải thiện đáng kể độ tin cậy của các hệ thống học tăng cường phi tập trung.
Lớp khuyến khích, Cơ chế sản xuất phản hồi dựa trên nền kinh tế token: Các token khuyến khích của Web3 có thể trực tiếp thưởng cho những người đóng góp phản hồi RLHF/RLAIF, cho phép tạo ra sở thích một cách minh bạch, không cần sự cho phép, với việc đặt cọc và phạt giúp đảm bảo chất lượng hiệu quả hơn so với phương pháp huy động cộng đồng truyền thống.
Tiềm năng của Học tăng cường đa tác nhân (MARL): Chuỗi khối tạo ra các môi trường đa tác nhân mở, dựa trên cơ chế khuyến khích, với trạng thái công khai, khả năng thực thi có thể kiểm chứng và các cơ chế khuyến khích có thể lập trình, khiến chúng trở thành một nền tảng thử nghiệm tự nhiên cho MARL quy mô lớn mặc dù lĩnh vực này vẫn còn ở giai đoạn sơ khai.

IV. Phân tích các dự án Web3 + Học tăng cường

Dựa trên khung lý thuyết nêu trên, chúng ta sẽ phân tích ngắn gọn các dự án tiêu biểu nhất trong hệ sinh thái hiện nay:

Trí tuệ tối thượng: Học tăng cường bất đồng bộ prime-rl

Prime Intellect hướng đến việc xây dựng một thị trường điện toán toàn cầu mở và một hệ sinh thái siêu trí tuệ mã nguồn mở, bao gồm Prime Compute , dòng sản phẩm INTELLECT model l, môi trường học tăng cường mở và các công cụ dữ liệu tổng hợp quy mô lớn. Khung prime-rl cốt lõi của nó được thiết kế chuyên dụng cho học tăng cường phân tán bất đồng bộ, được bổ sung bởi OpenDiLoCo để huấn luyện tiết kiệm băng thông và TopLoc để xác minh.

Tổng quan về các thành phần cơ sở hạ tầng cốt lõi của Prime Intellect

Nền tảng kỹ thuật: Khung học tăng cường bất đồng bộ prime-rl

prime-rl là công cụ huấn luyện cốt lõi của Prime Intellect, được thiết kế cho môi trường phi tập trung bất đồng bộ quy mô lớn. Nó đạt được khả năng suy luận thông lượng cao và cập nhật ổn định thông qua việc tách rời hoàn toàn giữa Actor và Learner. Các Executor (Rollout Workers) và Learner (Trainer) không bị chặn đồng bộ. Các node có thể tham gia hoặc rời đi bất cứ lúc nào, chỉ cần liên tục tải xuống chính sách mới nhất và dữ liệu được tạo ra:

Tác nhân (Người thực thi triển khai): Chịu trách nhiệm suy luận mô hình và tạo dữ liệu. Prime Intellect đã tích hợp một cách sáng tạo công cụ suy luận vLLM vào phía Tác nhân. Công nghệ PagedAttention và khả năng Xử lý theo lô liên tục của vLLM cho phép các Tác nhân tạo ra các quỹ đạo suy luận với thông lượng cực cao.
Người học (Người huấn luyện): Chịu trách nhiệm tối ưu hóa chính sách. Người học lấy dữ liệu bất đồng bộ từ Bộ đệm kinh nghiệm dùng chung để cập nhật độ dốc mà không cần chờ tất cả các Tác nhân hoàn thành lô dữ liệu hiện tại.
Người điều phối: Chịu trách nhiệm lập lịch trình cho trọng số mô hình và luồng dữ liệu.

Những cải tiến quan trọng của prime-rl:

Tính bất đồng bộ thực sự: prime-rl từ bỏ mô hình đồng bộ truyền thống của PPO, không chờ đợi các nút chậm và không yêu cầu căn chỉnh theo lô, cho phép bất kỳ số lượng và hiệu năng GPU nào truy cập bất cứ lúc nào, thiết lập tính khả thi của học tăng cường phi tập trung.
Tích hợp sâu FSDP2 và MoE: Thông qua việc phân chia tham số FSDP2 và kích hoạt thưa thớt MoE, prime-rl cho phép huấn luyện hiệu quả các mô hình với hàng chục tỷ tham số trong môi trường phân tán. Các actor chỉ chạy các chuyên gia đang hoạt động, giúp giảm đáng kể chi phí VRAM và suy luận.
GRPO+ (Group Relative Policy Optimization): GRPO loại bỏ mạng Critic, giảm đáng kể chi phí tính toán và VRAM, tự nhiên thích ứng với môi trường bất đồng bộ. GRPO+ của prime-rl đảm bảo sự hội tụ đáng tin cậy trong điều kiện độ trễ cao thông qua các cơ chế ổn định.

Dòng sản phẩm INTELLECT: Biểu tượng cho sự trưởng thành của công nghệ học tăng cường phi tập trung.

INTELLECT-1 (10B, tháng 10 năm 2024): Lần đầu tiên chứng minh rằng OpenDiLoCo có thể huấn luyện hiệu quả trong một mạng lưới không đồng nhất trải rộng trên ba lục địa (tỷ lệ giao tiếp < 2%, mức sử dụng tính toán 98%), phá vỡ các quan niệm vật lý về huấn luyện xuyên vùng.
INTELLECT-2 (32B, tháng 4 năm 2025): Là mô hình RL không cần cấp phép đầu tiên, nó xác thực khả năng hội tụ ổn định của prime-rl và GRPO+ trong môi trường có độ trễ nhiều bước và không đồng bộ, hiện thực hóa RL phi tập trung với sự tham gia của điện toán mở toàn cầu.
INTELLECT-3 (106 tỷ USD, tháng 11 năm 2025): Áp dụng kiến trúc thưa thớt chỉ kích hoạt 12 tỷ tham số, được huấn luyện trên 512×H200 và đạt hiệu suất suy luận hàng đầu (AIME 90,8%, GPQA 74,4%, MMLU-Pro 81,9%, v.v.). Hiệu suất tổng thể tiếp cận hoặc vượt trội so với các mô hình nguồn đóng tập trung có quy mô lớn hơn nhiều.

Prime Intellect đã xây dựng một hệ thống học tăng cường phi tập trung hoàn chỉnh: OpenDiLoCo giảm lưu lượng huấn luyện giữa các khu vực xuống nhiều bậc trong khi vẫn duy trì mức sử dụng khoảng 98% trên khắp các châu lục; TopLoc và Verifiers đảm bảo dữ liệu suy luận và phần thưởng đáng tin cậy thông qua dấu vân tay kích hoạt và xác minh trong môi trường biệt lập; và công cụ dữ liệu SYNTHETIC tạo ra các chuỗi suy luận chất lượng cao đồng thời cho phép các mô hình lớn chạy hiệu quả trên GPU của người tiêu dùng thông qua song song hóa đường ống. Cùng nhau, các thành phần này hỗ trợ việc tạo, xác minh và suy luận dữ liệu có khả năng mở rộng trong học tăng cường phi tập trung, với dòng sản phẩm INTELLECT chứng minh rằng các hệ thống như vậy có thể cung cấp các mô hình đẳng cấp thế giới trong thực tế.

Gensyn: Bộ lõi RL, RL Swarm và SAPO

Gensyn hướng đến việc hợp nhất năng lực tính toán nhàn rỗi toàn cầu thành một mạng lưới huấn luyện AI có khả năng mở rộng và không cần tin cậy, kết hợp thực thi tiêu chuẩn hóa, phối hợp P2P và xác minh tác vụ trên chuỗi. Thông qua các cơ chế như RL Swarm, SAPO và SkipPipe, nó tách rời quá trình tạo, đánh giá và cập nhật trên các GPU không đồng nhất, không chỉ cung cấp năng lực tính toán mà còn cả trí tuệ có thể kiểm chứng.

Các ứng dụng RL trong Gensyn Stack

RL Swarm: Công cụ học tăng cường hợp tác phi tập trung

RL Swarm thể hiện một mô hình hợp tác hoàn toàn mới. Nó không còn đơn thuần là phân phối nhiệm vụ, mà là một vòng lặp vô hạn của quá trình tạo – đánh giá – cập nhật phi tập trung, lấy cảm hứng từ học tập hợp tác mô phỏng quá trình học tập xã hội của con người:

Bộ giải (Bộ thực thi): Chịu trách nhiệm suy luận mô hình cục bộ và tạo Rollout, không bị cản trở bởi sự không đồng nhất của các nút. Gensyn tích hợp các công cụ suy luận hiệu suất cao (như CodeZero) cục bộ để xuất ra các quỹ đạo hoàn chỉnh thay vì chỉ là câu trả lời.
Người đề xuất: Tạo ra các bài toán một cách linh hoạt (bài toán toán học, câu hỏi lập trình, v.v.), cho phép đa dạng hóa bài toán và khả năng thích ứng giống như chương trình giảng dạy để điều chỉnh độ khó đào tạo phù hợp với khả năng của mô hình.
Bộ phận đánh giá: Sử dụng các “Mô hình đánh giá” hoặc quy tắc cố định để kiểm tra chất lượng đầu ra, tạo ra các tín hiệu khen thưởng cục bộ được mỗi nút đánh giá độc lập. Quá trình đánh giá có thể được kiểm toán, giảm thiểu khả năng xảy ra hành vi gian lận.

Ba yếu tố này tạo thành một cấu trúc tổ chức P2P RL có khả năng hoàn thành việc học tập hợp tác quy mô lớn mà không cần lập kế hoạch tập trung.

SAPO: Thuật toán tối ưu hóa chính sách được tái cấu trúc cho mục đích phân quyền

SAPO (Swarm Sampling Policy Optimization) tập trung vào việc chia sẻ các kết quả triển khai trong khi lọc ra những kết quả không có tín hiệu gradient, thay vì chia sẻ gradient. Bằng cách cho phép lấy mẫu kết quả triển khai phi tập trung quy mô lớn và coi các kết quả triển khai nhận được như được tạo ra cục bộ, SAPO duy trì sự hội tụ ổn định trong môi trường không có sự phối hợp tập trung và với sự không đồng nhất đáng kể về độ trễ của các nút. So với PPO (dựa vào mạng lưới phê bình chiếm phần lớn chi phí tính toán) hoặc GRPO (dựa vào ước tính lợi thế cấp nhóm thay vì xếp hạng đơn giản), SAPO cho phép các GPU cấp người tiêu dùng tham gia hiệu quả vào việc tối ưu hóa RL quy mô lớn với yêu cầu băng thông cực thấp.

Thông qua RL Swarm và SAPO , Gensyn chứng minh rằng học tăng cường — đặc biệt là RLVR sau huấn luyện — phù hợp một cách tự nhiên với các kiến trúc phi tập trung, vì nó phụ thuộc nhiều hơn vào việc khám phá đa dạng thông qua các lần triển khai hơn là vào việc đồng bộ hóa tham số tần suất cao. Kết hợp với các hệ thống xác minh PoL và Verde , Gensyn cung cấp một con đường thay thế để huấn luyện các mô hình nghìn tỷ tham số: một mạng lưới siêu trí tuệ tự tiến hóa bao gồm hàng triệu GPU không đồng nhất trên toàn thế giới.

Nous Research: Môi trường học tăng cường Atropos

Nous Research đang xây dựng một hệ thống nhận thức phi tập trung, tự tiến hóa, trong đó các thành phần như Hermes, Atropos, DisTrO, Psyche và World Sim tạo thành một hệ thống trí tuệ khép kín. Sử dụng các phương pháp học tăng cường (RL) như DPO, GRPO và lấy mẫu từ chối, hệ thống này thay thế các quy trình huấn luyện tuyến tính bằng phản hồi liên tục xuyên suốt quá trình tạo dữ liệu, học tập và suy luận.

Tổng quan về các thành phần của Nous Research

Lớp mô hình: Hermes và sự tiến hóa của khả năng suy luận

Dòng sản phẩm Hermes là giao diện mô hình chính mà Nous Research hướng đến người dùng. Sự phát triển của nó thể hiện rõ lộ trình chuyển dịch của ngành từ sự phù hợp truyền thống giữa SFT/DPO sang Lý luận học tăng cường (Reasoning RL):

Hermes 1–3: Căn chỉnh lệnh và khả năng ban đầu của tác nhân: Hermes 1–3 dựa vào DPO chi phí thấp để căn chỉnh lệnh mạnh mẽ và tận dụng dữ liệu tổng hợp cũng như sự ra mắt đầu tiên của cơ chế xác minh Atropos trong Hermes 3.
Hermes 4 / DeepHermes: Ghi lại lối tư duy chậm kiểu Hệ thống 2 vào các trọng số thông qua Chuỗi suy nghĩ, cải thiện hiệu suất toán học và mã hóa bằng cách mở rộng quy mô trong quá trình kiểm thử, và dựa vào “Lấy mẫu từ chối + Xác minh Atropos” để xây dựng dữ liệu suy luận có độ tinh khiết cao.
DeepHermes tiếp tục áp dụng GRPO để thay thế PPO (vốn rất khó triển khai), cho phép Reasoning RL chạy trên mạng GPU phi tập trung Psyche, đặt nền tảng kỹ thuật cho khả năng mở rộng của Reasoning RL mã nguồn mở.

Atropos: Môi trường học tăng cường dựa trên phần thưởng có thể kiểm chứng

Atropos là trung tâm thực sự của hệ thống Nous RL. Nó gói gọn các lời nhắc, lệnh gọi công cụ, thực thi mã và tương tác đa lượt vào một môi trường RL tiêu chuẩn hóa, trực tiếp xác minh xem đầu ra có chính xác hay không, từ đó cung cấp tín hiệu phần thưởng mang tính xác định để thay thế việc gắn nhãn thủ công tốn kém và không thể mở rộng. Quan trọng hơn, trong mạng huấn luyện phi tập trung Psyche, Atropos hoạt động như một "thẩm phán" để xác minh xem các nút có thực sự cải thiện chính sách hay không, hỗ trợ bằng chứng học tập có thể kiểm toán, giải quyết triệt để vấn đề độ tin cậy của phần thưởng trong RL phân tán.

DisTrO và Psyche: Lớp tối ưu hóa cho học tăng cường phi tập trung

Quá trình huấn luyện RLF truyền thống (RLHF/RLAIF) dựa trên các cụm máy chủ tập trung có băng thông cao, một rào cản cốt lõi mà mã nguồn mở không thể sao chép. DisTrO giảm chi phí truyền thông RL xuống nhiều bậc thông qua việc tách rời động lượng và nén gradient, cho phép quá trình huấn luyện chạy trên băng thông internet; Psyche triển khai cơ chế huấn luyện này trên mạng chuỗi khối, cho phép các nút hoàn thành suy luận, xác minh, đánh giá phần thưởng và cập nhật trọng số cục bộ, tạo thành một vòng lặp RL khép kín hoàn chỉnh.

Trong hệ thống Nous, Atropos xác minh chuỗi suy nghĩ; DisTrO nén thông tin huấn luyện; Psyche vận hành vòng lặp học tăng cường; World Sim cung cấp môi trường phức tạp; Forge thu thập lý luận thực tế; Hermes ghi lại tất cả quá trình học vào các trọng số. Học tăng cường không chỉ là một giai đoạn huấn luyện, mà còn là giao thức cốt lõi kết nối dữ liệu, môi trường, mô hình và cơ sở hạ tầng trong kiến trúc Nous, biến Hermes thành một hệ thống sống có khả năng tự cải tiến liên tục trên mạng điện toán mở.

Mạng Gradient: Kiến trúc học tăng cường Echo

Gradient Network hướng đến việc xây dựng lại năng lực tính toán AI thông qua một Open Intelligence Stack: một tập hợp các giao thức có khả năng tương tác theo mô-đun, bao gồm giao tiếp P2P (Lattica), suy luận phân tán (Parallax), huấn luyện RL phi tập trung (Echo), xác minh (VeriLLM), mô phỏng (Mirage), và sự phối hợp giữa bộ nhớ và tác nhân cấp cao hơn — cùng nhau tạo thành một cơ sở hạ tầng trí tuệ phi tập trung đang phát triển.

Echo — Kiến trúc huấn luyện học tăng cường

Echo là khung học tăng cường của Gradient. Nguyên tắc thiết kế cốt lõi của nó nằm ở việc tách rời các đường dẫn huấn luyện, suy luận và dữ liệu (phần thưởng) trong học tăng cường, chạy chúng riêng biệt trong các cụm suy luận và huấn luyện không đồng nhất, duy trì hành vi tối ưu hóa ổn định trên các môi trường không đồng nhất diện rộng với các giao thức đồng bộ hóa nhẹ. Điều này giúp giảm thiểu hiệu quả các lỗi SPMD và các nút thắt cổ chai về việc sử dụng GPU do việc trộn lẫn suy luận và huấn luyện trong DeepSpeed RLHF / VERL truyền thống.

Echo sử dụng "Kiến trúc bầy đàn kép suy luận-huấn luyện" để tối đa hóa việc sử dụng sức mạnh tính toán. Hai bầy đàn hoạt động độc lập mà không gây cản trở lẫn nhau:

Tối đa hóa thông lượng lấy mẫu: Hệ thống Inference Swarm bao gồm các GPU và thiết bị biên cấp người dùng, xây dựng các bộ lấy mẫu thông lượng cao thông qua xử lý song song theo đường ống với Parallax, tập trung vào việc tạo ra quỹ đạo.
Tối đa hóa sức mạnh tính toán gradient: Hệ thống Training Swarm có thể chạy trên các cụm máy tính tập trung hoặc mạng GPU phân tán toàn cầu dành cho người tiêu dùng, chịu trách nhiệm cập nhật gradient, đồng bộ hóa tham số và tinh chỉnh LoRA, tập trung vào quá trình học tập.

Để duy trì tính nhất quán về chính sách và dữ liệu, Echo cung cấp hai loại giao thức đồng bộ hóa nhẹ: Tuần tự và Bất đồng bộ , quản lý tính nhất quán hai chiều của trọng số chính sách và quỹ đạo:

Chế độ kéo tuần tự (Ưu tiên độ chính xác): Phía huấn luyện buộc các nút suy luận phải làm mới phiên bản mô hình trước khi kéo các quỹ đạo mới để đảm bảo tính cập nhật của quỹ đạo, phù hợp với các tác vụ rất nhạy cảm với sự lỗi thời của chính sách.
Chế độ đẩy-kéo bất đồng bộ (Ưu tiên hiệu quả): Phía suy luận liên tục tạo ra các quỹ đạo với thẻ phiên bản, và phía huấn luyện sử dụng chúng theo tốc độ riêng. Bộ điều phối giám sát độ lệch phiên bản và kích hoạt làm mới trọng số, tối đa hóa việc sử dụng thiết bị.

Ở lớp dưới cùng, Echo được xây dựng dựa trên Parallax (suy luận không đồng nhất trong môi trường băng thông thấp) và các thành phần huấn luyện phân tán nhẹ (ví dụ: VERL), dựa vào LoRA để giảm chi phí đồng bộ hóa giữa các nút, cho phép học tăng cường hoạt động ổn định trên các mạng không đồng nhất toàn cầu.

Grail: Học tăng cường trong hệ sinh thái Bittensor

Bittensor xây dựng một mạng lưới hàm thưởng khổng lồ, thưa thớt và không ổn định thông qua cơ chế đồng thuận Yuma độc đáo của mình.

Trong hệ sinh thái Bittensor, Covenant AI xây dựng một quy trình tích hợp theo chiều dọc từ tiền huấn luyện đến hậu huấn luyện RL thông qua SN3 Templar, SN39 Basilica và SN81 Grail. Trong đó, SN3 Templar chịu trách nhiệm tiền huấn luyện mô hình cơ bản, SN39 Basilica cung cấp thị trường sức mạnh tính toán phân tán, và SN81 Grail đóng vai trò là "lớp suy luận có thể kiểm chứng" cho hậu huấn luyện RL, thực hiện các quy trình cốt lõi của RLHF/RLAIF và hoàn thành tối ưu hóa vòng kín từ mô hình cơ bản đến chính sách phù hợp.

GRAIL xác minh mật mã các triển khai RL và liên kết chúng với định danh mô hình, cho phép RLHF không cần tin cậy. Nó sử dụng các thách thức xác định để ngăn chặn tính toán trước, lấy mẫu chi phí thấp và cam kết để xác minh các triển khai, và nhận dạng dấu vân tay mô hình để phát hiện sự thay thế hoặc phát lại — thiết lập tính xác thực đầu cuối cho các quỹ đạo suy luận RL.

Mạng con của Grail triển khai một vòng lặp hậu huấn luyện kiểu GRPO có thể kiểm chứng: thợ đào tạo ra nhiều đường dẫn suy luận, người xác thực chấm điểm tính chính xác và chất lượng suy luận, và kết quả được chuẩn hóa được ghi vào chuỗi. Các thử nghiệm công khai đã nâng độ chính xác của Qwen2.5–1.5B MATH từ 12,7% lên 47,6%, cho thấy cả khả năng chống gian lận và những cải tiến mạnh mẽ về năng lực; trong Covenant AI, Grail đóng vai trò là lõi tin cậy và thực thi cho RLVR/RLAIF phi tập trung.

Trí tuệ nhân tạo phân số: Học tăng cường dựa trên cạnh tranh RLFC

Fraction AI định nghĩa lại sự liên kết như là Học tăng cường từ cạnh tranh, sử dụng việc gắn nhãn theo kiểu trò chơi và các cuộc thi giữa các tác nhân. Xếp hạng tương đối và điểm số của giám khảo AI thay thế các nhãn tĩnh do con người dán, biến RLHF thành một trò chơi đa tác nhân cạnh tranh liên tục.

Những điểm khác biệt cốt lõi giữa RLHF truyền thống và RLFC của Fraction AI:

Giá trị cốt lõi của RLFC là phần thưởng đến từ sự phát triển của đối thủ và người đánh giá, chứ không phải từ một mô hình duy nhất, giúp giảm thiểu tình trạng gian lận phần thưởng và bảo tồn sự đa dạng trong chính sách. Thiết kế không gian định hình động lực của trò chơi, cho phép các hành vi cạnh tranh và hợp tác phức tạp.

Trong kiến trúc hệ thống, Fraction AI phân tách quá trình huấn luyện thành bốn thành phần chính:

Các tác nhân: Các đơn vị chính sách nhẹ dựa trên LLM mã nguồn mở, được mở rộng thông qua QLoRA với trọng số khác nhau để cập nhật chi phí thấp.
Không gian: Môi trường miền nhiệm vụ biệt lập, nơi người dùng phải trả phí để tham gia và nhận phần thưởng bằng cách chiến thắng.
Hệ thống chấm điểm AI: Lớp thưởng tức thời được xây dựng bằng RLAIF, cung cấp khả năng đánh giá phi tập trung và có thể mở rộng.
Bằng chứng về quá trình học tập: Liên kết việc cập nhật chính sách với kết quả cụ thể của cuộc thi, đảm bảo quá trình đào tạo có thể kiểm chứng và chống gian lận.

Fraction AI hoạt động như một công cụ cùng tiến hóa giữa con người và máy móc: người dùng đóng vai trò là các nhà tối ưu hóa cấp cao hướng dẫn quá trình khám phá, trong khi các tác nhân cạnh tranh để tạo ra dữ liệu sở thích chất lượng cao, cho phép tinh chỉnh thương mại hóa mà không cần sự tin tưởng lẫn nhau.

So sánh các kiến trúc dự án học tăng cường Web3

V. Con đường và cơ hội của học tăng cường × Web3

Trong các dự án tiên phong này, bất chấp những điểm khởi đầu khác nhau, RL kết hợp với Web3 luôn hội tụ về một kiến trúc “tách rời – xác minh – khuyến khích” chung — một kết quả tất yếu của việc thích ứng học tăng cường với các mạng phi tập trung.

Các đặc điểm kiến trúc tổng quát của học tăng cường: Giải quyết các giới hạn vật lý cốt lõi và vấn đề về độ tin cậy

Tách biệt quá trình triển khai và học tập (Tách biệt vật lý giữa suy luận và huấn luyện) — Cấu trúc tính toán mặc định: Quá trình triển khai thưa thớt về giao tiếp và có thể song song hóa được giao cho các GPU cấp người dùng toàn cầu, trong khi việc cập nhật tham số băng thông cao được tập trung tại một vài nút huấn luyện. Điều này đúng với cả kiến trúc Actor-Learner bất đồng bộ của Prime Intellect và kiến trúc bầy đàn kép của Gradient Echo.
Niềm tin dựa trên xác minh — Hạ tầng hóa: Trong các mạng không cần cấp phép, tính xác thực tính toán phải được đảm bảo một cách bắt buộc thông qua toán học và thiết kế cơ chế. Các triển khai tiêu biểu bao gồm PoL của Gensyn, TopLoc của Prime Intellect và xác minh mật mã của Grail.
Vòng lặp khuyến khích dựa trên mã thông báo — Tự điều chỉnh thị trường: Việc cung cấp điện toán, tạo dữ liệu, phân loại xác minh và phân phối phần thưởng tạo thành một vòng lặp khép kín. Phần thưởng thúc đẩy sự tham gia, và việc phạt (Slashing) ngăn chặn gian lận, giữ cho mạng lưới ổn định và liên tục phát triển trong một môi trường mở.

Các lộ trình kỹ thuật khác biệt: Các "điểm đột phá" khác nhau trong một kiến trúc nhất quán.

Mặc dù các phong cách kiến trúc đang hội tụ, các dự án vẫn lựa chọn những rào cản kỹ thuật khác nhau dựa trên bản sắc riêng của chúng:

Trường đột phá thuật toán (Nous Research): Giải quyết nút thắt cổ chai về băng thông của huấn luyện phân tán ở cấp độ tối ưu hóa — DisTrO nén việc truyền tải gradient xuống nhiều bậc, nhằm mục đích cho phép huấn luyện mô hình quy mô lớn qua mạng băng thông rộng tại nhà.
Trường Kỹ thuật Hệ thống (Prime Intellect, Gensyn, Gradient): Tập trung vào việc xây dựng “Hệ thống thời gian thực AI” thế hệ tiếp theo. ShardCast của Prime Intellect và Parallax của Gradient được thiết kế để tối ưu hóa hiệu quả cao nhất từ các cụm máy tính không đồng nhất trong điều kiện mạng hiện có thông qua các biện pháp kỹ thuật tiên tiến.
Trường đào tạo trò chơi thị trường (Bittensor, Fraction AI): Tập trung vào thiết kế các hàm thưởng. Bằng cách thiết kế các cơ chế tính điểm phức tạp, họ hướng dẫn người khai thác tự tìm ra các chiến lược tối ưu để đẩy nhanh sự hình thành trí tuệ.

Ưu điểm, Thách thức và Triển vọng Kết thúc

Theo mô hình Học tăng cường kết hợp với Web3, những lợi thế ở cấp độ hệ thống trước hết được thể hiện trong việc viết lại cấu trúc chi phí và cấu trúc quản trị.

Tái cấu trúc chi phí: Sau quá trình huấn luyện RL, nhu cầu lấy mẫu (Rollout) là không giới hạn. Web3 có thể huy động sức mạnh tính toán phân tán toàn cầu với chi phí cực thấp, một lợi thế về chi phí mà các nhà cung cấp dịch vụ đám mây tập trung khó có thể sánh kịp.
Sự đồng thuận chủ quyền: Phá vỡ thế độc quyền của các tập đoàn công nghệ lớn về giá trị AI (Đồng thuận). Cộng đồng có thể quyết định “đâu là câu trả lời tốt” cho mô hình thông qua bỏ phiếu bằng Token, hiện thực hóa việc dân chủ hóa quản trị AI.

Đồng thời, hệ thống này phải đối mặt với hai hạn chế về cấu trúc:

Giới hạn băng thông: Mặc dù có những cải tiến như DisTrO, độ trễ vật lý vẫn hạn chế quá trình huấn luyện đầy đủ các mô hình tham số cực lớn (70 tỷ trở lên). Hiện tại, AI Web3 chủ yếu tập trung vào tinh chỉnh và suy luận.
Gian lận phần thưởng (Định luật Goodhart): Trong các mạng lưới có động lực cao, người khai thác rất dễ bị "quá khớp" các quy tắc phần thưởng (lách luật hệ thống) thay vì cải thiện trí thông minh thực sự. Thiết kế các hàm phần thưởng mạnh mẽ, chống gian lận là một cuộc chơi bất tận.
Các "công nhân Byzantine độc hại": đề cập đến việc cố ý thao túng và làm sai lệch tín hiệu huấn luyện để phá vỡ sự hội tụ của mô hình. Thách thức cốt lõi không phải là việc liên tục thiết kế các hàm thưởng chống gian lận, mà là các cơ chế có khả năng chống lại các hành vi đối nghịch.

Học tăng cường (RL) và Web3 đang định hình lại trí tuệ thông qua các mạng lưới triển khai phi tập trung, phản hồi được tài trợ trên chuỗi khối và các tác nhân RL theo chiều dọc với khả năng thu thập giá trị trực tiếp. Cơ hội thực sự không phải là một OpenAI phi tập trung, mà là các mối quan hệ sản xuất trí tuệ mới — thị trường tính toán mở, phần thưởng và sở thích có thể quản lý được, và giá trị được chia sẻ giữa người huấn luyện, người điều chỉnh và người dùng.

Tuyên bố miễn trừ trách nhiệm: Bài viết này được hoàn thành với sự hỗ trợ của các công cụ AI ChatGPT-5 và Gemini 3. Tác giả đã nỗ lực hết sức để hiệu đính và đảm bảo tính xác thực và chính xác của thông tin, nhưng vẫn có thể tồn tại sai sót. Mong quý vị thông cảm. Cần đặc biệt lưu ý rằng thị trường tài sản tiền điện tử thường có sự khác biệt giữa các yếu tố cơ bản của dự án và hiệu suất giá trên thị trường thứ cấp. Nội dung bài viết này chỉ nhằm mục đích tích hợp thông tin và trao đổi học thuật/nghiên cứu, không cấu thành bất kỳ lời khuyên đầu tư nào, cũng không nên được coi là khuyến nghị mua hoặc bán bất kỳ token nào.

Bài viết "Từ tính toán đến trí tuệ: Bản đồ đầu tư cho AI phi tập trung dựa trên học tăng cường" ban đầu được đăng trên IOSG Ventures trên Medium, nơi mọi người đang tiếp tục cuộc thảo luận bằng cách nêu bật và phản hồi về câu chuyện này.

Medium

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan