Tóm tắt hàng tuần của IOSG|Chén thánh của AI tiền điện tử: Khám phá biên giới của đào tạo phi tập trung#280

avatar
Bitpush
06-17
Bài viết này được dịch máy
Xem bản gốc

Tác giả: Jacob Zhao (X @0xjacobzhao)


Bài viết này chỉ dành cho mục đích học tập và giao tiếp và không cấu thành bất kỳ lời khuyên đầu tư nào. Vui lòng ghi rõ nguồn để in lại và liên hệ với nhóm IOSG để xin phép và hướng dẫn in lại. Tất cả các dự án được đề cập trong bài viết không phải là khuyến nghị hoặc lời khuyên đầu tư.

Trong toàn bộ chuỗi giá trị của AI, đào tạo mô hình là mắt xích có mức tiêu thụ tài nguyên cao nhất và ngưỡng kỹ thuật cao nhất, trực tiếp quyết định giới hạn trên của khả năng mô hình và hiệu ứng ứng dụng thực tế. So với các lệnh gọi nhẹ trong giai đoạn suy luận, quá trình đào tạo đòi hỏi đầu tư liên tục vào sức mạnh tính toán quy mô lớn, quy trình xử lý dữ liệu phức tạp và hỗ trợ thuật toán tối ưu hóa cường độ cao, đây chính là "ngành công nghiệp nặng" thực sự để xây dựng hệ thống AI. Theo quan điểm của mô hình kiến trúc, các phương pháp đào tạo có thể được chia thành bốn loại: đào tạo tập trung, đào tạo phân tán, học tập liên bang và đào tạo phi tập trung, đây là trọng tâm của bài viết này.

  • Đào tạo tập trung là phương pháp truyền thống phổ biến nhất, trong đó một tổ chức duy nhất hoàn thành toàn bộ quy trình đào tạo trong một cụm cục bộ hiệu suất cao. Tất cả các thành phần, từ phần cứng (như NVIDIA GPU), phần mềm cơ bản (CUDA, cuDNN), hệ thống lập lịch cụm (như Kubernetes), đến các khuôn khổ đào tạo (như PyTorch dựa trên NCCL backend), đều được phối hợp và vận hành bởi một hệ thống điều khiển thống nhất. Kiến trúc cộng tác sâu sắc này tối ưu hóa hiệu quả của việc chia sẻ bộ nhớ, đồng bộ hóa gradient và cơ chế chịu lỗi, và rất phù hợp để đào tạo các mô hình quy mô lớn như GPT và Gemini. Nó có những ưu điểm là hiệu quả cao và tài nguyên có thể kiểm soát được, nhưng nó cũng có những vấn đề như độc quyền dữ liệu, rào cản tài nguyên, tiêu thụ năng lượng và rủi ro điểm đơn.

  • Đào tạo phân tán là phương pháp chính thống để đào tạo mô hình lớn. Cốt lõi của nó là chia nhỏ các tác vụ đào tạo mô hình và phân phối chúng cho nhiều máy để thực hiện hợp tác nhằm phá vỡ nút thắt của tính toán và lưu trữ trên một máy. Mặc dù có tính năng "phân tán" về mặt vật lý, nhưng việc lập lịch và đồng bộ hóa tổng thể vẫn được kiểm soát bởi một tổ chức tập trung. Nó thường chạy trong môi trường mạng cục bộ tốc độ cao. Thông qua công nghệ bus kết nối tốc độ cao NVLink , nút chính điều phối tất cả các tác vụ phụ. Các phương pháp chính thống bao gồm:

  • Dữ liệu song song : Mỗi nút đào tạo các tham số dữ liệu khác nhau và chia sẻ chúng, điều này đòi hỏi phải khớp trọng số mô hình.

  • Mô hình song song: Triển khai các phần khác nhau của mô hình trên các nút khác nhau để đạt được khả năng mở rộng mạnh mẽ;

  • Đường ống song song: Thực hiện tuần tự theo từng giai đoạn để cải thiện thông lượng;

  • Tensor Parallel : Phân đoạn tinh chỉnh các phép tính ma trận để cải thiện độ chi tiết song song.


Đào tạo phân tán là sự kết hợp của "kiểm soát tập trung + thực hiện phân tán", tương tự như cùng một ông chủ chỉ đạo từ xa nhiều nhân viên "văn phòng" để cộng tác hoàn thành nhiệm vụ. Hiện tại, hầu hết các mô hình lớn chính thống (GPT-4, Gemini, LLaMA, v.v.) đều được đào tạo theo cách này.

  • Đào tạo phi tập trung đại diện cho một con đường tương lai cởi mở hơn và chống kiểm duyệt. Tính năng cốt lõi của nó là nhiều nút không đáng tin cậy (có thể là máy tính gia đình, GPU đám mây hoặc thiết bị biên) làm việc cùng nhau để hoàn thành các nhiệm vụ đào tạo mà không cần điều phối viên trung tâm, thường thông qua phân phối và cộng tác nhiệm vụ theo giao thức, và với sự trợ giúp của các cơ chế khuyến khích mật mã để đảm bảo tính trung thực của các đóng góp. Những thách thức chính mà mô hình này phải đối mặt bao gồm:

  • Các thiết bị không đồng nhất và phân chia nhiệm vụ khó khăn : Các thiết bị không đồng nhất khó phối hợp và phân chia nhiệm vụ không hiệu quả;

  • Nút thắt hiệu quả truyền thông : Truyền thông mạng không ổn định và nút thắt đồng bộ hóa gradient rất rõ ràng;

  • Thiếu thực thi đáng tin cậy : Việc thiếu môi trường thực thi đáng tin cậy khiến việc xác minh xem nút có thực sự tham gia vào phép tính hay không trở nên khó khăn;

  • Thiếu sự phối hợp thống nhất : Không có trình lập lịch trung tâm và cơ chế phân phối tác vụ và khôi phục ngoại lệ rất phức tạp.


Đào tạo phi tập trung có thể được hiểu là: một nhóm tình nguyện viên trên toàn thế giới, mỗi người đóng góp sức mạnh tính toán để đào tạo các mô hình một cách hợp tác , nhưng "đào tạo phi tập trung thực sự khả thi trên quy mô lớn" vẫn là một thách thức về kỹ thuật có hệ thống, liên quan đến nhiều cấp độ như kiến trúc hệ thống, giao thức truyền thông, bảo mật mật mã, cơ chế kinh tế và xác minh mô hình. Tuy nhiên, liệu "sự hợp tác có hiệu quả + các động cơ là trung thực + kết quả là chính xác" có thể đạt được hay không vẫn đang trong giai đoạn khám phá nguyên mẫu ban đầu.

  • Học tập liên bang là một hình thức chuyển tiếp giữa phân phối và phi tập trung. Nó nhấn mạnh vào việc lưu giữ dữ liệu cục bộ và tổng hợp tập trung các tham số mô hình. Nó phù hợp với các tình huống tập trung vào tuân thủ quyền riêng tư (như y tế và tài chính). Học tập liên bang có cấu trúc kỹ thuật và khả năng phối hợp cục bộ của đào tạo phân tán, đồng thời cũng có lợi thế phân tán dữ liệu của đào tạo phi tập trung. Tuy nhiên, nó vẫn dựa vào các điều phối viên đáng tin cậy và không có đặc điểm là hoàn toàn cởi mở và chống kiểm duyệt. Nó có thể được coi là giải pháp "phi tập trung có kiểm soát" trong tình huống tuân thủ quyền riêng tư . Nó tương đối nhẹ nhàng về mặt nhiệm vụ đào tạo, cấu trúc tin cậy và cơ chế giao tiếp, và phù hợp hơn với tư cách là kiến trúc triển khai chuyển tiếp trong ngành.


Bảng so sánh toàn cảnh mô hình đào tạo AI (kiến trúc kỹ thuật × động cơ tin cậy × đặc điểm ứng dụng)

Hình ảnh


Hình ảnh

Các ranh giới, cơ hội và con đường thực tế của đào tạo phi tập trung


Theo quan điểm của mô hình đào tạo, đào tạo phi tập trung không áp dụng được cho mọi loại nhiệm vụ. Trong một số trường hợp, do cấu trúc phức tạp của nhiệm vụ, yêu cầu tài nguyên cực kỳ cao hoặc khó khăn trong việc cộng tác, nên tự nhiên không phù hợp để hoàn thành hiệu quả giữa các nút không đồng nhất và không đáng tin cậy. Ví dụ, đào tạo mô hình lớn thường dựa vào bộ nhớ video cao, độ trễ thấp và băng thông tốc độ cao, khiến việc phân chia và đồng bộ hóa hiệu quả trong mạng mở trở nên khó khăn; các nhiệm vụ có hạn chế nghiêm ngặt về quyền riêng tư và chủ quyền dữ liệu (như dữ liệu y tế, tài chính và bí mật) bị hạn chế bởi sự tuân thủ pháp lý và các ràng buộc về đạo đức và không thể chia sẻ công khai; và các nhiệm vụ không có cơ sở khuyến khích hợp tác (như mô hình nguồn đóng của công ty hoặc đào tạo nguyên mẫu nội bộ) thiếu động lực bên ngoài để tham gia. Các ranh giới này cùng nhau tạo thành những hạn chế thực tế hiện tại của đào tạo phi tập trung.


Nhưng điều này không có nghĩa là đào tạo phi tập trung là một đề xuất sai lầm. Trên thực tế, đào tạo phi tập trung cho thấy triển vọng ứng dụng rõ ràng trong các tác vụ nhẹ, dễ song song hóa và được khuyến khích . Bao gồm nhưng không giới hạn ở: tinh chỉnh LoRA, tác vụ sau đào tạo căn chỉnh hành vi (như RLHF, DPO), đào tạo crowdsourcing dữ liệu và tác vụ gắn nhãn, đào tạo mô hình cơ bản nhỏ có thể kiểm soát tài nguyên các tình huống đào tạo cộng tác liên quan đến các thiết bị biên. Các tác vụ này thường có các đặc điểm là tính song song cao, ghép nối thấp và khả năng chịu đựng đối với sức mạnh tính toán không đồng nhất và rất phù hợp để đào tạo cộng tác thông qua mạng P2P, giao thức Swarm, trình tối ưu hóa phân tán, v.v.


Bảng tổng quan về tính phù hợp của nhiệm vụ đào tạo phi tập trung

Hình ảnh


Hình ảnh

Phân tích các dự án đào tạo phi tập trung cổ điển


Hiện tại, trong lĩnh vực tiên phong của đào tạo phi tập trung và học tập liên bang , các dự án blockchain tiêu biểu chủ yếu bao gồm Prime Intellect, Pluralis.ai, Gensyn, Nous Research và Flock.io. Theo quan điểm về đổi mới công nghệ và khó khăn về kỹ thuật, Prime Intellect, Nous Research và Pluralis.ai đã đề xuất nhiều khám phá độc đáo hơn về kiến trúc hệ thống và thiết kế thuật toán, đại diện cho hướng tiên phong của nghiên cứu lý thuyết hiện tại; trong khi các con đường triển khai của Gensyn và Flock.io tương đối rõ ràng và có thể thấy tiến trình kỹ thuật ban đầu. Bài viết này sẽ lần lượt phân tích các công nghệ cốt lõi và kiến trúc kỹ thuật đằng sau năm dự án này và khám phá thêm sự khác biệt và mối quan hệ bổ sung của chúng trong hệ thống đào tạo AI phi tập trung.


Prime Intellect: Một công ty tiên phong trong mạng lưới học tăng cường cộng tác với lộ trình đào tạo có thể xác minh được

Prime Intellect cam kết xây dựng một mạng lưới đào tạo AI không cần tin cậy, cho phép bất kỳ ai tham gia đào tạo và nhận được phần thưởng đáng tin cậy cho những đóng góp về điện toán của họ. Prime Intellect hy vọng xây dựng một hệ thống đào tạo phi tập trung AI có thể xác minh, mở và được khuyến khích hoàn toàn thông qua ba mô-đun PRIME-RL + TOPLOC + SHARDCAST.


01 Cấu trúc ngăn xếp giao thức Prime Intellect và giá trị mô-đun chính

Hình ảnh


02 Giải thích chi tiết về các cơ chế chính của chương trình đào tạo Prime Intellect

# PRIME-RL: Kiến trúc nhiệm vụ học tăng cường không đồng bộ tách biệt

PRIME-RL là một khuôn khổ mô hình hóa và thực thi nhiệm vụ được Prime Intellect tùy chỉnh cho các tình huống đào tạo phi tập trung, được thiết kế cho các mạng không đồng nhất và sự tham gia không đồng bộ. Nó sử dụng học tăng cường làm đối tượng thích ứng ưu tiên, tách biệt về mặt cấu trúc các quy trình đào tạo, lý luận và tải trọng, để mỗi nút đào tạo có thể hoàn thành chu kỳ nhiệm vụ một cách độc lập tại địa phương và cộng tác với cơ chế xác minh và tổng hợp thông qua các giao diện chuẩn hóa. So với các quy trình học có giám sát truyền thống, PRIME-RL phù hợp hơn cho đào tạo linh hoạt trong môi trường lập lịch phi tập trung, không chỉ làm giảm độ phức tạp của hệ thống mà còn đặt nền tảng cho việc hỗ trợ song song đa nhiệm vụ và tiến hóa chiến lược.

# TOPLOC: Cơ chế xác minh hành vi đào tạo nhẹ

TOPLOC (Quan sát đáng tin cậy & Kiểm tra vị trí chính sách) là cơ chế cốt lõi của khả năng xác minh đào tạo do Prime Intellect đề xuất, được sử dụng để xác định xem một nút có thực sự hoàn thành việc học chính sách hiệu quả dựa trên dữ liệu quan sát hay không. Không giống như các giải pháp nặng như ZKML, TOPLOC không dựa vào tính toán lại toàn bộ mô hình mà hoàn thành xác minh cấu trúc nhẹ bằng cách phân tích quỹ đạo nhất quán cục bộ giữa "chuỗi quan sát cập nhật chính sách". Đây là lần đầu tiên nó chuyển đổi quỹ đạo hành vi của quá trình đào tạo thành một đối tượng có thể xác minh. Đây là một cải tiến quan trọng để đạt được phân phối phần thưởng đào tạo không cần tin cậy và cung cấp một con đường khả thi để xây dựng mạng lưới đào tạo cộng tác phi tập trung có thể kiểm toán và được khuyến khích.

# SHARDCAST: Giao thức truyền và tổng hợp trọng số không đồng bộ

SHARDCAST là một giao thức truyền trọng số và tổng hợp được thiết kế bởi Prime Intellect, được tối ưu hóa cho các môi trường mạng thực với các trạng thái nút không đồng bộ, bị hạn chế băng thông và thay đổi. Nó kết hợp cơ chế truyền tin đồn với chiến lược đồng bộ hóa cục bộ, cho phép nhiều nút liên tục gửi các bản cập nhật một phần ở trạng thái không đồng bộ, đạt được sự hội tụ tiến bộ và sự tiến hóa nhiều phiên bản của trọng số. So với các phương pháp AllReduce tập trung hoặc đồng bộ, SHARDCAST cải thiện đáng kể khả năng mở rộng và khả năng chịu lỗi của đào tạo phi tập trung và là nền tảng cốt lõi để xây dựng sự đồng thuận trọng số ổn định và các lần lặp đào tạo liên tục.

# OpenDiLoCo: Một khuôn khổ cho giao tiếp không đồng bộ thưa thớt

OpenDiLoCo là một khuôn khổ tối ưu hóa giao tiếp được triển khai độc lập và mã nguồn mở bởi nhóm Prime Intellect dựa trên khái niệm DiLoCo do DeepMind đề xuất. Nó được thiết kế để giải quyết các thách thức như hạn chế băng thông, tính không đồng nhất của thiết bị và sự bất ổn của nút thường gặp trong đào tạo phi tập trung. Kiến trúc của nó dựa trên tính song song dữ liệu. Bằng cách xây dựng các cấu trúc tôpô thưa thớt như Ring, Expander và Small-World, nó tránh được chi phí truyền thông cao của đồng bộ hóa toàn cầu và chỉ dựa vào các nút lân cận cục bộ để hoàn thành đào tạo cộng tác mô hình. Kết hợp với các bản cập nhật không đồng bộ và cơ chế chịu lỗi điểm dừng, OpenDiLoCo cho phép GPU cấp tiêu dùng và các thiết bị biên tham gia ổn định vào các tác vụ đào tạo, cải thiện đáng kể sự tham gia của đào tạo cộng tác toàn cầu và là một trong những cơ sở hạ tầng truyền thông chính để xây dựng mạng lưới đào tạo phi tập trung.

# PCCL: Thư viện truyền thông cộng tác

PCCL (Prime Collective Communication Library) là một thư viện giao tiếp nhẹ được Prime Intellect thiết kế riêng cho các môi trường đào tạo AI phi tập trung. Nó nhằm mục đích giải quyết tình trạng tắc nghẽn thích ứng của các thư viện giao tiếp truyền thống (như NCCL và Gloo) trong các thiết bị không đồng nhất và mạng băng thông thấp. PCCL hỗ trợ cấu trúc thưa thớt, nén gradient, đồng bộ hóa độ chính xác thấp và khôi phục điểm dừng. Nó có thể chạy trên GPU cấp độ người tiêu dùng và các nút không ổn định. Đây là thành phần cơ bản hỗ trợ khả năng giao tiếp không đồng bộ của giao thức OpenDiLoCo. Nó cải thiện đáng kể khả năng chịu đựng băng thông và khả năng tương thích của thiết bị của mạng đào tạo và mở ra nền tảng giao tiếp "dặm cuối" để xây dựng một mạng đào tạo cộng tác thực sự mở và không cần tin cậy.


03 Prime Intellect Mạng lưới khuyến khích và phân chia vai trò


Prime Intellect đã xây dựng một mạng lưới đào tạo không cần xin phép, có thể xác minh và được khuyến khích về mặt kinh tế, cho phép bất kỳ ai tham gia vào các nhiệm vụ và được khen thưởng dựa trên những đóng góp thực sự. Giao thức hoạt động dựa trên ba vai trò cốt lõi:

  • Người khởi tạo nhiệm vụ : xác định môi trường đào tạo, mô hình ban đầu, chức năng phần thưởng và tiêu chí xác minh

  • Các nút đào tạo : thực hiện đào tạo cục bộ, gửi cập nhật trọng số và quan sát quỹ đạo

  • Nút xác minh : Sử dụng cơ chế TOPLOC để xác minh tính xác thực của hành vi đào tạo và tham gia vào tính toán phần thưởng và tổng hợp chiến lược


Quy trình cốt lõi của giao thức bao gồm giải phóng nhiệm vụ, đào tạo nút, xác minh quỹ đạo, tổng hợp trọng số (SHARDCAST) và phân phối phần thưởng, hình thành vòng lặp khép kín khuyến khích xung quanh "hành vi đào tạo thực tế".


04 INTELLECT-2: Phát hành mô hình đào tạo phi tập trung có thể xác minh đầu tiên


Prime Intellect đã phát hành INTELLECT-2 vào tháng 5 năm 2025 , mô hình học tăng cường lớn đầu tiên trên thế giới được đào tạo bởi các nút phi tập trung không đồng bộ, không cần tin cậy, với thang tham số là 32B . Mô hình INTELLECT-2 được đào tạo bởi hơn 100 nút không đồng nhất GPU trên ba châu lục, sử dụng kiến trúc hoàn toàn không đồng bộ và thời gian đào tạo hơn 400 giờ, chứng minh tính khả thi và ổn định của các mạng cộng tác không đồng bộ. Mô hình này không chỉ là bước đột phá về hiệu suất mà còn là lần đầu tiên triển khai có hệ thống mô hình "đào tạo là sự đồng thuận" do Prime Intellect đề xuất. INTELLECT-2 tích hợp các mô-đun giao thức cốt lõi như PRIME-RL (cấu trúc đào tạo không đồng bộ), TOPLOC (xác minh hành vi đào tạo) và SHARDCAST (tổng hợp trọng số không đồng bộ) , đánh dấu lần đầu tiên một mạng đào tạo phi tập trung đạt được vòng lặp khép kín về tính cởi mở, khả năng xác minh và khuyến khích kinh tế của quá trình đào tạo .


Về mặt hiệu suất, INTELLECT-2 dựa trên đào tạo QwQ-32B và đã thực hiện đào tạo RL đặc biệt về mã và toán học, đi đầu trong các mô hình tinh chỉnh RL nguồn mở hiện tại. Mặc dù vẫn chưa vượt qua các mô hình nguồn đóng như GPT-4 hoặc Gemini, nhưng ý nghĩa thực sự của nó nằm ở chỗ: đây là thử nghiệm mô hình phi tập trung đầu tiên trên thế giới với quy trình đào tạo hoàn chỉnh có thể tái tạo, xác minh và kiểm toán được. Prime Intellect không chỉ mã nguồn mở mô hình mà quan trọng hơn là chính quy trình đào tạo - dữ liệu đào tạo, quỹ đạo cập nhật chiến lược, quy trình xác minh và logic tổng hợp đều minh bạch và có thể truy xuất, xây dựng một nguyên mẫu mạng đào tạo phi tập trung mà mọi người đều có thể tham gia, cộng tác đáng tin cậy và chia sẻ lợi ích .


Pluralis: Một trình khám phá mô hình cho song song mô hình không đồng bộ và đào tạo cộng tác nén cấu trúc

Pluralis là một dự án AI Web3 tập trung vào "mạng lưới đào tạo cộng tác đáng tin cậy". Mục tiêu cốt lõi của dự án là thúc đẩy mô hình đào tạo phi tập trung, tham gia mở và khuyến khích dài hạn. Khác với các con đường đào tạo tập trung hoặc khép kín hiện tại, Pluralis đề xuất một khái niệm mới gọi là Protocol Learning : quy trình đào tạo mô hình "dựa trên giao thức" và xây dựng một hệ thống đào tạo mở với vòng lặp khép kín khuyến khích nội tại thông qua các cơ chế cộng tác có thể xác minh và lập bản đồ quyền sở hữu mô hình.


01Khái niệm cốt lõi: Học giao thức


Giao thức học tập do Pluralis đề xuất bao gồm ba trụ cột chính:

  1. Các mô hình không thể vật chất hóa
    Mô hình được phân phối giữa nhiều nút dưới dạng các mảnh vỡ và không có nút nào có thể khôi phục toàn bộ trọng số và vẫn là nguồn đóng. Thiết kế này làm cho mô hình trở thành "tài sản trong giao thức" tự nhiên, có thể thực hiện kiểm soát thông tin xác thực truy cập, bảo vệ rò rỉ và ràng buộc phân bổ thu nhập.

  2. Đào tạo song song mô hình qua Internet
    Thông qua cơ chế song song của mô hình Pipeline không đồng bộ (kiến trúc SWARM), các nút khác nhau chỉ giữ trọng số một phần và hợp tác để hoàn tất quá trình đào tạo hoặc suy luận thông qua mạng băng thông thấp.

  3. Quyền sở hữu một phần cho các ưu đãi
    Tất cả các nút tham gia đều có được quyền sở hữu một phần mô hình dựa trên đóng góp đào tạo của họ, do đó được hưởng quyền chia sẻ lợi nhuận trong tương lai và quyền quản lý giao thức.


02 Kiến trúc kỹ thuật của giao thức Pluralis

Hình ảnh


03Giải thích chi tiết các cơ chế kỹ thuật chính

# Mô hình không thể vật chất hóa

Trong A Third Path: Protocol Learning, lần đầu tiên đề xuất rằng trọng số mô hình được phân phối dưới dạng các mảnh vỡ để đảm bảo rằng "tài sản mô hình" chỉ có thể chạy trong mạng Swarm và quyền truy cập và lợi ích của chúng được kiểm soát bởi giao thức. Cơ chế này là điều kiện tiên quyết để đạt được cấu trúc khuyến khích bền vững cho đào tạo phi tập trung.

# Mô hình không đồng bộ-Đào tạo song song

Trong "SWARM Parallel with Asynchronous Updates", Pluralis đã xây dựng một kiến trúc song song mô hình không đồng bộ dựa trên Pipeline và trình diễn lần đầu tiên trên LLaMA-3. Đổi mới cốt lõi là việc giới thiệu cơ chế Nesterov Accelerated Gradient (NAG) , cơ chế này hiệu chỉnh hiệu quả các vấn đề về trôi gradient và mất ổn định hội tụ trong quá trình cập nhật không đồng bộ, giúp việc đào tạo giữa các thiết bị không đồng nhất trở nên thiết thực trong môi trường băng thông thấp.

# Phân bố không gian cột

Trong Beyond Top-K, đề xuất thay thế Top-K truyền thống bằng phương pháp nén không gian cột có cấu trúc để tránh phá hủy đường dẫn ngữ nghĩa. Cơ chế này tính đến cả độ chính xác của mô hình và hiệu quả giao tiếp. Đã được thử nghiệm rằng hơn 90% dữ liệu giao tiếp có thể được nén trong môi trường song song mô hình không đồng bộ, đây là bước đột phá quan trọng trong việc đạt được giao tiếp hiệu quả có cấu trúc.


04Định vị công nghệ và lựa chọn đường dẫn


Pluralis rõ ràng lấy "song song mô hình không đồng bộ" làm hướng cốt lõi, nhấn mạnh rằng nó có những ưu điểm sau so với song song dữ liệu:

  • Hỗ trợ mạng băng thông thấp các nút không đồng nhất ;

  • Thích ứng với tính không đồng nhất của thiết bị và cho phép GPU cấp tiêu dùng tham gia;

  • Nó có khả năng lập lịch đàn hồi tự nhiên và hỗ trợ nhiều nút trực tuyến/ngoại tuyến.

  • Ba điểm đột phá chính nén cấu trúc + cập nhật không đồng bộ + không trích xuất được trọng số .


Hiện tại, theo sáu tài liệu blog kỹ thuật được công bố trên trang web chính thức, cấu trúc logic được tích hợp thành ba dòng chính sau:

  1. Triết lý và tầm nhìn : Con đường thứ ba: Học giao thức Tại sao đào tạo phi tập trung lại quan trọng

  2. Chi tiết cơ chế kỹ thuật : "SWARM Parallel", "Beyond Top-K", "Cập nhật không đồng bộ"

  3. Khám phá Đổi mới thể chế : Các mô hình không thể thực hiện được và các giao thức sở hữu một phần


Hiện tại, Pluralis vẫn chưa tung ra bất kỳ sản phẩm, mạng thử nghiệm hoặc mã nguồn mở nào. Lý do là vì con đường kỹ thuật mà nó đã chọn cực kỳ thách thức: trước tiên nó phải giải quyết các vấn đề cấp hệ thống như kiến trúc hệ thống cơ bản, giao thức truyền thông và khả năng không xuất khẩu trọng số trước khi có thể đóng gói các dịch vụ sản phẩm lên trên.


Trong một bài báo mới được Pluralis Research công bố vào tháng 6 năm 2025, khuôn khổ đào tạo phi tập trung của họ đã được mở rộng từ giai đoạn tiền đào tạo mô hình sang giai đoạn tinh chỉnh mô hình, hỗ trợ cập nhật không đồng bộ, giao tiếp thưa thớt và tổng hợp trọng số một phần. So với các thiết kế trước đây tập trung vào lý thuyết và tiền đào tạo, công trình này chú trọng hơn đến tính khả thi của việc triển khai, đánh dấu sự trưởng thành hơn nữa của họ trong kiến trúc đào tạo toàn chu kỳ.


Gensyn: Một lớp giao thức đào tạo phi tập trung được thúc đẩy bởi việc thực hiện có thể xác minh

Gensyn là một dự án AI Web3 tập trung vào "thực hiện đáng tin cậy các tác vụ đào tạo học sâu". Cốt lõi không phải là tái cấu trúc kiến trúc mô hình hoặc mô hình đào tạo, mà là xây dựng một mạng lưới thực hiện đào tạo phân tán có thể xác minh được với toàn bộ quy trình "phân phối tác vụ + thực hiện đào tạo + xác minh kết quả + khuyến khích công bằng" . Thông qua thiết kế kiến trúc đào tạo ngoài chuỗi + xác minh trên chuỗi, Gensyn đã thiết lập một thị trường đào tạo toàn cầu hiệu quả, cởi mở và có động lực, biến "đào tạo là khai thác" thành hiện thực.


01 Định vị dự án: Lớp giao thức thực hiện cho các nhiệm vụ đào tạo


Gensyn không phải là về “cách đào tạo”, mà là về cơ sở hạ tầng của “ai đào tạo, cách xác minh và cách chia sẻ lợi nhuận”. Bản chất của nó là một giao thức điện toán có thể xác minh được cho các tác vụ đào tạo, chủ yếu giải quyết:

  • Ai sẽ thực hiện nhiệm vụ đào tạo (phân phối sức mạnh tính toán và khớp động)

  • Cách xác minh kết quả thực hiện (không cần tính toán lại toàn bộ, chỉ cần xác minh các toán tử đang tranh chấp)

  • Cách phân phối thu nhập đào tạo (Cơ chế trò chơi Stake, Slashing và đa vai)


02 Tổng quan về kiến trúc kỹ thuật

Hình ảnh


03 Mô-đun Giải thích chi tiết

# RL Swarm: Một hệ thống đào tạo học tăng cường cộng tác

RL Swarm, do Gensyn tiên phong, là một hệ thống tối ưu hóa cộng tác đa mô hình phi tập trung dành cho giai đoạn sau đào tạo, với các tính năng cốt lõi sau:

Quá trình học tập và suy luận phân tán :

  • Trả lời : Mỗi nút đưa ra câu trả lời một cách độc lập.

  • Giai đoạn phê bình : Các nút bình luận về đầu ra của nhau và chọn ra câu trả lời và logic tốt nhất;

  • Giai đoạn đồng thuận (Giải quyết) : Dự đoán sở thích của hầu hết các nút và sửa đổi câu trả lời của riêng chúng cho phù hợp để đạt được các bản cập nhật trọng số cục bộ.


RL Swarm do Gensyn đề xuất là một hệ thống tối ưu hóa cộng tác đa mô hình phi tập trung. Mỗi nút chạy một mô hình độc lập và thực hiện đào tạo cục bộ mà không cần đồng bộ hóa gradient . Nó tự nhiên thích ứng với sức mạnh tính toán không đồng nhất và môi trường mạng không ổn định, đồng thời hỗ trợ truy cập và thoát nút đàn hồi. Cơ chế này dựa trên ý tưởng của RLHF và trò chơi đa tác nhân, nhưng gần hơn với logic tiến hóa động của mạng suy luận cộng tác. Các nút được thưởng theo mức độ nhất quán với kết quả đồng thuận của nhóm, do đó thúc đẩy tối ưu hóa liên tục và học tập hội tụ về khả năng suy luận. RL Swarm cải thiện đáng kể tính mạnh mẽ và khả năng khái quát hóa của mô hình trong mạng mở và đã được triển khai như một mô-đun thực thi cốt lõi trong Testnet Giai đoạn 0 của Gensyn dựa trên Ethereum Rollup.

# Verde + Proof-of-Learning: Cơ chế xác minh đáng tin cậy

Mô-đun Verde của Gensyn kết hợp ba cơ chế:

  • Bằng chứng học tập : Xác định xem quá trình đào tạo có thực sự diễn ra hay không dựa trên dấu vết gradient và siêu dữ liệu đào tạo;

  • Xác định vị trí dựa trên đồ thị : xác định các nút phân kỳ trong đồ thị tính toán đào tạo và chỉ cần tính toán lại các hoạt động cụ thể;

  • Đoàn đại biểu được trọng tài : Áp dụng cơ chế xác minh trọng tài, trong đó bên xác minh và bên thách thức nêu tranh chấp và xác minh tại địa phương, giúp giảm đáng kể chi phí xác minh.


So với ZKP hoặc các chương trình xác minh tính toán lại đầy đủ, chương trình Verde đạt được sự cân bằng tốt hơn giữa khả năng xác minh và hiệu quả.

# SkipPipe: Cơ chế tối ưu hóa khả năng chịu lỗi truyền thông

SkipPipe được thiết kế để giải quyết vấn đề tắc nghẽn truyền thông trong tình huống "băng thông thấp + nút ngoại tuyến". Các khả năng cốt lõi của nó bao gồm:

  • Tỷ lệ bỏ qua : Bỏ qua các nút bị hạn chế để tránh tình trạng tắc nghẽn khi đào tạo;

  • Thuật toán lập lịch động : tạo ra đường dẫn thực thi tối ưu theo thời gian thực;

  • Thực thi có khả năng chịu lỗi : Ngay cả khi 50% số nút bị lỗi, độ chính xác suy luận chỉ giảm khoảng 7%.


Nó hỗ trợ cải thiện thông lượng đào tạo lên tới 55% và triển khai các khả năng chính như "lý luận thoát sớm", "sắp xếp lại liền mạch" và "hoàn thành suy luận".

# HDEE: Cụm chuyên gia không đồng nhất giữa các miền

Mô-đun HDEE (Heterogeneous Domain-Expert Ensembles) được dành riêng để tối ưu hóa các tình huống sau:

  • Đào tạo đa lĩnh vực, đa phương thức và đa nhiệm vụ;

  • Sự phân bố của các loại dữ liệu đào tạo khác nhau không đồng đều và mức độ khó cũng khác nhau rất nhiều;

  • Các vấn đề về phân bổ và lập lịch tác vụ trong môi trường có khả năng tính toán của nhiều thiết bị không đồng nhất và băng thông truyền thông không ổn định.

Các tính năng cốt lõi của nó:

  • MHe-IHo : Chỉ định các mô hình có kích thước khác nhau cho các nhiệm vụ có độ khó khác nhau (các mô hình không đồng nhất, kích thước bước đào tạo thống nhất);

  • MHo-IHe : độ khó của nhiệm vụ đồng đều, nhưng điều chỉnh không đồng bộ về kích thước bước đào tạo;

  • Hỗ trợ các mô hình chuyên gia không đồng nhất + các chiến lược đào tạo có thể cắm thêm để cải thiện khả năng thích ứng và khả năng chịu lỗi;

  • Nó nhấn mạnh vào "sự hợp tác song song + giao tiếp cực kỳ thấp + phân bổ chuyên gia năng động" và phù hợp với hệ sinh thái nhiệm vụ phức tạp trong thực tế.

# Cơ chế trò chơi đa vai trò: lòng tin và động cơ song hành

Mạng lưới Gensyn giới thiệu bốn loại người tham gia:

  • Người nộp : công bố nhiệm vụ đào tạo, thiết lập cấu trúc và ngân sách;

  • Solver : thực hiện các nhiệm vụ đào tạo và gửi kết quả;

  • Người xác minh : Xác minh hành vi đào tạo để đảm bảo tuân thủ và hiệu quả;

  • Người tố giác : Thách thức người xác thực để nhận được phần thưởng trọng tài hoặc chịu hình phạt.


Cơ chế này lấy cảm hứng từ thiết kế trò chơi kinh tế Truebit. Bằng cách chèn lỗi + trọng tài ngẫu nhiên, nó khuyến khích người tham gia hợp tác một cách trung thực và đảm bảo hoạt động đáng tin cậy của mạng.


04Lập kế hoạch Testnet và lộ trình

Hình ảnh


Nous Research: Một hệ thống đào tạo tiến hóa nhận thức được thúc đẩy bởi các khái niệm AI chủ quan

Nous Research là một trong số ít nhóm đào tạo phi tập trung có cả thành tựu về triết học và kỹ thuật. Tầm nhìn cốt lõi của họ bắt nguồn từ khái niệm "Desideratic AI": AI được xem như một chủ thể thông minh có tính chủ quan và khả năng tiến hóa , thay vì một công cụ đơn giản có thể kiểm soát được. Điểm độc đáo của Nous Research nằm ở chỗ họ không tối ưu hóa đào tạo AI như một "vấn đề về hiệu quả", mà là một quá trình hình thành "chủ thể nhận thức". Được thúc đẩy bởi tầm nhìn này, Nous tập trung vào việc xây dựng một mạng lưới đào tạo mở được đào tạo hợp tác bởi các nút không đồng nhất, không yêu cầu lập lịch trung tâm và chống kiểm duyệt, đồng thời được triển khai một cách có hệ thống thông qua chuỗi công cụ đầy đủ.


01 Hỗ trợ khái niệm: Xác định lại "mục đích" của đào tạo


Nous không đầu tư quá nhiều vào thiết kế khuyến khích hoặc kinh tế học giao thức, thay vào đó tìm cách thay đổi tiền đề triết lý của chính chương trình đào tạo :

  • Phản đối “chủ nghĩa liên kết” : không đồng tình với “đào tạo theo phong cách đào tạo” có mục tiêu duy nhất là sự kiểm soát của con người, và ủng hộ rằng đào tạo nên khuyến khích mô hình hình thành một phong cách nhận thức độc lập;

  • Nhấn mạnh vào tính chủ quan của mô hình : Người ta tin rằng mô hình cơ bản phải duy trì được tính không chắc chắn, tính đa dạng và khả năng tạo ra ảo giác (ảo giác là đức tính);

  • Đào tạo mô hình là sự hình thành nhận thức : mô hình không phải là "tối ưu hóa việc hoàn thành nhiệm vụ" mà là một cá nhân tham gia vào quá trình tiến hóa nhận thức.


Mặc dù khái niệm đào tạo này "lãng mạn", nhưng nó phản ánh logic cốt lõi của Nous trong việc thiết kế cơ sở hạ tầng đào tạo: làm thế nào để cho phép các mô hình không đồng nhất phát triển trong một mạng lưới mở thay vì được tuân theo một nguyên tắc thống nhất.


02 Đào tạo cốt lõi: Psyche Network và DisTrO Optimizer


Đóng góp quan trọng nhất của Nous cho đào tạo phi tập trung là xây dựng mạng Psyche và trình tối ưu hóa truyền thông cơ bản DisTrO (Đào tạo phân tán qua Internet) , cùng nhau tạo thành trung tâm thực hiện nhiệm vụ đào tạo: Mạng DisTrO + Psyche có nhiều khả năng cốt lõi, bao gồm nén truyền thông (sử dụng mã hóa dấu DCT + 1 bit, giúp giảm đáng kể yêu cầu về băng thông), khả năng thích ứng của nút (hỗ trợ GPU không đồng nhất, ngắt kết nối, kết nối lại và thoát tự động), khả năng chịu lỗi không đồng bộ (đào tạo liên tục mà không đồng bộ hóa, với khả năng chịu lỗi cao) và cơ chế lập lịch phi tập trung (không có điều phối viên trung tâm, sự đồng thuận và phân phối nhiệm vụ dựa trên blockchain). Kiến trúc này cung cấp nền tảng kỹ thuật thực tế và khả thi cho các mạng đào tạo mở có chi phí thấp, linh hoạt cao và có thể xác minh được.

Hình ảnh

Thiết kế kiến trúc này nhấn mạnh vào tính khả thi thực tế: nó không phụ thuộc vào máy chủ trung tâm, có thể thích ứng với các nút tình nguyện toàn cầu và có khả năng truy xuất kết quả đào tạo trên chuỗi.


03 Hệ thống lý luận và đại lý gồm Hermes / Forge / TEE_HEE


Ngoài việc xây dựng cơ sở hạ tầng đào tạo phi tập trung, Nous Research cũng đã tiến hành một số thí nghiệm hệ thống khám phá xung quanh khái niệm "chủ quan của AI":

# Dòng sản phẩm mô hình nguồn mở Hermes

Hermes 1 đến 3 là các mô hình lớn mã nguồn mở tiêu biểu do Nous đưa ra, dựa trên chương trình đào tạo LLaMA 3.1, bao gồm ba kích thước tham số là 8B, 70B và 405B. Chuỗi này nhằm mục đích hiện thực hóa khái niệm đào tạo "giải hướng dẫn, duy trì tính đa dạng" do Nous ủng hộ và chứng minh khả năng diễn đạt và khái quát hóa mạnh mẽ hơn trong việc duy trì ngữ cảnh dài, nhập vai và đối thoại nhiều vòng.

# Forge Reasoning API: Hệ thống suy luận đa phương thức

Forge là một khuôn khổ lý luận do Nous phát triển, kết hợp ba cơ chế bổ sung để đạt được khả năng lý luận linh hoạt và sáng tạo hơn:

  • MCTS (Monte Carlo Tree Search) : Tìm kiếm chiến lược cho các nhiệm vụ phức tạp;

  • CoC (Chuỗi mã) : Giới thiệu đường dẫn kết hợp của chuỗi mã và suy luận logic;

  • MoA (Hỗn hợp các tác nhân) : Cho phép nhiều mô hình đàm phán và cải thiện phạm vi và tính đa dạng của đầu ra.

Hệ thống này nhấn mạnh vào "lý luận không xác định" và các đường dẫn tạo kết hợp, đây là phản ứng mạnh mẽ đối với mô hình căn chỉnh hướng dẫn truyền thống.

# TEE_HEE: Thí nghiệm về tác nhân tự động AI

TEE_HEE là cuộc khám phá tiên tiến của Nous theo hướng các tác nhân tự chủ, nhằm mục đích xác minh liệu AI có thể chạy độc lập trong môi trường thực thi đáng tin cậy (TEE) và có danh tính kỹ thuật số duy nhất hay không. Tác nhân có tài khoản Twitter và Ethereum riêng và tất cả các quyền kiểm soát đều được quản lý bởi một vùng kiểm soát có thể xác minh từ xa, do đó các nhà phát triển không thể can thiệp vào hành vi của nó. Mục tiêu của thử nghiệm là xây dựng một chủ thể AI có "tính bất biến" và "ý định hành vi độc lập", thực hiện một bước quan trọng hướng tới việc xây dựng một cơ thể thông minh tự chủ.

# Nền tảng mô phỏng hành vi AI

Nous cũng đã phát triển nhiều trình mô phỏng bao gồm WorldSim, Doomscroll, Gods & S8n, v.v., để nghiên cứu quá trình tiến hóa hành vi và cơ chế hình thành giá trị của AI trong môi trường xã hội đa vai trò. Mặc dù không tham gia trực tiếp vào quá trình đào tạo, những thí nghiệm này đã đặt nền tảng ngữ nghĩa cho mô hình hành vi nhận thức của AI tự động dài hạn.


Flock: Mạng lưới học tập liên kết được tăng cường bằng blockchain

Flock.io là một nền tảng học tập liên kết dựa trên blockchain nhằm mục đích phân cấp dữ liệu, điện toán và mô hình để đào tạo AI. FLock thích khuôn khổ tích hợp của "học tập liên kết + lớp phần thưởng blockchain", về cơ bản là sự phát triển trên chuỗi của kiến trúc FL truyền thống hơn là khám phá có hệ thống về việc xây dựng một giao thức đào tạo mới. So với các dự án đào tạo phi tập trung như Gensyn, Prime Intellect, Nous Research và Pluralis, Flock tập trung vào bảo vệ quyền riêng tư và cải thiện khả năng sử dụng hơn là đột phá lý thuyết trong giao tiếp, xác minh hoặc phương pháp đào tạo. Đối tượng so sánh thực sự của nó là các hệ thống học tập liên kết như Flower, FedML và OpenFL .


01 Cơ chế cốt lõi của Flock.io

#Kiến trúc học tập liên bang : Nhấn mạnh vào chủ quyền dữ liệu và bảo vệ quyền riêng tư

Flock dựa trên mô hình Federated Learning (FL) cổ điển, cho phép nhiều chủ sở hữu dữ liệu cùng nhau đào tạo một mô hình thống nhất mà không cần chia sẻ dữ liệu gốc, tập trung vào việc giải quyết các vấn đề về chủ quyền dữ liệu, bảo mật và tin cậy. Quy trình cốt lõi bao gồm:

  • Đào tạo tại địa phương : Mỗi người tham gia (Người đề xuất) đào tạo mô hình trên một thiết bị cục bộ mà không tải dữ liệu gốc lên;

  • Tổng hợp trên chuỗi : Sau khi quá trình đào tạo hoàn tất, các bản cập nhật trọng số cục bộ sẽ được gửi và tổng hợp thành một mô hình toàn cầu bởi Miner trên chuỗi;

  • Đánh giá của ủy ban : VRF bầu ngẫu nhiên các nút bỏ phiếu và sử dụng một bộ kiểm tra độc lập để đánh giá và chấm điểm mô hình tổng hợp;

  • Khuyến khích và trừng phạt : phần thưởng hoặc tịch thu tài sản thế chấp được thực hiện dựa trên kết quả chấm điểm để đạt được mục tiêu chống ác ý và duy trì lòng tin năng động.

# Tích hợp Blockchain: Đạt được sự phối hợp hệ thống không cần tin cậy

Flock đã đưa tất cả các liên kết cốt lõi của quá trình đào tạo (phân bổ nhiệm vụ, gửi mô hình, đánh giá và chấm điểm, và thực hiện khuyến khích) vào chuỗi để làm cho hệ thống minh bạch, có thể xác minh và chống kiểm duyệt. Các cơ chế chính bao gồm:

  • Cơ chế bầu cử ngẫu nhiên VRF : cải thiện tính công bằng và khả năng chống thao túng trong việc luân phiên giữa Người đề xuất và Người bỏ phiếu;

  • Cơ chế đặt cược (PoS) : Hạn chế hành vi của nút thông qua việc thế chấp mã thông báo và hình phạt để cải thiện tính mạnh mẽ của hệ thống;

  • Tự động thực hiện các ưu đãi trên chuỗi : Thông qua hợp đồng thông minh, việc phân phối phần thưởng và cắt giảm hình phạt liên quan đến kết quả hoàn thành và đánh giá nhiệm vụ sẽ được thực hiện, xây dựng một mạng lưới cộng tác không yêu cầu các trung gian đáng tin cậy.

# zkFL: Đổi mới bảo vệ quyền riêng tư của cơ chế tổng hợp không kiến thức

Flock giới thiệu cơ chế tổng hợp zkFL zero-knowledge, cho phép Người đề xuất gửi các bằng chứng zero-knowledge được cập nhật cục bộ. Người bỏ phiếu có thể xác minh tính đúng đắn của chúng mà không cần truy cập vào các gradient gốc, do đó cải thiện độ tin cậy của quá trình đào tạo trong khi vẫn đảm bảo quyền riêng tư. Điều này thể hiện một cải tiến quan trọng trong học tập liên bang theo hướng tích hợp bảo vệ quyền riêng tư và khả năng xác minh.


02 Thành phần sản phẩm cốt lõi của Flock


  • AI Arena : Đây là nền tảng đào tạo phi tập trung của Flock.io. Người dùng có thể tham gia vào các nhiệm vụ mô hình thông qua train.flock.io, hoạt động như người đào tạo, người xác thực hoặc người ủy quyền và nhận phần thưởng bằng cách gửi mô hình, đánh giá hiệu suất hoặc ủy quyền token. Hiện tại, các nhiệm vụ đã được phát hành chính thức và sẽ dần được mở cho cộng đồng để cùng sáng tạo trong tương lai.

  • FL Alliance : Đây là một máy khách học tập liên kết Flock hỗ trợ người tham gia sử dụng dữ liệu riêng tư để tinh chỉnh mô hình hơn nữa. Thông qua các cơ chế bầu cử, đặt cược và cắt giảm VRF, nó đảm bảo tính trung thực và hiệu quả hợp tác của quá trình đào tạo và là liên kết chính giữa đào tạo ban đầu của cộng đồng và triển khai thực tế.

  • AI Marketplace : Đây là nền tảng đồng sáng tạo và triển khai mô hình, nơi người dùng có thể đề xuất mô hình, đóng góp dữ liệu và gọi dịch vụ mô hình. Nó hỗ trợ truy cập cơ sở dữ liệu và lý luận nâng cao RAG, đồng thời thúc đẩy việc triển khai và lưu hành các mô hình AI trong nhiều tình huống thực tế khác nhau.


So với các dự án đào tạo phi tập trung, các hệ thống học tập liên bang như Flock có nhiều lợi thế hơn về hiệu quả đào tạo, khả năng mở rộng và bảo vệ quyền riêng tư. Chúng đặc biệt phù hợp để đào tạo cộng tác các mô hình vừa và nhỏ. Các giải pháp thực tế và dễ triển khai, và có xu hướng tối ưu hóa khả thi hơn ở cấp độ kỹ thuật. Các dự án như Gensyn và Pluralis theo đuổi những đột phá lý thuyết sâu sắc hơn về phương pháp đào tạ

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận