Tác giả: 0xjacobzhao và ChatGPT 4o
Xin gửi lời cảm ơn đặc biệt đến Advait Jayant (Peri Labs), Sven Wellmann (Polychain Capital), Chao (Metropolis DAO), Jiahao (Flock), Alexander Long (Pluralis Research), Ben Fielding & Jeff Amico (Gensyn) vì những lời khuyên và phản hồi của họ.
Trong toàn bộ Chuỗi giá trị của AI, đào tạo mô hình là mắt xích có mức tiêu thụ tài nguyên cao nhất và ngưỡng kỹ thuật cao nhất, trực tiếp quyết định giới hạn trên của khả năng mô hình và hiệu ứng ứng dụng thực tế. So với các lệnh gọi nhẹ trong giai đoạn suy luận, quá trình đào tạo đòi hỏi đầu tư liên tục vào tỷ lệ băm quy mô lớn, quy trình xử lý dữ liệu phức tạp và hỗ trợ thuật toán tối ưu hóa cường độ cao, đây chính là "ngành công nghiệp nặng" thực sự để xây dựng hệ thống AI. Theo quan điểm của mô hình kiến trúc, các phương pháp đào tạo có thể được chia thành bốn loại: đào tạo tập trung, đào tạo phân tán, học tập liên bang và đào tạo phi tập trung, đây là trọng tâm của bài viết này.
Đào tạo tập trung là phương pháp truyền thống phổ biến nhất, trong đó một tổ chức duy nhất hoàn thành toàn bộ quy trình đào tạo trong một cụm cục bộ hiệu suất cao. Tất cả các thành phần, từ phần cứng (như NVIDIA GPU), phần mềm cơ bản (CUDA, cuDNN), hệ thống lập lịch cụm (như Kubernetes), đến các khuôn khổ đào tạo (như PyTorch dựa trên NCCL backend), đều được phối hợp và vận hành bởi một hệ thống điều khiển thống nhất. Kiến trúc cộng tác độ sâu này tối ưu hóa hiệu quả của việc chia sẻ bộ nhớ, đồng bộ hóa gradient và cơ chế chịu lỗi, và rất phù hợp để đào tạo các mô hình quy mô lớn như GPT và Gemini . Nó có những ưu điểm là hiệu quả cao và tài nguyên có thể kiểm soát được, nhưng nó cũng có những vấn đề như độc quyền dữ liệu, rào cản tài nguyên, tiêu thụ năng lượng và rủi ro điểm đơn.
Đào tạo phân tán là phương pháp chính thống để đào tạo mô hình lớn. Cốt lõi của nó là chia nhỏ nhiệm vụ đào tạo mô hình và phân phối chúng cho nhiều máy để thực hiện hợp tác nhằm phá vỡ nút thắt của tính toán và lưu trữ trên một máy. Mặc dù có tính năng "phân tán" về mặt vật lý, nhưng việc lập lịch và đồng bộ hóa tổng thể vẫn được kiểm soát bởi cơ quan tập trung. Nó thường chạy trong hoàn cảnh mạng cục bộ tốc độ cao. Thông qua công nghệ bus kết nối tốc độ cao NVLink, nút chính điều phối tất cả nhiệm vụ. Phương pháp chính thống bao gồm:
- Dữ liệu song song: Mỗi nút đào tạo các tham số dữ liệu khác nhau và chia sẻ chúng, điều này đòi hỏi phải khớp tỷ trọng.
- Mô hình song song: Triển khai các phần khác nhau của mô hình trên nút khác nhau để đạt được mở rộng mạnh mẽ;
- Đường ống song song: Thực hiện tuần tự theo từng giai đoạn để cải thiện thông lượng;
- Tensor Parallel: Phân đoạn tinh chỉnh các phép tính ma trận để cải thiện độ chi tiết song song.
Đào tạo phân tán là sự kết hợp của "kiểm soát tập trung + thực hiện phân tán", tương tự như cùng một ông chủ chỉ đạo từ xa nhiều nhân viên "văn phòng" để cộng tác hoàn thành nhiệm vụ. Hiện tại, hầu hết các mô hình lớn chính thống (GPT-4, Gemini, LLaMA, v.v.) đều được đào tạo theo cách này.
Đào tạo phi tập trung đại diện cho một con đường tương lai cởi mở hơn và chống kiểm duyệt. Tính năng cốt lõi của nó là nhiều nút không đáng tin cậy (có thể là máy tính gia đình, GPU đám mây hoặc thiết bị biên) làm việc cùng nhau để hoàn thành nhiệm vụ đào tạo mà không cần điều phối viên trung tâm, thường thông qua phân phối và cộng tác nhiệm vụ theo giao thức, và với sự trợ giúp của các cơ chế khích lệ crypto để đảm bảo tính trung thực của các đóng góp. Những thách thức chính mà mô hình này phải đối mặt bao gồm:
- Các thiết bị không đồng nhất và phân chia nhiệm vụ khó khăn: Các thiết bị không đồng nhất khó phối hợp và phân chia nhiệm vụ không hiệu quả;
- Nút thắt hiệu quả truyền thông: Truyền thông mạng không ổn định và nút thắt đồng bộ hóa gradient rất rõ ràng;
- Thiếu thực thi đáng tin cậy: Việc thiếu hoàn cảnh thực thi đáng tin cậy khiến việc xác minh xem nút có thực sự tham gia vào phép tính hay không trở nên khó khăn;
- Thiếu sự phối hợp thống nhất: Không có trình lập lịch trung tâm và cơ chế phân phối nhiệm vụ và khôi phục ngoại lệ rất phức tạp.
Đào tạo phi tập trung có thể được hiểu là: một nhóm tình nguyện viên trên toàn thế giới, mỗi người đóng góp tỷ lệ băm để đào tạo các mô hình một cách hợp tác, nhưng "đào tạo phi tập trung thực sự khả thi trên quy mô lớn" vẫn là một thách thức về kỹ thuật có hệ thống, liên quan đến nhiều cấp độ như kiến trúc hệ thống, giao thức truyền thông, bảo mật mật mã, cơ chế kinh tế và xác minh mô hình. Tuy nhiên, liệu "sự hợp tác có hiệu quả + khích lệ là trung thực + kết quả là chính xác" có thể đạt được hay không vẫn đang trong giai đoạn khám phá nguyên mẫu ban đầu.
Học tập liên bang là một hình thức chuyển tiếp giữa phân phối và phi tập trung. Nó nhấn mạnh vào việc lưu giữ dữ liệu cục bộ và tổng hợp tập trung các tham số mô hình. Nó phù hợp với các tình huống tập trung vào tuân thủ quyền riêng tư (như y tế và tài chính). Học tập liên bang có cấu trúc kỹ thuật và khả năng phối hợp cục bộ của đào tạo phân tán, đồng thời cũng có lợi thế phân tán dữ liệu của đào tạo phi tập trung . Tuy nhiên, nó vẫn dựa vào các điều phối viên đáng tin cậy và không có đặc điểm là hoàn toàn cởi mở và chống kiểm duyệt. Nó có thể được coi là giải pháp " phi tập trung có kiểm soát" trong tình huống tuân thủ quyền riêng tư. Nó tương đối nhẹ nhàng về mặt nhiệm vụ đào tạo, cấu trúc tin cậy và cơ chế giao tiếp, và phù hợp hơn với tư cách là kiến trúc triển khai chuyển tiếp trong ngành.
Bảng so sánh toàn cảnh mô hình đào tạo AI (kiến trúc kỹ thuật × khích lệ tin cậy × đặc điểm ứng dụng)
Các ranh giới, cơ hội và con đường thực tế của đào tạo phi tập trung
Theo quan điểm của mô hình đào tạo, đào tạo phi tập trung không áp dụng được cho mọi loại nhiệm vụ. Trong một số trường hợp, do cấu trúc phức tạp nhiệm vụ, yêu cầu tài nguyên cực cao hoặc khó khăn trong việc cộng tác, nên tự nhiên không phù hợp để hoàn thành hiệu quả giữa nút không đồng nhất và không đáng tin cậy. Ví dụ, đào tạo mô hình lớn thường dựa vào bộ nhớ video cao, độ trễ thấp và băng thông tốc độ cao, khiến việc phân chia và đồng bộ hóa hiệu quả trong mở mạng trở nên khó khăn; nhiệm vụ có hạn chế nghiêm ngặt về quyền riêng tư và chủ quyền dữ liệu (như dữ liệu y tế, tài chính và bí mật) bị hạn chế bởi sự tuân thủ pháp lý và các ràng buộc về đạo đức và không thể được chia sẻ công khai; và nhiệm vụ không có cơ sở khích lệ hợp tác (như mô hình nguồn đóng của công ty hoặc đào tạo nguyên mẫu nội bộ) thiếu động lực bên ngoài động lực. Các ranh giới này cùng nhau tạo thành những hạn chế thực tế hiện tại của đào tạo phi tập trung.
Nhưng điều này không có nghĩa là đào tạo phi tập trung là một đề xuất sai lầm. Trên thực tế, đào tạo phi tập trung cho thấy triển vọng ứng dụng rõ ràng trong nhiệm vụ nhẹ, dễ song song hóa và khích lệ . Bao gồm nhưng không giới hạn ở: tinh chỉnh LoRA, nhiệm vụ sau đào tạo căn chỉnh hành vi (như RLHF, DPO), đào tạo crowdsourcing dữ liệu và nhiệm vụ gắn nhãn, đào tạo mô hình cơ bản nhỏ có thể kiểm soát tài nguyên và các tình huống đào tạo cộng tác liên quan đến các thiết bị biên. Nhiệm vụ này thường có các đặc điểm là tính song song cao, ghép nối thấp và khả năng chịu đựng đối với tỷ lệ băm không đồng nhất và rất phù hợp để đào tạo cộng tác thông qua mạng P2P, giao thức Swarm, trình tối ưu hóa phân tán, v.v.
Bảng tổng quan về tính phù hợp của nhiệm vụ đào tạo phi tập trung
Phân tích các dự án đào tạo phi tập trung cổ điển
Hiện tại, trong lĩnh vực tiên phong của đào tạo phi tập trung và học tập liên bang, các dự án blockchain tiêu biểu chủ yếu bao gồm Prime Intellect, Pluralis.ai, Gensyn, Nous Research và Flock.io. Theo quan điểm về đổi mới công nghệ và khó khăn về kỹ thuật, Prime Intellect, Nous Research và Pluralis.ai đã đề xuất nhiều khám phá độc đáo hơn về kiến trúc hệ thống và thiết kế thuật toán, đại diện cho hướng tiên phong của nghiên cứu lý thuyết hiện tại; trong khi các con đường triển khai của Gensyn và Flock.io tương đối rõ ràng và có thể thấy tiến trình kỹ thuật ban đầu. Bài viết này sẽ lần lượt phân tích các công nghệ cốt lõi và kiến trúc kỹ thuật đằng sau năm dự án này và khám phá thêm sự khác biệt và mối quan hệ bổ sung của chúng trong hệ thống đào tạo AI phi tập trung .
Prime Intellect: Một công ty tiên phong trong mạng lưới học tăng cường cộng tác với lộ trình đào tạo có thể xác minh được
Prime Intellect cam kết xây dựng một mạng lưới đào tạo AI không cần tin cậy, cho phép bất kỳ ai tham gia đào tạo và nhận được phần thưởng đáng tin cậy cho những đóng góp về điện toán của họ. Prime Intellect hy vọng xây dựng một hệ thống đào tạo phi tập trung AI có thể xác minh, mở và khích lệ hoàn toàn thông qua ba mô-đun PRIME-RL + TOPLOC + SHARDCAST.
1. Cấu trúc ngăn xếp giao thức Prime Intellect và giá trị mô-đun chính
2. Giải thích chi tiết về các cơ chế chính của chương trình đào tạo Prime Intellect
PRIME-RL: Kiến trúc nhiệm vụ học tăng cường không đồng bộ tách biệt
PRIME-RL là nhiệm vụ được Prime Intellect tùy chỉnh cho các tình huống đào tạo phi tập trung , được thiết kế cho các mạng không đồng nhất và sự tham gia không đồng bộ. Nó sử dụng học tăng cường làm đối tượng thích ứng ưu tiên, tách biệt về mặt cấu trúc các quy trình đào tạo, lý luận và tải tỷ trọng, để mỗi nút đào tạo có thể hoàn thành chu kỳ nhiệm vụ một cách độc lập tại địa phương và cộng tác với cơ chế xác minh và tổng hợp thông qua các giao diện chuẩn hóa. So với các quy trình học có giám sát truyền thống, PRIME-RL phù hợp hơn cho đào tạo linh hoạt trong hoàn cảnh lập lịch phi tập trung, không chỉ làm giảm độ phức tạp của hệ thống mà còn đặt nền tảng cho việc hỗ trợ song song đa nhiệm vụ và tiến hóa chiến lược.
TOPLOC: Một cơ chế xác minh hành vi đào tạo nhẹ
TOPLOC (Trusted Observation & Policy-Locality Check) là cơ chế cốt lõi của khả năng xác minh đào tạo do Prime Intellect đề xuất, được sử dụng để xác định xem một nút có thực sự hoàn thành việc học chính sách hiệu quả dựa trên dữ liệu quan sát hay không. Không giống như các giải pháp nặng như ZKML, TOPLOC không dựa vào tính toán lại toàn bộ mô hình mà hoàn thành xác minh cấu trúc nhẹ bằng cách phân tích quỹ đạo nhất quán cục bộ giữa "chuỗi quan sát ↔ cập nhật chính sách". Đây là lần đầu tiên nó chuyển đổi quỹ đạo hành vi của quá trình đào tạo thành một đối tượng có thể xác minh. Đây là một cải tiến quan trọng để đạt được phân phối phần thưởng đào tạo không cần tin cậy và cung cấp một con đường khả thi để xây dựng mạng lưới đào tạo cộng tác phi tập trung có thể kiểm toán và khích lệ .
SHARDCAST: Giao thức truyền bá và tổng hợp tỷ trọng không đồng bộ
SHARDCAST là một giao thức truyền bá và tổng hợp tỷ trọng được thiết kế bởi Prime Intellect, được tối ưu hóa cho hoàn cảnh mạng thực với các trạng thái nút không đồng bộ, bị hạn chế băng thông và thay đổi. Nó kết hợp cơ chế truyền bá gossip với chiến lược đồng bộ hóa cục bộ, cho phép nhiều nút liên tục gửi các bản cập nhật một phần ở trạng thái không đồng bộ, đạt được sự hội tụ tiến bộ và sự tiến hóa đa phiên bản tỷ trọng. So với phương pháp AllReduce tập trung hoặc đồng bộ, SHARDCAST cải thiện đáng kể khả mở rộng và khả năng chịu lỗi của đào tạo phi tập trung và là nền tảng cốt lõi để xây dựng sự đồng thuận tỷ trọng ổn định và các lần lặp đào tạo liên tục.
OpenDiLoCo: Một khuôn khổ cho giao tiếp không đồng bộ thưa thớt
OpenDiLoCo là một khuôn khổ tối ưu hóa giao tiếp được triển khai độc lập và mã nguồn mở bởi đội ngũ Prime Intellect dựa trên khái niệm DiLoCo do DeepMind đề xuất. Nó được thiết kế để giải quyết các thách thức như hạn chế băng thông, tính không đồng nhất của thiết bị và sự bất ổn nút thường gặp trong đào tạo phi tập trung . Kiến trúc của nó dựa trên tính song song dữ liệu. Bằng cách xây dựng các cấu trúc tôpô thưa thớt như Ring, Expander và Small-World, nó tránh được chi phí truyền thông cao của đồng bộ hóa toàn cầu và chỉ dựa vào nút lân cận cục bộ để hoàn thành đào tạo cộng tác mô hình. Kết hợp với các bản cập nhật không đồng bộ và cơ chế chịu lỗi điểm dừng, OpenDiLoCo cho phép GPU cấp tiêu dùng và các thiết bị biên tham gia ổn định vào nhiệm vụ đào tạo, cải thiện đáng kể sự tham gia của đào tạo cộng tác toàn cầu. Đây là một trong những cơ sở hạ tầng truyền thông chính để xây dựng mạng lưới đào tạo phi tập trung .
PCCL: Thư viện truyền thông cộng tác
PCCL (Prime Collective Communication Library) là một thư viện giao tiếp nhẹ được Prime Intellect thiết kế riêng cho hoàn cảnh đào tạo AI phi tập trung . Nó nhằm mục đích giải quyết tình trạng tắc nghẽn thích ứng của các thư viện giao tiếp truyền thống (như NCCL, Gloo) trong các thiết bị không đồng nhất và mạng băng thông thấp. PCCL hỗ trợ cấu trúc thưa thớt, nén gradient, đồng bộ hóa độ chính xác thấp và khôi phục điểm dừng. Nó có thể chạy trên GPU cấp độ người tiêu dùng và nút không ổn định. Đây là thành phần cơ bản hỗ trợ khả năng giao tiếp không đồng bộ của giao thức OpenDiLoCo. Nó cải thiện đáng kể khả năng chịu đựng băng thông và khả năng tương thích của thiết bị của mạng đào tạo và mở ra nền tảng giao tiếp "dặm cuối" để xây dựng một mạng đào tạo cộng tác thực sự mở và không cần tin cậy.
3. Mạng lưới khích lệ trí tuệ Prime và phân chia nhân vật
Prime Intellect đã xây dựng một mạng lưới đào tạo không cần xin phép, có thể xác minh và khích lệ về mặt kinh tế, cho phép bất kỳ ai tham gia nhiệm vụ và được khen thưởng dựa trên những đóng góp thực sự. Giao thức hoạt động dựa trên ba nhân vật cốt lõi:
- Người khởi tạo nhiệm vụ: xác định hoàn cảnh đào tạo, mô hình ban đầu, chức năng phần thưởng và tiêu chí xác minh
- Nút đào tạo: thực hiện đào tạo cục bộ, gửi cập nhật tỷ trọng và quan sát quỹ đạo
- Nút xác minh: Sử dụng cơ chế TOPLOC để xác minh tính xác thực của hành vi đào tạo và tham gia vào tính toán phần thưởng và tổng hợp chiến lược
Quy trình cốt lõi của giao thức bao gồm giải phóng nhiệm vụ, đào tạo nút, xác minh quỹ đạo, tổng hợp tỷ trọng(SHARDCAST) và phân phối phần thưởng, hình thành vòng lặp khép kín khích lệ xung quanh "hành vi đào tạo thực tế".
INTELLECT-2: Ra mắt mô hình đào tạo phi tập trung có thể xác minh đầu tiên
Prime Intellect đã phát hành INTELLECT-2 vào tháng 5 năm 2025, mô hình học tăng cường lớn đầu tiên trên thế giới được đào tạo bởi nút phi tập trung không đồng bộ, không cần tin cậy, với thang tham số là 32B. Mô hình INTELLECT-2 được đào tạo bởi hơn 100 nút không đồng nhất GPU trên ba châu lục, sử dụng kiến trúc hoàn toàn không đồng bộ và thời gian đào tạo hơn 400 giờ, chứng minh tính khả thi và ổn định của các mạng cộng tác không đồng bộ. Mô hình này không chỉ là bước đột phá về hiệu suất mà còn là lần đầu tiên triển khai có hệ thống mô hình "đào tạo là sự đồng thuận" do Prime Intellect đề xuất. INTELLECT-2 tích hợp mô-đun giao thức cốt lõi như PRIME-RL (cấu trúc đào tạo không đồng bộ), TOPLOC (xác minh hành vi đào tạo) và SHARDCAST (tổng hợp tỷ trọng không đồng bộ), đánh dấu lần đầu tiên phi tập trung đạt được vòng lặp khép kín về tính cởi mở, khả năng xác minh và khích lệ kinh tế của quá trình đào tạo.
Về mặt hiệu suất, INTELLECT-2 dựa trên đào tạo QwQ-32B và đã thực hiện đào tạo RL đặc biệt về mã và toán học, đi đầu trong các mô hình tinh chỉnh RL mã nguồn mở hiện tại. Mặc dù vẫn chưa vượt qua các mô hình nguồn đóng như GPT-4 hoặc Gemini , nhưng ý nghĩa thực sự của nó nằm ở chỗ: đây là thử nghiệm mô hình phi tập trung đầu tiên trên thế giới với quy trình đào tạo hoàn chỉnh có thể tái tạo, xác minh và kiểm toán . Prime Intellect không chỉ mã nguồn mở mô hình mà mã nguồn mở hơn là bản thân quy trình đào tạo - dữ liệu đào tạo, quỹ đạo cập nhật chiến lược, quy trình xác minh và logic tổng hợp đều minh bạch và có thể truy xuất, xây dựng một nguyên mẫu mạng đào tạo phi tập trung mà mọi người đều có thể tham gia, cộng tác đáng tin cậy và chia sẻ lợi nhuận .
5. Bối cảnh đội ngũ và tài chính
Prime Intellect đã hoàn thành vòng hạt giống trị giá 15 triệu đô la vào tháng 2 năm 2025, do Founders Fund dẫn đầu, với sự tham gia của các nhà lãnh đạo trong ngành như Menlo Ventures, Andrej Karpathy, Clem Delangue, Dylan Patel, Balaji Srinivasan, Emad Mostaque và Sandeep Nailwal. Trước đó, dự án đã hoàn thành vòng đầu trị giá 5,5 triệu đô la vào tháng 4 năm 2024, do CoinFund và Distributed Global dẫn đầu, với sự tham gia của Compound VC, Collab + Currency và Protocol Labs. Tính đến nay, Prime Intellect đã huy động được tổng cộng hơn 20 triệu đô la.
Những người đồng sáng lập Prime Intellect là Vincent Weisser và Johannes Hagemann. Đội ngũ bối cảnh về AI và Web3. Các thành viên cốt cán đến từ Meta AI, Google Research, OpenAI, Flashbots, Stability AI và Ethereum Foundation. Họ có năng lực sâu sắc trong thiết kế kiến trúc hệ thống và triển khai kỹ thuật phân tán. Họ là một trong số rất ít đội ngũ điều hành đã hoàn thành thành công khóa đào tạo mô hình phi tập trung mô lớn thực sự.
Pluralis: Một trình khám phá mô hình cho song song mô hình không đồng bộ và đào tạo cộng tác nén cấu trúc
Pluralis là một dự án AI Web3 tập trung vào "mạng lưới đào tạo cộng tác đáng tin cậy". Mục tiêu cốt lõi của dự án là thúc đẩy mô hình đào tạo phi tập trung, tham gia mở và khích lệ dài hạn. Khác với các con đường đào tạo tập trung hoặc khép kín hiện tại, Pluralis đề xuất một khái niệm mới gọi là Protocol Learning: quy trình đào tạo mô hình "dựa trên giao thức" và xây dựng một hệ thống đào tạo mở với vòng lặp khép kín khích lệ nội tại thông qua các cơ chế cộng tác có thể xác minh và lập bản đồ quyền sở hữu mô hình.
1. Khái niệm cốt lõi: Học giao thức
Giao thức học tập do Pluralis đề xuất bao gồm ba trụ cột chính:
- Mô hình rút: Mô hình được phân phối thành các mảnh giữa nhiều nút và không có nút nào có thể khôi phục toàn bộ tỷ trọng vẫn là nguồn đóng. Thiết kế này làm cho mô hình trở thành "tài sản trong giao thức" tự nhiên, có thể đạt được quyền kiểm soát thông tin xác thực truy cập, bảo vệ rò rỉ và ràng buộc phân bổ lợi nhuận.
- Đào tạo song song mô hình qua Internet: Thông qua cơ chế song song mô hình Pipeline không đồng bộ (kiến trúc SWARM), nút khác nhau chỉ giữ tỷ trọng một phần và hoàn thành quá trình đào tạo hoặc suy luận thông qua sự cộng tác mạng băng thông thấp.
- Quyền sở hữu một phần đối với các khoản khuyến khích: Tất cả nút tham gia đều có được quyền sở hữu một phần đối với mô hình dựa trên những đóng góp đào tạo của họ, do đó được hưởng quyền chia sẻ lợi nhuận trong tương lai và quyền quản lý giao thức.
2. Kiến trúc kỹ thuật của ngăn xếp giao thức Pluralis
3. Giải thích chi tiết các cơ chế kỹ thuật chính
Các mô hình không thể vật chất hóa
Trong A Third Path: Protocol Learning, lần đầu tiên đề xuất rằng tỷ trọng mô hình được phân phối dưới dạng các mảnh vỡ để đảm bảo rằng "tài sản mô hình" chỉ có thể chạy trong mạng Swarm, đảm bảo rằng quyền truy cập và lợi nhuận của chúng được kiểm soát bởi giao thức. Cơ chế này là điều kiện tiên quyết để đạt được cấu trúc khích lệ bền vững phi tập trung .
Mô hình không đồng bộ-Đào tạo song song
Trong SWARM Parallel with Asynchronous Updates, Pluralis đã xây dựng một kiến trúc song song mô hình không đồng bộ dựa trên Pipeline và trình diễn lần đầu tiên trên LLaMA-3. Đổi mới cốt lõi là việc giới thiệu cơ chế Nesterov Accelerated Gradient (NAG), cơ chế này hiệu chỉnh hiệu quả các vấn đề về trôi gradient và hội tụ không ổn định trong quá trình cập nhật không đồng bộ, giúp việc đào tạo giữa các thiết bị không đồng nhất trở nên thiết thực trong hoàn cảnh băng thông thấp.
Sự phân bố không gian cột
Trong Beyond Top-K, đề xuất thay thế Top-K truyền thống bằng phương pháp nén không gian cột có cấu trúc để tránh phá hủy đường dẫn ngữ nghĩa. Cơ chế này tính đến cả độ chính xác của mô hình và hiệu quả giao tiếp. Đã được thử nghiệm rằng hơn 90% dữ liệu giao tiếp có thể được nén trong hoàn cảnh song song mô hình không đồng bộ, đây là bước đột phá quan trọng trong việc đạt được giao tiếp hiệu quả có cấu trúc.
4. Định vị công nghệ và lựa chọn đường đi
Pluralis rõ ràng lấy "song song mô hình không đồng bộ" làm hướng cốt lõi, nhấn mạnh rằng nó có những ưu điểm sau so với song song dữ liệu:
- Hỗ trợ mạng băng thông thấp và nút không đồng nhất;
- Thích ứng với tính không đồng nhất của thiết bị và cho phép GPU cấp tiêu dùng tham gia;
- Nó có khả năng lập lịch đàn hồi tự nhiên và hỗ trợ nút ra mắt /ngoại tuyến thường xuyên;
- Ba điểm đột phá chính là nén cấu trúc + cập nhật không đồng bộ + không rút tỷ trọng .
Hiện tại, theo sáu tài liệu blog kỹ thuật được công bố trên trang web chính thức, cấu trúc logic được tích hợp thành ba dòng chính sau:
- Triết lý và viễn cảnh mong đợi: Con đường thứ ba: Học giao thức Tại sao đào tạo phi tập trung lại quan trọng
- Chi tiết cơ chế kỹ thuật: "SWARM Parallel", "Beyond Top-K", "Cập nhật không đồng bộ"
- Khám phá Đổi mới thể chế: Các mô hình không thể thực hiện được và các giao thức sở hữu một phần
Hiện tại, Pluralis vẫn chưa ra mắt bất kỳ sản phẩm, mạng thử nghiệm hoặc mã mã nguồn mở nào. Lý do là vì con đường kỹ thuật mà nó đã chọn cực kỳ thách thức: trước tiên nó phải giải quyết các vấn đề cấp hệ thống như kiến trúc hệ thống cơ bản, giao thức truyền thông và khả năng không xuất khẩu tỷ trọng trước khi có thể đóng gói các dịch vụ sản phẩm lên trên.
Trong một bài báo mới được Pluralis Research công bố vào tháng 6 năm 2025, khuôn khổ đào tạo phi tập trung của họ đã được mở rộng từ giai đoạn tiền đào tạo mô hình sang giai đoạn tinh chỉnh mô hình, hỗ trợ cập nhật không đồng bộ, giao tiếp thưa thớt và tổng hợp tỷ trọng một phần. So với các thiết kế trước đây tập trung vào lý thuyết và tiền đào tạo, công trình lần chú trọng hơn đến tính khả thi của việc triển khai, đánh dấu sự trưởng thành hơn nữa của họ trong kiến trúc đào tạo toàn chu kỳ.
5. Bối cảnh đội ngũ và tài chính
Pluralis đã hoàn thành vòng hạt giống trị giá 7,6 triệu đô la vào năm 2025, do Union Square Ventures (USV) và CoinFund dẫn đầu. Nhà sáng lập Alexander Long có bối cảnh Tiến sĩ về học máy và bối cảnh về cả toán học và nghiên cứu hệ thống. Các thành viên cốt lõi đều là các nhà nghiên cứu học máy có bối cảnh. Đây là một dự án điển hình do công nghệ thúc đẩy, với các bài báo mật độ cao và blog kỹ thuật là con đường xuất bản chính. Dự án vẫn chưa thành lập đội ngũ BD/Growth và tập trung vào việc khắc phục những thách thức về cơ sở hạ tầng của mô hình song song không đồng bộ băng thông thấp.
Gensyn: Một lớp giao thức đào tạo phi tập trung được thúc đẩy bởi việc thực hiện có thể xác minh
Gensyn là một dự án AI Web3 tập trung vào "thực hiện đáng tin cậy nhiệm vụ đào tạo học độ sâu ". Cốt lõi không phải là tái cấu trúc kiến trúc mô hình hoặc mô hình đào tạo, mà là xây dựng một mạng lưới thực hiện đào tạo phân tán có thể xác minh được với toàn bộ quy trình "phân phối nhiệm vụ+ thực hiện đào tạo + xác minh kết quả + khích lệ công bằng". Thông qua thiết kế kiến trúc đào tạo Chuỗi chuỗi + xác minh Chuỗi, Gensyn đã thiết lập một thị trường đào tạo toàn cầu hiệu quả, cởi mở và khích lệ, biến "đào tạo là khai thác" thành hiện thực.
1. Định vị dự án: Lớp giao thức thực hiện cho nhiệm vụ đào tạo
Gensyn không phải là về “cách đào tạo”, mà là về cơ sở hạ tầng của “ai đào tạo, cách xác minh và cách chia sẻ lợi nhuận”. Bản chất của nó là một giao thức tính toán có thể xác minh được cho nhiệm vụ đào tạo, chủ yếu giải quyết:
- Ai sẽ thực hiện nhiệm vụ đào tạo (phân phối tỷ lệ băm và khớp động)
- Cách xác minh kết quả thực hiện (không cần tính toán lại toàn bộ, chỉ cần xác minh các toán tử đang tranh chấp)
- Cách phân phối lợi nhuận đào tạo (Cơ chế Stake, Slashing và trò chơi đa nhân vật)
2. Tổng quan về kiến trúc kỹ thuật
3. Giải thích chi tiết về Mô-Đun
RL Swarm: Hệ thống đào tạo học tăng cường cộng tác
RL Swarm, do Gensyn tiên phong, là một hệ thống tối ưu hóa cộng tác đa mô hình phi tập trung dành cho giai đoạn sau đào tạo, với các tính năng cốt lõi sau:
Quá trình học tập và suy luận phân tán:
- Giai đoạn tạo (Trả lời): Mỗi nút đưa ra câu trả lời một cách độc lập;
- Giai đoạn phê bình: Nút bình luận về đầu ra của nhau và chọn ra câu trả lời và logic tốt nhất;
- Giai đoạn đồng thuận (Giải quyết): dự đoán sở thích của hầu hết nút và sửa đổi câu trả lời của riêng chúng cho phù hợp để đạt được các bản cập nhật tỷ trọng cục bộ.
RL Swarm do Gensyn đề xuất là một hệ thống tối ưu hóa cộng tác đa mô hình phi tập trung. Mỗi nút chạy một mô hình độc lập và thực hiện đào tạo cục bộ mà không cần đồng bộ hóa gradient. Nó tự nhiên thích ứng với tỷ lệ băm không đồng nhất và hoàn cảnh mạng không ổn định, đồng thời hỗ trợ truy cập và thoát nút đàn hồi. Cơ chế này dựa trên ý tưởng của RLHF và trò chơi đa tác nhân, nhưng gần hơn với logic tiến hóa động của mạng suy luận cộng tác. Nút được thưởng theo mức độ nhất quán với kết quả đồng thuận của nhóm, do đó thúc đẩy quá trình tối ưu hóa liên tục và học tập hội tụ của khả năng suy luận. RL Swarm cải thiện đáng kể tính mạnh mẽ và khả năng khái quát hóa của mô hình trong mở mạng và đã được ra mắt như một mô-đun thực thi cốt lõi trong Testnet Giai đoạn 0 của Gensyn dựa trên Ethereum Rollup.
Verde + Proof-of-Learning: Cơ chế xác minh đáng tin cậy
mô-đun Verde của Gensyn kết hợp ba cơ chế:
- Bằng chứng học tập: Xác định xem quá trình đào tạo có thực sự diễn ra hay không dựa trên dấu vết gradient và dữ liệu đào tạo;
- Xác định vị trí dựa trên đồ thị: xác định nút phân kỳ trong đồ thị tính toán đào tạo và chỉ cần tính toán lại các hoạt động cụ thể;
- Ủy quyền trọng tài: Sử dụng cơ chế xác minh trọng tài, trong đó người xác minh và người thách thức nêu tranh chấp và tiến hành xác minh một phần, giúp giảm đáng kể chi phí xác minh.
So với ZKP hoặc các chương trình xác minh tính toán lại đầy đủ, chương trình Verde đạt được sự cân bằng tốt hơn giữa khả năng xác minh và hiệu quả.
SkipPipe: Cơ chế tối ưu hóa khả năng chịu lỗi truyền thông
SkipPipe được thiết kế để giải quyết vấn đề tắc nghẽn truyền thông trong tình huống "băng thông thấp + ngắt kết nối nút". Các khả năng cốt lõi của nó bao gồm:
- Tỷ lệ bỏ qua: bỏ qua nút bị hạn chế để tránh tình trạng tắc nghẽn khi đào tạo;
- Thuật toán lập lịch động: tạo ra đường dẫn thực thi tối ưu theo thời gian thực;
- Thực thi có khả năng chịu lỗi: Ngay cả khi 50% nút bị lỗi, độ chính xác suy luận chỉ giảm khoảng 7%.
Nó hỗ trợ cải thiện thông lượng đào tạo lên tới 55% và triển khai các khả năng chính như "lý luận thoát sớm", "sắp xếp lại liền mạch" và "hoàn thành suy luận".
HDEE: Cụm chuyên gia không đồng nhất giữa các miền
mô-đun HDEE (Heterogeneous Domain-Expert Ensembles) được dành riêng để tối ưu hóa các tình huống sau:
- Đào tạo đa lĩnh vực, đa phương thức và đa nhiệm vụ;
- Sự phân bố của các loại dữ liệu đào tạo khác nhau không đồng đều và mức độ khó cũng khác nhau rất nhiều;
- Các vấn đề về phân bổ và lập lịch nhiệm vụ trong hoàn cảnh có khả năng tính toán của nhiều thiết bị không đồng nhất và băng thông truyền thông không ổn định.
Các tính năng cốt lõi của nó:
- MHe-IHo: Chỉ định các mô hình có kích thước khác nhau cho nhiệm vụ có độ khó khác nhau (các mô hình không đồng nhất và kích thước bước đào tạo nhất quán);
- MHo-IHe: Độ khó nhiệm vụ được thống nhất, nhưng kích thước bước đào tạo được điều chỉnh không đồng bộ;
- Hỗ trợ các mô hình chuyên gia không đồng nhất + các chiến lược đào tạo có thể cắm thêm để cải thiện khả năng thích ứng và khả năng chịu lỗi;
- Nó nhấn mạnh vào "sự hợp tác song song + giao tiếp cực kỳ thấp + phân bổ chuyên gia năng động" và phù hợp với hệ sinh thái nhiệm vụ phức tạp trong thực tế.
Cơ chế trò chơi đa nhân vật: lòng tin và khích lệ song hành
Mạng lưới Gensyn giới thiệu bốn loại người tham gia:
- Người nộp: công bố nhiệm vụ đào tạo, thiết lập cấu trúc và ngân sách;
- Solver: thực hiện nhiệm vụ đào tạo và gửi kết quả;
- Người xác minh: Xác minh hành vi đào tạo để đảm bảo tuân thủ và hiệu quả;
- Người tố giác: Thách thức người xác thực để nhận được phần thưởng trọng tài hoặc chịu hình phạt.
Cơ chế này lấy cảm hứng từ thiết kế trò chơi kinh tế Truebit. Bằng cách chèn lỗi + trọng tài ngẫu nhiên, khích lệ người tham gia hợp tác một cách trung thực và đảm bảo hoạt động đáng tin cậy của mạng.
4. Mạng thử nghiệm và lập kế hoạch lộ trình
5. Bối cảnh đội ngũ và tài chính
Gensyn được đồng sáng lập bởi Ben Fielding và Harry Grieve và có trụ sở chính tại London, Vương quốc Anh. Vào tháng 5 năm 2023, Gensyn đã công bố hoàn thành khoản tài trợ Series A trị giá 43 triệu đô la do a16z crypto dẫn đầu, với các nhà đầu tư khác bao gồm CoinFund, Canonical, Ethereal Ventures, Factor và Eden Block. Bối cảnh đội ngũ kết hợp giữa hệ thống phân tán và kinh nghiệm về kỹ thuật học máy, và từ lâu đã cam kết xây dựng một mạng lưới thực hiện đào tạo AI có thể xác minh, không cần tin cậy, quy mô lớn.
Nous Research: Một hệ thống đào tạo tiến hóa nhận thức được thúc đẩy bởi các khái niệm AI chủ quan
Nous Research là một trong số ít đội ngũ đào tạo phi tập trung có cả thành tựu về triết học và kỹ thuật. Viễn cảnh mong đợi cốt lõi của họ bắt nguồn từ khái niệm "Desideratic AI": xem AI như một chủ thể thông minh có tính chủ quan và khả năng tiến hóa, thay vì một công cụ đơn giản có thể kiểm soát được. Điểm độc đáo của Nous Research nằm ở chỗ họ không tối ưu hóa đào tạo AI như một "vấn đề về hiệu quả", mà coi đó là một quá trình hình thành "chủ thể nhận thức". Được thúc đẩy bởi viễn cảnh mong đợi này, Nous tập trung vào việc xây dựng một mạng lưới đào tạo mở được đào tạo hợp tác bởi nút không đồng nhất, không yêu cầu lập lịch trung tâm và chống lại xác minh kiểm duyệt, và được triển khai một cách có hệ thống thông qua Chuỗi công cụ đầy đủ.
1. Hỗ trợ khái niệm: Xác định lại "mục đích" của đào tạo
Nous không đầu tư quá nhiều vào thiết kế khích lệ hoặc kinh tế học giao thức, thay vào đó tìm cách thay đổi tiền đề triết lý của chính chương trình đào tạo:
- Phản đối “chủ nghĩa liên kết”: không đồng tình với “đào tạo” nhằm mục đích kiểm soát con người là mục tiêu duy nhất, và ủng hộ rằng đào tạo nên khuyến khích mô hình hình thành một phong cách nhận thức độc lập;
- Nhấn mạnh vào tính chủ quan của mô hình: Cho rằng mô hình cơ bản phải duy trì được tính không chắc chắn, tính đa dạng và khả năng tạo ra ảo giác (ảo giác là đức tính);
- Đào tạo mô hình là sự hình thành nhận thức: mô hình không phải là "tối ưu hóa việc hoàn thành nhiệm vụ" mà là một cá nhân tham gia vào quá trình tiến hóa nhận thức.
Mặc dù khái niệm đào tạo này "lãng mạn", nhưng nó phản ánh logic cốt lõi của Nous trong việc thiết kế cơ sở hạ tầng đào tạo: làm thế nào để cho phép các mô hình không đồng nhất phát triển trong mở mạng thay vì được tuân theo một nguyên tắc thống nhất.
2. Đào tạo cốt lõi: Psyche Network và DisTrO Optimizer
Đóng góp quan trọng nhất của Nous cho đào tạo phi tập trung là xây dựng mạng Psyche và trình tối ưu hóa truyền thông cơ bản DisTrO (Đào tạo phân tán qua Internet), cùng nhau tạo thành trung tâm thực hiện nhiệm vụ đào tạo: Mạng DisTrO + Psyche có nhiều khả năng cốt lõi, bao gồm nén truyền thông (sử dụng mã hóa dấu DCT + 1 bit để giảm đáng kể yêu cầu về băng thông), khả năng thích ứng nút(hỗ trợ GPU không đồng nhất, ngắt kết nối, kết nối lại và thoát tự động), khả năng chịu lỗi không đồng bộ (đào tạo liên tục mà không đồng bộ hóa, với khả năng chịu lỗi cao) và cơ chế lập lịch phi tập trung (không yêu cầu điều phối viên trung tâm, sự đồng thuận và phân phối nhiệm vụ đạt được dựa trên blockchain ). Kiến trúc này cung cấp nền tảng kỹ thuật thực tế và khả thi cho các mạng đào tạo mở có chi phí thấp, linh hoạt cao và có thể xác minh được.
Thiết kế kiến trúc này nhấn mạnh vào tính khả thi thực tế: nó không phụ thuộc vào máy chủ trung tâm, có thể thích ứng với nút tình nguyện toàn cầu và có khả năng truy xuất kết quả đào tạo trên Chuỗi.
3. Hệ thống lý luận và đại lý bao gồm Hermes / Forge / TEE_HEE
Ngoài việc xây dựng cơ sở hạ tầng đào tạo phi tập trung , Nous Research cũng đã tiến hành một số thí nghiệm hệ thống khám phá xung quanh khái niệm "chủ quan của AI":
1. Sê-Ri mô hình mã nguồn mở Hermes: Hermes 1 đến 3 là các mô hình mã nguồn mở lớn tiêu biểu do Nous đưa ra, dựa trên chương trình đào tạo LLaMA 3.1, bao gồm ba kích thước tham số là 8B, 70B và 405B. Sê-Ri này nhằm mục đích hiện thực hóa khái niệm đào tạo "bỏ hướng dẫn, duy trì tính đa dạng" do Nous ủng hộ, và thể hiện khả năng diễn đạt và khái quát hóa mạnh mẽ hơn trong việc duy trì ngữ cảnh dài, nhân vật, đối thoại nhiều vòng, v.v.
2. Forge Reasoning API: Hệ thống lý luận đa phương thức
Forge là một khuôn khổ lý luận do Nous phát triển, kết hợp ba cơ chế bổ sung để đạt được khả năng lý luận linh hoạt và sáng tạo hơn:
- MCTS (Monte Carlo Tree Search): Tìm kiếm chiến lược cho nhiệm vụ phức tạp;
- CoC (Chuỗi mã): Giới thiệu đường dẫn kết hợp của Chuỗi mã và suy luận logic;
- MoA (Hỗn hợp các tác nhân): Cho phép nhiều mô hình đàm phán và cải thiện phạm vi và tính đa dạng của đầu ra.
Hệ thống này nhấn mạnh vào "lý luận không xác định" và các đường dẫn tạo kết hợp, đây là phản ứng mạnh mẽ đối với mô hình căn chỉnh hướng dẫn truyền thống.
3. TEE_HEE: Thí nghiệm tác nhân tự động AI: TEE_HEE là cuộc khám phá tiên tiến của Nous theo hướng tác nhân tự động, nhằm mục đích xác minh liệu AI có thể chạy độc lập trong hoàn cảnh thực thi đáng tin cậy (TEE) và có danh tính số duy nhất hay không. Tác nhân có tài khoản Twitter và Ethereum riêng và tất cả các quyền kiểm soát đều được quản lý bởi một vùng an toàn có thể xác minh từ xa, do đó các nhà phát triển không thể can thiệp vào hành vi của nó. Mục tiêu của thí nghiệm là xây dựng một chủ thể AI có "tính bất biến" và "ý định hành vi độc lập", thực hiện một bước quan trọng hướng tới việc xây dựng một cơ thể thông minh tự chủ.
4. Nền tảng mô phỏng hành vi AI: Nous cũng đã phát triển nhiều trình mô phỏng bao gồm WorldSim, Doomscroll, Gods & S8n, v.v., để nghiên cứu quá trình tiến hóa hành vi và cơ chế hình thành giá trị của AI trong hoàn cảnh xã hội đa nhân vật . Mặc dù không liên quan trực tiếp đến quá trình đào tạo, nhưng các thí nghiệm này đặt nền tảng ngữ nghĩa cho mô hình hành vi nhận thức của AI tự động dài hạn.
IV. Tổng quan về đội ngũ và tài chính
Nous Research được thành lập vào năm 2023 bởi Jeffrey Quesnelle (CEO), Karan Malhotra, Teknium, Shivani Mitra và những người khác. Đội ngũ được thúc đẩy bởi triết lý và tập trung vào kỹ thuật hệ thống, với nhiều bối cảnh khác nhau về học máy, bảo mật hệ thống, mạng phi tập trung , v.v. Vào năm 2024, công ty đã nhận được 5,2 triệu đô la tài trợ vòng hạt giống. Vào tháng 4 năm 2025, công ty đã hoàn thành khoản tài trợ Series A trị giá 50 triệu đô la do Paradigm dẫn đầu, với định giá 1 tỷ đô la, trở thành một trong những kỳ lân AI Web3.
Flock: Mạng lưới học tập liên kết được tăng cường bằng blockchain
Flock.io là một nền tảng học tập liên kết dựa trên blockchain nhằm mục đích phi tập trung dữ liệu , điện toán và mô hình để đào tạo AI. FLock ưu tiên một khuôn khổ tích hợp của "lớp học tập liên kết + phần thưởng blockchain", về cơ bản là sự phát triển Chuỗi của kiến trúc FL truyền thống hơn là khám phá có hệ thống về việc xây dựng một giao thức đào tạo mới. So với các dự án đào tạo phi tập trung như Gensyn, Prime Intellect, Nous Research và Pluralis, Flock tập trung vào bảo vệ quyền riêng tư và cải thiện khả năng sử dụng hơn là đột phá lý thuyết trong giao tiếp, xác minh hoặc phương pháp đào tạo. Các đối tượng so sánh thực sự của nó là các hệ thống học tập liên kết như Flower, FedML và OpenFL.
1. Cơ chế cốt lõi của Flock.io
1. Kiến trúc học tập liên bang: nhấn mạnh chủ quyền dữ liệu và bảo vệ quyền riêng tư
Flock dựa trên mô hình Federated Learning (FL) cổ điển, cho phép nhiều chủ sở hữu dữ liệu cùng nhau đào tạo một mô hình thống nhất mà không cần chia sẻ dữ liệu gốc, tập trung vào việc giải quyết các vấn đề về chủ quyền dữ liệu, bảo mật và tin cậy. Quy trình cốt lõi bao gồm:
- Đào tạo tại địa phương: Mỗi người tham gia (Người đề xuất) đào tạo mô hình trên một thiết bị cục bộ mà không tải dữ liệu gốc lên;
- Tổng hợp trên Chuỗi: Sau khi quá trình đào tạo hoàn tất, các bản cập nhật tỷ trọng cục bộ được gửi và tổng hợp thành một mô hình toàn cầu bởi Miner Chuỗi chuỗi;
- Đánh giá của ủy ban: VRF bầu ngẫu nhiên nút bỏ phiếu và sử dụng một bộ kiểm tra độc lập đánh giá và chấm điểm mô hình tổng hợp;
- Khích lệ và trừng phạt: phần thưởng hoặc tịch thu tài sản thế chấp được thực hiện dựa trên kết quả chấm điểm để đạt được mục tiêu chống ác ý và duy trì lòng tin năng động.
2. Tích hợp Blockchain : Đạt được sự phối hợp hệ thống không cần tin cậy
Flock đã đưa tất cả các liên kết cốt lõi của quá trình đào tạo (phân bổ nhiệm vụ, gửi mô hình, đánh giá chấm điểm, và thực hiện khích lệ) vào Chuỗi để làm cho hệ thống minh bạch, có thể xác minh và chống kiểm duyệt. Các cơ chế chính bao gồm:
- Cơ chế bầu cử ngẫu nhiên VRF: cải thiện tính công bằng và khả năng chống thao túng trong việc luân phiên giữa Người đề xuất và Người bỏ phiếu;
- Cơ chế đặt cược (PoS): Hạn chế hành vi nút thông qua việc thế chấp mã token và hình phạt để cải thiện tính mạnh mẽ của hệ thống;
- Tự động thực hiện khích lệ Chuỗi : Thông qua hợp đồng thông minh, việc phân phối phần thưởng và cắt giảm hình phạt liên quan đến kết quả hoàn thành và đánh giá nhiệm vụ sẽ được thực hiện, xây dựng một mạng lưới cộng tác không yêu cầu các trung gian đáng tin cậy.
3. zkFL: Đổi mới bảo vệ quyền riêng tư của cơ chế tổng hợp không kiến thức: Flock giới thiệu cơ chế tổng hợp không kiến thức zkFL, cho phép Người đề xuất gửi Bằng chứng không tri thức được cập nhật cục bộ. Người bỏ phiếu có thể xác minh tính chính xác của chúng mà không cần truy cập vào các gradient gốc. Điều này cải thiện độ tin cậy của quá trình đào tạo trong khi vẫn đảm bảo quyền riêng tư và thể hiện một đổi mới quan trọng trong học tập liên bang theo hướng tích hợp bảo vệ quyền riêng tư và khả năng xác minh.
2. Các thành phần sản phẩm cốt lõi của Flock
AI Arena: Đây là nền tảng đào tạo phi tập trung của Flock.io. Người dùng có thể tham gia vào nhiệm vụ mô hình thông qua train.flock.io, hoạt động nhân vật người đào tạo, người xác thực hoặc người ủy quyền và nhận phần thưởng bằng cách gửi mô hình, đánh giá hiệu suất hoặc ủy quyền token. Hiện tại, nhiệm vụ đã được phát hành chính thức và sẽ dần được mở cho cộng đồng để cùng sáng tạo trong tương lai.
FL Alliance: Đây là một máy trạm học tập liên kết Flock hỗ trợ người tham gia tinh chỉnh mô hình hơn nữa bằng dữ liệu sở hữu tư nhân . Thông qua các cơ chế bầu cử, Staking và cắt giảm VRF, nó đảm bảo tính trung thực và hiệu quả hợp tác của quá trình đào tạo và là liên kết chính giữa đào tạo ban đầu của cộng đồng và triển khai thực tế.
AI Marketplace: Đây là nền tảng đồng sáng tạo và triển khai mô hình, nơi người dùng có thể đề xuất mô hình, đóng góp dữ liệu và gọi dịch vụ mô hình. Nó hỗ trợ truy cập cơ sở dữ liệu và lý luận nâng cao RAG, đồng thời thúc đẩy việc triển khai và lưu hành các mô hình AI trong nhiều tình huống thực tế khác nhau.
3. Tổng quan về đội ngũ và tài chính
Flock.io được thành lập bởi Sun Jiahao và đã phát hành token nền tảng FLOCK. Dự án đã huy động được tổng cộng 11 triệu đô la Mỹ, với các nhà đầu tư bao gồm DCG, Lightspeed Faction, Tagus Capital, Animoca Brands, Fenbushi, OKX Ventures , v.v. Vào tháng 3 năm 2024, Flock đã hoàn thành vòng tài trợ hạt giống trị giá 6 triệu đô la Mỹ để ra mắt mạng thử nghiệm và máy trạm học tập liên bang; vào tháng 12 cùng năm, công ty đã bổ sung thêm 3 triệu đô la Mỹ vào khoản tài trợ và nhận được tài trợ từ Quỹ Ethereum để tập trung vào các cơ chế khích lệ AI do blockchain thúc đẩy. Hiện tại, nền tảng đã tạo ra 6.428 mô hình, kết nối với 176 nút đào tạo, 236 nút xác minh và 1.178 người ủy quyền.
So với các dự án đào tạo phi tập trung, các hệ thống học tập liên bang như Flock có nhiều lợi thế hơn về hiệu quả đào tạo, mở rộng và bảo vệ quyền riêng tư. Chúng đặc biệt phù hợp để đào tạo cộng tác các mô hình vừa và nhỏ. Các giải pháp thực tế và dễ triển khai, và có xu hướng tối ưu hóa khả thi hơn ở cấp độ kỹ thuật. Các dự án như Gensyn và Pluralis theo đuổi những đột phá lý thuyết sâu sắc hơn về phương pháp đào tạo và cơ chế giao tiếp. Những thách thức của hệ thống lớn hơn, nhưng chúng cũng gần hơn với việc khám phá một mô hình đào tạo "phi tập trung, không cần tin cậy" thực sự.
EXO: Nỗ lực đào tạo phi tập trung cho điện toán biên
EXO là một dự án AI tiêu biểu trong kịch bản điện toán biên hiện tại, dành riêng cho việc hiện thực hóa các ứng dụng đào tạo, lý luận và tác nhân AI nhẹ trên các thiết bị tiêu dùng cấp độ gia đình. Lộ trình đào tạo phi tập trung của nó nhấn mạnh vào "chi phí truyền thông thấp + thực thi tự động cục bộ", sử dụng thuật toán đồng bộ hóa độ trễ không đồng bộ DiLoCo và cơ chế trao đổi tham số thưa thớt SPARTA để giảm đáng kể yêu cầu băng thông cho đào tạo cộng tác đa thiết bị. Ở cấp độ hệ thống, EXO không xây dựng mạng lưới Chuỗi hoặc giới thiệu cơ chế khích lệ kinh tế, mà thay vào đó đã ra mắt khuôn khổ mô phỏng đa quy trình máy đơn EXO Gym, hỗ trợ các nhà nghiên cứu dễ dàng tiến hành xác minh và thử nghiệm nhanh phương pháp đào tạo phân tán trong hoàn cảnh cục bộ.
1. Tổng quan về Cơ chế cốt lõi
Đào tạo không đồng bộ DiLoCo: Đồng bộ hóa nút được thực hiện sau mỗi H bước để thích ứng với mạng không ổn định;
Đồng bộ hóa thưa thớt SPARTA: chỉ một số lượng rất nhỏ các tham số (ví dụ: 0,1%) được trao đổi ở mỗi bước, duy trì tính liên quan của mô hình và giảm yêu cầu về băng thông;
Tối ưu hóa kết hợp không đồng bộ: Có thể sử dụng kết hợp cả hai để đạt được sự thỏa hiệp tốt hơn giữa giao tiếp và hiệu suất.
Khám phá cơ chế xác minh evML: Học máy được xác minh biên (evML) đề xuất sử dụng TEE/Bối cảnh bảo mật để xác minh điện toán chi phí thấp và hiện thực hóa sự tham gia đáng tin cậy của các thiết bị biên mà không cần đặt cược thông qua cơ chế xác minh từ xa + kiểm tra tại chỗ. Đây là sự thỏa hiệp về mặt kỹ thuật giữa bảo mật kinh tế và bảo vệ quyền riêng tư.
2. Công cụ và ứng dụng kịch bản
EXO Gym: có thể mô phỏng hoàn cảnh đào tạo nhiều nút trên một thiết bị duy nhất và hỗ trợ các thí nghiệm chiến lược truyền thông cho các mô hình như NanoGPT, CNN và Diffusion;
Ứng dụng EXO Desktop: Một công cụ AI trên máy tính để bàn dành cho người dùng cá nhân, hỗ trợ các tính năng cá nhân hóa thân thiện với quyền riêng tư như chạy mô hình lớn cục bộ, kiểm soát phản chiếu iPhone và tích hợp ngữ cảnh riêng tư (như SMS, lịch, quay video).
EXO Gym giống như một dự án thử nghiệm đào tạo phi tập trung theo định hướng khám phá hơn, chủ yếu tích hợp các công nghệ nén truyền thông hiện có (như DiLoCo và SPARTA) để đạt được các lộ trình đào tạo nhẹ. So với các dự án như Gensyn, Nous và Pluralis, EXO vẫn chưa bước vào giai đoạn cốt lõi của sự hợp tác Chuỗi, cơ chế khích lệ có thể xác minh hoặc triển khai mạng phân tán thực sự.
Động cơ đầu cuối của đào tạo phi tập trung: nghiên cứu toàn cảnh về mô hình đào tạo trước
Đối diện những thách thức cốt lõi thường thấy trong đào tạo phi tập trung, chẳng hạn như tính không đồng nhất của thiết bị, tắc nghẽn giao tiếp, khó khăn trong phối hợp và thiếu thực thi đáng tin cậy, Gensyn, Prime Intellect, Pluralis và Nous Research đã đề xuất các đường dẫn kiến trúc hệ thống khác biệt. Theo quan điểm của phương pháp đào tạo và cơ chế giao tiếp, bốn dự án này đã chứng minh được trọng tâm kỹ thuật độc đáo và logic triển khai kỹ thuật của họ.
Về mặt tối ưu hóa phương pháp đào tạo, bốn chiều chính được khám phá như chiến lược hợp tác, cơ chế cập nhật và kiểm soát không đồng bộ, bao gồm các giai đoạn khác nhau từ trước đào tạo đến sau đào tạo.
PRIME-RL của Prime Intellect là một cấu trúc lập lịch không đồng bộ cho giai đoạn tiền đào tạo. Thông qua chiến lược "đào tạo cục bộ + đồng bộ hóa định kỳ", nó hiện thực hóa một cơ chế lập lịch đào tạo hiệu quả và có thể xác minh được trong một hoàn cảnh không đồng nhất. Phương pháp này có tính linh hoạt và đa năng cao. Nó có mức độ đổi mới lý thuyết cao và đề xuất một mô hình rõ ràng cho cấu trúc điều khiển đào tạo; độ khó triển khai kỹ thuật ở mức trung bình đến cao và có yêu cầu cao đối với mô-đun truyền thông và điều khiển cơ bản.
Bộ tối ưu hóa DeMo do Nous Research đưa ra tập trung vào vấn đề ổn định đào tạo trong hoàn cảnh băng thông thấp không đồng bộ và hiện thực hóa quy trình cập nhật gradient có khả năng chịu lỗi cao trong điều kiện GPU không đồng nhất. Đây là một trong số ít giải pháp đạt được sự thống nhất về mặt lý thuyết và kỹ thuật trong "vòng khép kín nén truyền thông không đồng bộ". Sự đổi mới về mặt lý thuyết rất cao, đặc biệt là trong đường dẫn cộng tác nén và lập lịch; việc triển khai kỹ thuật cũng rất khó khăn, đặc biệt là dựa vào độ chính xác phối hợp của song song không đồng bộ.
SWARM + NAG của Pluralis là một trong những thiết kế có hệ thống và mang tính đột phá nhất trong lộ trình đào tạo không đồng bộ hiện tại. Nó dựa trên khuôn khổ song song mô hình không đồng bộ, giới thiệu giao tiếp thưa thớt không gian cột và hiệu chỉnh động lượng NAG, đồng thời xây dựng một giải pháp đào tạo mô hình lớn có thể hội tụ ổn định trong điều kiện băng thông thấp. Nó có mức độ đổi mới lý thuyết cao và là người tiên phong về mặt cấu trúc của đào tạo cộng tác không đồng bộ; độ khó về kỹ thuật cũng cực kỳ cao, đòi hỏi tích hợp độ sâu đồng bộ hóa nhiều cấp và phân đoạn mô hình.
RL Swarm của Gensyn chủ yếu phục vụ giai đoạn sau đào tạo, tập trung vào các chiến lược tinh chỉnh và học tập hợp tác của các tác nhân. Quy trình đào tạo của nó tuân theo quy trình ba bước "tạo ra đánh giá-bỏ phiếu", đặc biệt phù hợp với việc điều chỉnh động các hành vi phức tạp trong các hệ thống đa tác nhân. Đổi mới lý thuyết ở mức trung bình-cao, chủ yếu phản ánh trong logic hợp tác của các tác nhân; độ khó triển khai kỹ thuật ở mức trung bình và những thách thức chính nằm ở việc lập lịch hệ thống và kiểm soát hội tụ hành vi.
Về mặt tối ưu hóa cơ chế truyền thông, bốn dự án này cũng có bố cục mục tiêu riêng và thường tập trung vào các giải pháp có hệ thống cho các vấn đề về tắc nghẽn băng thông, tính không đồng nhất nút và tính ổn định của lịch trình.
PCCL của Prime Intellect là một thư viện giao tiếp cấp thấp thay thế NCCL truyền thống, nhằm mục đích cung cấp nền tảng giao tiếp tập thể mạnh mẽ hơn cho giao thức đào tạo cấp cao. Đổi mới lý thuyết ở mức trung bình-cao, với một số đột phá trong thuật toán giao tiếp chịu lỗi; độ khó kỹ thuật ở mức trung bình, với khả năng thích ứng mô-đun mạnh.
DisTrO của Nous Research là mô-đun truyền thông cốt lõi của DeMo, nhấn mạnh vào việc đạt được chi phí truyền thông tối thiểu trong băng thông thấp đồng thời đảm bảo tính liên tục của vòng lặp khép kín đào tạo. Nó có tính đổi mới lý thuyết cao và giá trị thiết kế phổ quát trong cấu trúc lập lịch và phối hợp; khó thiết kế và có yêu cầu cao về độ chính xác nén và đồng bộ hóa đào tạo.
Cơ chế giao tiếp của Pluralis được nhúng độ sâu vào kiến trúc SWARM, giảm đáng kể tải giao tiếp trong quá trình đào tạo không đồng bộ các mô hình lớn, đồng thời đảm bảo sự hội tụ và duy trì thông lượng hiệu quả. Nó có mức độ đổi mới lý thuyết cao và đặt ra một mô hình cho thiết kế giao tiếp mô hình không đồng bộ; độ khó kỹ thuật cực kỳ cao, dựa vào điều p