Chén Thánh của AI tiền điện tử: Khám phá biên giới của đào tạo phi tập trung

Bài viết này được dịch máy
Xem bản gốc

Tác giả: 0xjacobzhao và ChatGPT 4o

Xin chân thành cảm ơn Advait Jayant (Peri Labs), Sven Wellmann (Polychain Capital), Chao (Metropolis DAO), Jiahao (Flock), Alexander Long (Pluralis Research), Ben Fielding & Jeff Amico (Gensyn) vì những lời khuyên và phản hồi của họ

Trong toàn bộ chuỗi giá trị của AI, đào tạo mô hình là mắt xích có mức tiêu thụ tài nguyên cao nhất và ngưỡng kỹ thuật cao nhất , trực tiếp xác định giới hạn trên của khả năng của mô hình và hiệu ứng ứng dụng thực tế. So với các lệnh gọi nhẹ trong giai đoạn suy luận, quá trình đào tạo đòi hỏi đầu tư liên tục vào sức mạnh tính toán quy mô lớn, quy trình xử lý dữ liệu phức tạp và hỗ trợ thuật toán tối ưu hóa cường độ cao, đây chính là "ngành công nghiệp nặng" thực sự để xây dựng các hệ thống AI. Theo quan điểm của mô hình kiến trúc, các phương pháp đào tạo có thể được chia thành bốn loại: đào tạo tập trung, đào tạo phân tán, học tập liên bangđào tạo phi tập trung , đây là trọng tâm của bài viết này .

  • Đào tạo tập trung là phương pháp truyền thống phổ biến nhất, trong đó một tổ chức duy nhất hoàn thành toàn bộ quy trình đào tạo trong một cụm cục bộ hiệu suất cao. Tất cả các thành phần, từ phần cứng (như NVIDIA GPU), phần mềm cơ bản (CUDA, cuDNN), hệ thống lập lịch cụm (như Kubernetes), đến các khuôn khổ đào tạo (như PyTorch dựa trên NCCL backend), đều được phối hợp và vận hành bởi một hệ thống điều khiển thống nhất. Kiến trúc cộng tác sâu sắc này tối ưu hóa hiệu quả của việc chia sẻ bộ nhớ, đồng bộ hóa gradient và cơ chế chịu lỗi, và rất phù hợp để đào tạo các mô hình quy mô lớn như GPT và Gemini. Nó có những ưu điểm là hiệu quả cao và tài nguyên có thể kiểm soát được, nhưng nó cũng có những vấn đề như độc quyền dữ liệu, rào cản tài nguyên, tiêu thụ năng lượng và rủi ro điểm đơn.

  • Đào tạo phân tán là phương pháp chính thống để đào tạo mô hình lớn. Cốt lõi của nó là chia nhỏ các tác vụ đào tạo mô hình và phân phối chúng cho nhiều máy để thực hiện hợp tác nhằm phá vỡ nút thắt của tính toán và lưu trữ trên một máy. Mặc dù có tính năng "phân tán" về mặt vật lý, nhưng việc lập lịch và đồng bộ hóa tổng thể vẫn được kiểm soát bởi một tổ chức tập trung. Nó thường chạy trong môi trường mạng cục bộ tốc độ cao. Thông qua công nghệ bus kết nối tốc độ cao NVLink , nút chính điều phối tất cả các tác vụ phụ. Các phương pháp chính thống bao gồm:

    • Dữ liệu song song : Mỗi nút đào tạo các tham số dữ liệu khác nhau và chia sẻ chúng, điều này đòi hỏi phải khớp trọng số mô hình.
    • Mô hình song song: Triển khai các phần khác nhau của mô hình trên các nút khác nhau để đạt được khả năng mở rộng mạnh mẽ;
    • Đường ống song song: Thực hiện tuần tự theo từng giai đoạn để cải thiện thông lượng;
    • Tensor Parallel : Phân đoạn tinh chỉnh các phép tính ma trận để cải thiện độ chi tiết song song.

Đào tạo phân tán là sự kết hợp của "kiểm soát tập trung + thực hiện phân tán", tương tự như cùng một ông chủ chỉ đạo từ xa nhiều nhân viên "văn phòng" để cộng tác hoàn thành nhiệm vụ. Hiện tại, hầu hết các mô hình lớn chính thống (GPT-4, Gemini, LLaMA, v.v.) đều được đào tạo theo cách này.

  • Đào tạo phi tập trung đại diện cho một con đường tương lai cởi mở hơn và chống kiểm duyệt. Tính năng cốt lõi của nó là nhiều nút không đáng tin cậy (có thể là máy tính gia đình, GPU đám mây hoặc thiết bị biên) làm việc cùng nhau để hoàn thành các nhiệm vụ đào tạo mà không cần điều phối viên trung tâm, thường thông qua phân phối và cộng tác nhiệm vụ theo giao thức, và với sự trợ giúp của các cơ chế khuyến khích mật mã để đảm bảo tính trung thực của các đóng góp. Những thách thức chính mà mô hình này phải đối mặt bao gồm:

    • Các thiết bị không đồng nhất và phân chia nhiệm vụ khó khăn: Các thiết bị không đồng nhất khó phối hợp và phân chia nhiệm vụ không hiệu quả;
    • Nút thắt hiệu quả truyền thông: Truyền thông mạng không ổn định và nút thắt đồng bộ hóa gradient rất rõ ràng;
    • Thiếu thực thi đáng tin cậy: Việc thiếu môi trường thực thi đáng tin cậy khiến việc xác minh xem nút có thực sự tham gia vào phép tính hay không trở nên khó khăn;
    • Thiếu sự phối hợp thống nhất: Không có trình lập lịch trung tâm và cơ chế phân phối tác vụ và khôi phục ngoại lệ rất phức tạp.

Đào tạo phi tập trung có thể được hiểu là: một nhóm tình nguyện viên trên toàn thế giới, mỗi người đóng góp sức mạnh tính toán để đào tạo các mô hình một cách hợp tác , nhưng "đào tạo phi tập trung thực sự khả thi trên quy mô lớn" vẫn là một thách thức về kỹ thuật có hệ thống, liên quan đến nhiều cấp độ như kiến trúc hệ thống, giao thức truyền thông, bảo mật mật mã, cơ chế kinh tế và xác minh mô hình. Tuy nhiên, liệu "sự hợp tác có hiệu quả + các động cơ là trung thực + kết quả là chính xác" có thể đạt được hay không vẫn đang trong giai đoạn khám phá nguyên mẫu ban đầu.

  • Học tập liên bang, như một hình thức chuyển tiếp giữa phân phối và phi tập trung, nhấn mạnh vào việc lưu giữ dữ liệu cục bộ và tổng hợp tập trung các tham số mô hình , và phù hợp với các tình huống tập trung vào tuân thủ quyền riêng tư (như chăm sóc sức khỏe và tài chính). Học tập liên bang có cấu trúc kỹ thuật và khả năng phối hợp cục bộ của đào tạo phân tán, cũng như các lợi thế phân tán dữ liệu của đào tạo phi tập trung, nhưng nó vẫn dựa vào các điều phối viên đáng tin cậy và không có các đặc điểm là hoàn toàn cởi mở và chống kiểm duyệt. Nó có thể được coi là giải pháp "phi tập trung có kiểm soát" trong một tình huống tuân thủ quyền riêng tư . Nó tương đối nhẹ nhàng về mặt nhiệm vụ đào tạo, cấu trúc tin cậy và cơ chế giao tiếp, và phù hợp hơn như một kiến trúc triển khai chuyển tiếp cho ngành.

Bảng so sánh toàn cảnh mô hình đào tạo AI (kiến trúc kỹ thuật × động cơ tin cậy × đặc điểm ứng dụng)

Kích thước

Đào tạo tập trung

Đào tạo phân tán (đồng bộ/không đồng bộ/lai)

Học tập liên bang

Đào tạo phi tập trung

sự định nghĩa

Tất cả dữ liệu và đào tạo đều tập trung vào một nút hoặc cụm duy nhất

Phân phối quá trình đào tạo trên nhiều nút vật lý trong môi trường được kiểm soát

Dữ liệu được lưu trữ cục bộ, chỉ có các tham số/độ dốc được tải lên

Không cần sự tin tưởng, sự tham gia cởi mở, đào tạo được điều phối bởi mạng lưới

Yêu cầu về băng thông truyền thông

Rất cao (xe buýt địa phương)

Cao (đồng bộ) Trung bình (không đồng bộ)

Rất thấp (tải lên các mô hình nén/độ dốc)

Trung bình-thấp (kết hợp với chiến lược không đồng bộ và truyền thông nén)

Loại phần cứng

Máy chủ chuyên dụng/Cụm GPU

Kết nối tốc độ cao giữa các cụm GPU hoặc máy chủ trên khắp các trung tâm dữ liệu

Thiết bị không đồng nhất: điện thoại di động/IoT/nút biên

Thiết bị không đồng nhất tổng quát: GPU/CPU/thiết bị đầu cuối/nút đám mây, v.v.

Cơ chế kiểm soát và phối hợp

Kiểm soát hoàn toàn bởi một tổ chức duy nhất

Kiểm soát chủ-tớ hoặc điều phối có thể được triển khai trên khắp các tổ chức

Trung tâm điều phối việc cập nhật các tham số và cục bộ điều khiển dữ liệu

Phối hợp đồng thuận mạng + cơ chế xác minh mã hóa

Cơ chế đồng bộ hóa

Đồng bộ hóa đầy đủ thời gian thực

Đồng bộ (tổng hợp từng bước toàn cục) Không đồng bộ (cập nhật cục bộ) Kết hợp (như Đồng bộ một phần)

Nhiều vòng đào tạo cục bộ + tổng hợp (như FedAvg)

Đào tạo không đồng bộ + đồng bộ hóa mềm (như DiLoCo/SWARM)

Bảo mật/Riêng tư

Bảo vệ tin cậy cục bộ (tường lửa/cô lập thẩm quyền)

Trung bình (yêu cầu truyền mã hóa, nhưng thường không phải là ưu tiên cho quyền riêng tư)

Quyền riêng tư mạnh mẽ (dữ liệu không rời khỏi máy cục bộ, hỗ trợ quyền riêng tư khác biệt)

Khả năng xác minh mạnh mẽ, hỗ trợ các chương trình mã hóa như ZK/TEE/MPC

Khả năng chịu lỗi

Sự cố nút trung tâm có nghĩa là thời gian chết

Đồng bộ yếu, không đồng bộ tốt, khả năng chịu lỗi trung bình của chiến lược lai

Hỗ trợ ngắt kết nối và hội tụ lặp lại mạnh mẽ

Khả năng chịu lỗi cao, tự động thích ứng với việc nút vào, thoát hoặc ngắt thường xuyên

Khả năng mở rộng

Bị giới hạn bởi kích thước máy chủ

Trung bình (có thể mở rộng tới hàng trăm GPU)

Cao (càng nhiều thiết bị thì càng mạnh)

Rất cao (về mặt lý thuyết có thể mở rộng lên tới hàng triệu nút, tùy thuộc vào hiệu quả xác minh và truyền thông)

Sự cởi mở

❌ Bên trong một tổ chức đóng cửa

⚠️ Bán mở (tham gia trong tổ chức hoặc sau khi đăng ký)

⚠️ Mở một phần (sổ đăng ký hoặc liên minh dữ liệu cụ thể)

✅ Hoàn toàn mở (không cần xin phép để tham gia và rời đi)

Nó có chống kiểm duyệt không?

❌ Không

❌ Không

⚠️ Một số mức độ chống kiểm duyệt (kiểm soát dữ liệu cục bộ)

✅ Thiết kế chống kiểm duyệt, tính tự chủ của nút, không có điểm chết trung tâm

Giả định tin cậy

✅ Trung tâm hoàn toàn tin cậy

✅ Tin tưởng người điều phối

✅ Tin tưởng một máy chủ trung tâm để phối hợp các bản cập nhật

❌ Không tin tưởng bất kỳ node nào, hãy dựa vào mật mã + xác minh trò chơi mạng

Cơ chế khuyến khích

❌ Không có

❌ Không có hoặc không có cơ chế đánh giá chỉ số nội bộ

⚠️ Có thể thiết lập cơ chế điểm/tín dụng

✅ Nền kinh tế mã thông báo được thúc đẩy, liên kết đóng góp và phần thưởng (như Gensyn, v.v.)

Công nghệ/dự án tiêu biểu

OpenAI GPT / DeepMind Gemini

Megatron / ZeRO / FSDP

Google FedAvg/Hoa/OpenFL/Flock

Gensyn/Pluralis/Nous/Trí tuệ Thủ tướng

Các tình huống ứng dụng điển hình

Phát triển nội bộ và đào tạo mô hình nguồn đóng

Đào tạo trước mô hình lớn (GPT/LLaMA, v.v.)

Các tình huống bảo vệ dữ liệu y tế/tài chính/IoT

Crypto AI, đào tạo cộng tác mở, mô hình chống kiểm duyệt, đào tạo chia sẻ điện toán toàn cầu

Dữ liệu có được tổng hợp không?

✅ Tổng hợp đầy đủ

✅ Tổng hợp dữ liệu/trọng lượng

❌ Dữ liệu không được tổng hợp

❌ Dữ liệu và trọng số không được tổng hợp, chỉ có thông tin nén được đồng bộ hóa/mô hình được hợp nhất

Điều chỉnh kích thước mô hình

Bất kỳ (tùy thuộc vào phần cứng cục bộ)

Trung bình đến lớn (yêu cầu đồng bộ hóa/lưu trữ nhiều GPU)

Chủ yếu là nhỏ và vừa (do hạn chế của thiết bị biên)

Bắt đầu với các mô hình vừa và nhỏ, hỗ trợ song song hóa SWARM/Pipe để cải thiện khả năng của mô hình lớn

Các ranh giới, cơ hội và con đường thực tế của đào tạo phi tập trung

Theo quan điểm của mô hình đào tạo, đào tạo phi tập trung không áp dụng được cho mọi loại nhiệm vụ . Trong một số trường hợp, do cấu trúc phức tạp của nhiệm vụ, yêu cầu tài nguyên cực kỳ cao hoặc khó khăn trong việc cộng tác, nên tự nhiên không phù hợp để hoàn thành hiệu quả giữa các nút không đồng nhất và không đáng tin cậy. Ví dụ, đào tạo mô hình lớn thường dựa vào bộ nhớ video cao, độ trễ thấp và băng thông tốc độ cao, khiến việc phân chia và đồng bộ hóa hiệu quả trong mạng mở trở nên khó khăn; các nhiệm vụ có hạn chế nghiêm ngặt về quyền riêng tư và chủ quyền dữ liệu (như dữ liệu y tế, tài chính và bí mật) bị hạn chế bởi sự tuân thủ pháp lý và các ràng buộc về đạo đức và không thể chia sẻ công khai; và các nhiệm vụ không có cơ sở khuyến khích hợp tác (như mô hình nguồn đóng của công ty hoặc đào tạo nguyên mẫu nội bộ) thiếu động lực bên ngoài để tham gia. Các ranh giới này cùng nhau tạo thành những hạn chế thực tế hiện tại của đào tạo phi tập trung.

Nhưng điều này không có nghĩa là đào tạo phi tập trung là một đề xuất sai lầm. Trên thực tế, đào tạo phi tập trung cho thấy triển vọng ứng dụng rõ ràng trong các nhiệm vụ nhẹ, dễ song song hóa và thúc đẩy . Bao gồm nhưng không giới hạn ở: tinh chỉnh LoRA , các nhiệm vụ sau đào tạo căn chỉnh hành vi (như RLHF, DPO) , đào tạo và gắn nhãn dữ liệu crowdsourcing , đào tạo mô hình cơ bản nhỏ có thể kiểm soát tài nguyên các tình huống đào tạo cộng tác liên quan đến các thiết bị biên . Các nhiệm vụ này thường có các đặc điểm là tính song song cao, ghép nối thấp và khả năng chịu đựng đối với sức mạnh tính toán không đồng nhất và rất phù hợp để đào tạo cộng tác thông qua mạng P2P, giao thức Swarm, trình tối ưu hóa phân tán, v.v.

Bảng tổng quan về tính phù hợp của nhiệm vụ đào tạo phi tập trung

Loại nhiệm vụ

Các tình huống điển hình

Khả năng thích ứng phi tập trung

Ghi chú/ Đường dẫn đại diện

Điều chỉnh bộ điều hợp LoRA

Tinh chỉnh rất ít tham số, phù hợp cho sự cộng tác của cộng đồng

✅ Rất cao

Các thông số nhẹ, thân thiện với cộng đồng, dễ dàng phân chia

Sau đào tạo

DPO, SWARM và các tối ưu hóa hành vi khác

✅ Cao

Phần thưởng rõ ràng và nhiệm vụ có quy mô nhỏ

Đào tạo tập trung vào dữ liệu

Nhiều nút tham gia vào việc tạo dữ liệu, dán nhãn và chấm điểm

✅ Cao

Các nguồn dữ liệu được phân tán và phù hợp với các cơ chế khuyến khích

Đào tạo mô hình cơ bản nhỏ (có thể kiểm soát tài nguyên)

Số lượng tham số thấp, phù hợp cho đào tạo cộng tác với GPU cấp tiêu dùng

✅ Cao

Có thể thực hiện không đồng nhất và các nhiệm vụ có thể được chia nhỏ

Phối hợp cạnh

Đào tạo cộng tác IoT/điện thoại di động/TEE và các thiết bị biên khác

✅ Cao

Các nút được phân phối tự nhiên, dữ liệu là cục bộ

Các nhiệm vụ đòi hỏi rất nhiều tài nguyên hoặc hệ thống

Đào tạo mô hình lớn, đường ống phức tạp, RL thời gian thực

❌ Không phù hợp

Bộ nhớ video cao, độ trễ thấp, phụ thuộc băng thông cao, khó phân chia tác vụ

Tuân thủ dữ liệu và các nhiệm vụ bị hạn chế về chủ quyền

Đào tạo dữ liệu bí mật y tế, tài chính và chính phủ

❌ Không phù hợp

Quy định nặng nề, dữ liệu không hợp tác và khó mở cửa cho sự tham gia

Các nhiệm vụ thiếu cơ sở khuyến khích cho sự hợp tác

Mô hình nguồn đóng doanh nghiệp, thử nghiệm nguyên mẫu nội bộ

❌ Không phù hợp

Không có thiện chí mở rộng, không có cơ chế khuyến khích và tự nhiên từ chối đào tạo hợp tác

Phân tích các dự án đào tạo phi tập trung cổ điển

Hiện tại, trong lĩnh vực tiên phong của đào tạo phi tập trung học tập liên bang , các dự án blockchain tiêu biểu chủ yếu bao gồm Prime Intellect, Pluralis.ai, Gensyn, Nous Research Flock.io . Theo quan điểm đổi mới công nghệ và khó khăn về kỹ thuật, Prime Intellect, Nous Research và Pluralis.ai đã đề xuất nhiều khám phá độc đáo hơn về kiến trúc hệ thống và thiết kế thuật toán, đại diện cho hướng tiên phong của nghiên cứu lý thuyết hiện tại; trong khi các con đường triển khai của Gensyn và Flock.io tương đối rõ ràng và có thể thấy tiến trình kỹ thuật ban đầu. Bài viết này sẽ lần lượt phân tích các công nghệ cốt lõi và kiến trúc kỹ thuật đằng sau năm dự án này và khám phá thêm sự khác biệt và mối quan hệ bổ sung của chúng trong hệ thống đào tạo AI phi tập trung.

Prime Intellect: Một công ty tiên phong trong mạng lưới học tăng cường cộng tác với lộ trình đào tạo có thể xác minh được

Prime Intellect cam kết xây dựng một mạng lưới đào tạo AI không cần tin cậy , cho phép bất kỳ ai tham gia đào tạo và nhận được phần thưởng đáng tin cậy cho những đóng góp về điện toán của họ. Prime Intellect hy vọng xây dựng một hệ thống đào tạo phi tập trung AI có thể xác minh, mở và được khuyến khích hoàn toàn thông qua ba mô-đun PRIME-RL + TOPLOC + SHARDCAST.

1. Cấu trúc ngăn xếp giao thức Prime Intellect và giá trị mô-đun chính

Các tầng

Tên mô-đun

Mô tả chức năng

Từ khóa cốt lõi

Giá trị cốt lõi

Lớp thực hiện đào tạo

PRIME-RL

Kiến trúc học tăng cường không đồng bộ, đào tạo tách rời, lý luận và cập nhật trọng số, thích ứng với các mạng không đồng nhất và sự tham gia không đồng bộ

Đào tạo không đồng bộ, tách rời đào tạo, học tăng cường, thích ứng không đồng nhất

Cải thiện độ đàn hồi của nút và khả năng chịu lỗi, giảm rào cản gia nhập và hỗ trợ triển khai tác vụ phân tán linh hoạt

Lớp xác minh hành vi

TOPLOC

Xác minh tính xác thực của đào tạo dựa trên tính nhất quán cục bộ của các quỹ đạo để tránh chi phí cao của ZKML

Xác minh chiến lược, theo dõi tính nhất quán, thay thế ZK nhẹ và phần thưởng đáng tin cậy

Cung cấp cơ chế xác minh đào tạo có cấu trúc để đảm bảo việc phân phối phần thưởng là có thật và hiệu quả, đồng thời xây dựng nền tảng mạng lưới giảm thiểu sự tin cậy

Lớp truyền trọng lượng

PHÁT SÓNG

Gossip + đồng bộ hóa cục bộ để tổng hợp trọng số không đồng bộ, hỗ trợ sự cùng tồn tại của nhiều phiên bản và sự phát triển chiến lược

Tổng hợp không đồng bộ, tin đồn, phiên bản cùng tồn tại, chiến lược phát triển

Giảm mức tiêu thụ băng thông, hỗ trợ hợp nhất dần dần các trọng số nút không đồng nhất và cải thiện hiệu quả tổng hợp và khả năng mở rộng mạng

Lớp truyền thông

OpenDiLoCo + PCCL

Xây dựng một giao thức truyền thông không đồng bộ cho cấu trúc thưa thớt, với hỗ trợ cơ bản cho nén gradient, dung sai điểm dừng và khả năng tương thích đa thiết bị

Giao tiếp thưa thớt, cấu trúc không đồng bộ, đồng bộ hóa nén, khả năng tương thích giữa các thiết bị

Cải thiện tính linh hoạt trong giao tiếp, giảm chi phí và hỗ trợ hoạt động ổn định lâu dài của các mạng lưới đào tạo phi tập trung

Lớp môi trường mô phỏng

Tổng hợp-1

Nền tảng kiểm tra nhiệm vụ học tăng cường để đánh giá hiệu quả cộng tác, thiết kế khuyến khích và sự hội tụ

Kiểm tra cộng tác, xác minh khuyến khích, thử nghiệm hộp cát, hỗ trợ đa tác vụ

Giảm chi phí thử nghiệm và sai sót, đồng thời cung cấp kịch bản xác minh an toàn cho việc tối ưu hóa giao thức và thiết kế cơ chế khuyến khích

Lớp lập lịch và đồng thuận

Lớp giao thức

Đăng ký nút, giải phóng nhiệm vụ, đăng nhập vào chuỗi, giải quyết phần thưởng và tích hợp quản trị

Quản lý tác vụ, hồ sơ trên chuỗi, vòng lặp đóng khuyến khích, quản trị giao thức

Xây dựng một vòng khép kín minh bạch về thực hiện và phần thưởng trên chuỗi để cải thiện khả năng kiểm toán và quản trị hệ thống

2. Giải thích chi tiết về các cơ chế chính của chương trình đào tạo Prime Intellect

  • PRIME-RL: Kiến trúc nhiệm vụ học tăng cường không đồng bộ tách biệt

PRIME-RL là một khuôn khổ mô hình hóa và thực thi nhiệm vụ được Prime Intellect tùy chỉnh cho các tình huống đào tạo phi tập trung, được thiết kế cho các mạng không đồng nhất và sự tham gia không đồng bộ. Nó sử dụng học tăng cường làm đối tượng thích ứng ưu tiên, tách biệt về mặt cấu trúc các quy trình đào tạo, lý luận và tải trọng, để mỗi nút đào tạo có thể hoàn thành chu kỳ nhiệm vụ một cách độc lập tại địa phương và cộng tác với cơ chế xác minh và tổng hợp thông qua các giao diện chuẩn hóa. So với các quy trình học có giám sát truyền thống, PRIME-RL phù hợp hơn cho đào tạo linh hoạt trong môi trường lập lịch phi tập trung, không chỉ làm giảm độ phức tạp của hệ thống mà còn đặt nền tảng cho việc hỗ trợ song song đa nhiệm vụ và tiến hóa chiến lược.

  • TOPLOC: Một cơ chế xác minh hành vi đào tạo nhẹ

TOPLOC (Quan sát đáng tin cậy & Kiểm tra vị trí chính sách) là cơ chế cốt lõi của khả năng xác minh đào tạo do Prime Intellect đề xuất, được sử dụng để xác định xem một nút có thực sự hoàn thành việc học chính sách hiệu quả dựa trên dữ liệu quan sát hay không. Không giống như các giải pháp nặng như ZKML, TOPLOC không dựa vào tính toán lại toàn bộ mô hình mà hoàn thành xác minh cấu trúc nhẹ bằng cách phân tích quỹ đạo nhất quán cục bộ giữa "chuỗi quan sát ↔ cập nhật chính sách". Đây là lần đầu tiên nó chuyển đổi quỹ đạo hành vi của quá trình đào tạo thành một đối tượng có thể xác minh. Đây là một cải tiến quan trọng để đạt được phân phối phần thưởng đào tạo không cần tin cậy và cung cấp một con đường khả thi để xây dựng mạng lưới đào tạo cộng tác phi tập trung có thể kiểm toán và được khuyến khích.

  • SHARDCAST: Giao thức truyền bá và tổng hợp trọng số không đồng bộ

SHARDCAST là một giao thức truyền trọng số và tổng hợp được thiết kế bởi Prime Intellect, được tối ưu hóa cho các môi trường mạng thực với các trạng thái nút không đồng bộ, bị hạn chế băng thông và thay đổi. Nó kết hợp cơ chế truyền tin đồn với chiến lược đồng bộ hóa cục bộ, cho phép nhiều nút liên tục gửi các bản cập nhật một phần ở trạng thái không đồng bộ, đạt được sự hội tụ tiến bộ và sự tiến hóa nhiều phiên bản của trọng số. So với các phương pháp AllReduce tập trung hoặc đồng bộ, SHARDCAST cải thiện đáng kể khả năng mở rộng và khả năng chịu lỗi của đào tạo phi tập trung và là nền tảng cốt lõi để xây dựng sự đồng thuận trọng số ổn định và các lần lặp đào tạo liên tục.

  • OpenDiLoCo: Một khuôn khổ cho giao tiếp không đồng bộ thưa thớt

OpenDiLoCo là một khuôn khổ tối ưu hóa giao tiếp được triển khai độc lập và mã nguồn mở bởi nhóm Prime Intellect dựa trên khái niệm DiLoCo do DeepMind đề xuất. Nó được thiết kế để giải quyết các thách thức như hạn chế băng thông, tính không đồng nhất của thiết bị và sự bất ổn của nút thường gặp trong đào tạo phi tập trung. Kiến trúc của nó dựa trên tính song song dữ liệu. Bằng cách xây dựng các cấu trúc tôpô thưa thớt như Ring, Expander và Small-World, nó tránh được chi phí truyền thông cao của đồng bộ hóa toàn cầu và chỉ dựa vào các nút lân cận cục bộ để hoàn thành đào tạo cộng tác mô hình. Kết hợp với các bản cập nhật không đồng bộ và cơ chế chịu lỗi điểm dừng, OpenDiLoCo cho phép GPU cấp tiêu dùng và các thiết bị biên tham gia ổn định vào các tác vụ đào tạo, cải thiện đáng kể sự tham gia của đào tạo cộng tác toàn cầu và là một trong những cơ sở hạ tầng truyền thông chính để xây dựng mạng lưới đào tạo phi tập trung.

  • PCCL: Thư viện truyền thông cộng tác

PCCL (Prime Collective Communication Library) là một thư viện giao tiếp nhẹ được Prime Intellect thiết kế riêng cho các môi trường đào tạo AI phi tập trung. Nó nhằm mục đích giải quyết tình trạng tắc nghẽn thích ứng của các thư viện giao tiếp truyền thống (như NCCL, Gloo) trong các thiết bị không đồng nhất và mạng băng thông thấp. PCCL hỗ trợ cấu trúc thưa thớt, nén gradient, đồng bộ hóa độ chính xác thấp và khôi phục điểm dừng, và có thể chạy trên GPU cấp người tiêu dùng và các nút không ổn định. Đây là thành phần cơ bản hỗ trợ khả năng giao tiếp không đồng bộ của giao thức OpenDiLoCo. Nó cải thiện đáng kể khả năng chịu đựng băng thông và khả năng tương thích của thiết bị của mạng đào tạo và mở ra nền tảng giao tiếp "dặm cuối" để xây dựng một mạng đào tạo cộng tác thực sự mở và không cần tin cậy.

3. Mạng lưới khuyến khích trí tuệ Prime và phân chia vai trò

Prime Intellect đã xây dựng một mạng lưới đào tạo không cần xin phép, có thể xác minh và được khuyến khích về mặt kinh tế, cho phép bất kỳ ai tham gia vào các nhiệm vụ và được khen thưởng dựa trên những đóng góp thực sự. Giao thức hoạt động dựa trên ba vai trò cốt lõi:

  • Người khởi tạo nhiệm vụ : xác định môi trường đào tạo, mô hình ban đầu, chức năng phần thưởng và tiêu chí xác minh
  • Các nút đào tạo : thực hiện đào tạo cục bộ, gửi cập nhật trọng số và quan sát quỹ đạo
  • Nút xác minh : Sử dụng cơ chế TOPLOC để xác minh tính xác thực của hành vi đào tạo và tham gia vào tính toán phần thưởng và tổng hợp chiến lược

Quy trình cốt lõi của giao thức bao gồm giải phóng nhiệm vụ, đào tạo nút, xác minh quỹ đạo, tổng hợp trọng số (SHARDCAST) và phân phối phần thưởng, hình thành vòng lặp khép kín khuyến khích xung quanh "hành vi đào tạo thực tế".

INTELLECT-2: Ra mắt mô hình đào tạo phi tập trung có thể xác minh đầu tiên

Prime Intellect đã phát hành INTELLECT-2 vào tháng 5 năm 2025 , mô hình học tăng cường lớn đầu tiên trên thế giới được đào tạo bởi các nút phi tập trung không đồng bộ, không cần tin cậy, với thang tham số là 32B . Mô hình INTELLECT-2 được đào tạo bởi hơn 100 nút không đồng nhất GPU trên ba châu lục, sử dụng kiến trúc hoàn toàn không đồng bộ và thời gian đào tạo hơn 400 giờ, chứng minh tính khả thi và ổn định của các mạng cộng tác không đồng bộ. Mô hình này không chỉ là bước đột phá về hiệu suất mà còn là lần đầu tiên triển khai có hệ thống mô hình "đào tạo là sự đồng thuận" do Prime Intellect đề xuất. INTELLECT-2 tích hợp các mô-đun giao thức cốt lõi như PRIME-RL (cấu trúc đào tạo không đồng bộ) , TOPLOC (xác minh hành vi đào tạo) SHARDCAST (tổng hợp trọng số không đồng bộ) , đánh dấu lần đầu tiên một mạng đào tạo phi tập trung đạt được vòng lặp khép kín về tính cởi mở, khả năng xác minh và khuyến khích kinh tế của quá trình đào tạo .

Về mặt hiệu suất, INTELLECT-2 dựa trên đào tạo QwQ-32B và đã thực hiện đào tạo RL đặc biệt về mã và toán học, đi đầu trong các mô hình tinh chỉnh RL nguồn mở hiện tại. Mặc dù vẫn chưa vượt qua các mô hình nguồn đóng như GPT-4 hoặc Gemini, nhưng ý nghĩa thực sự của nó nằm ở chỗ: đây là thử nghiệm mô hình phi tập trung đầu tiên trên thế giới với quy trình đào tạo hoàn chỉnh có thể tái tạo, xác minh và kiểm toán được . Prime Intellect không chỉ mã nguồn mở mô hình mà quan trọng hơn là chính quy trình đào tạo - dữ liệu đào tạo, quỹ đạo cập nhật chiến lược, quy trình xác minh và logic tổng hợp đều minh bạch và có thể truy xuất, xây dựng một nguyên mẫu mạng đào tạo phi tập trung mà mọi người đều có thể tham gia, cộng tác đáng tin cậy và chia sẻ lợi ích .

5. Bối cảnh về đội ngũ và tài chính

Prime Intellect đã hoàn thành vòng gọi vốn hạt giống trị giá 15 triệu đô la vào tháng 2 năm 2025, do Founders Fund dẫn đầu, với sự tham gia của các nhà lãnh đạo trong ngành như Menlo Ventures, Andrej Karpathy, Clem Delangue, Dylan Patel, Balaji Srinivasan, Emad Mostaque và Sandeep Nailwal. Trước đó, dự án đã hoàn thành vòng gọi vốn đầu tiên trị giá 5,5 triệu đô la vào tháng 4 năm 2024, do CoinFund và Distributed Global dẫn đầu, với sự tham gia của Compound VC, Collab + Currency và Protocol Labs. Cho đến nay, Prime Intellect đã huy động được tổng cộng hơn 20 triệu đô la.

Những người đồng sáng lập Prime Intellect là Vincent Weisser và Johannes Hagemann. Các thành viên trong nhóm có nền tảng về AI và Web3. Các thành viên cốt cán đến từ Meta AI, Google Research, OpenAI, Flashbots, Stability AI và Ethereum Foundation. Họ có năng lực sâu sắc trong thiết kế kiến trúc hệ thống và triển khai kỹ thuật phân tán. Họ là một trong số rất ít nhóm điều hành đã hoàn thành thành công khóa đào tạo mô hình phi tập trung quy mô lớn thực sự.

Pluralis: Một trình khám phá mô hình cho song song mô hình không đồng bộ và đào tạo cộng tác nén cấu trúc

Pluralis là một dự án AI Web3 tập trung vào "mạng lưới đào tạo cộng tác đáng tin cậy". Mục tiêu cốt lõi của dự án là thúc đẩy mô hình đào tạo phi tập trung, tham gia mở và khuyến khích dài hạn. Khác với các con đường đào tạo tập trung hoặc khép kín hiện tại, Pluralis đề xuất một khái niệm mới gọi là Protocol Learning : đào tạo mô hình "dựa trên giao thức" và xây dựng một hệ thống đào tạo mở với vòng lặp khép kín khuyến khích nội tại thông qua các cơ chế cộng tác có thể xác minh và lập bản đồ quyền sở hữu mô hình.

1. Khái niệm cốt lõi: Học giao thức

Giao thức học tập do Pluralis đề xuất bao gồm ba trụ cột chính:

  1. Các mô hình không thể vật chất hóa
    Mô hình được phân phối giữa nhiều nút dưới dạng các mảnh vỡ và không có nút nào có thể khôi phục toàn bộ trọng số và vẫn là nguồn đóng. Thiết kế này làm cho mô hình trở thành "tài sản trong giao thức" tự nhiên, có thể thực hiện kiểm soát thông tin xác thực truy cập, bảo vệ rò rỉ và ràng buộc phân bổ thu nhập.
  2. Đào tạo song song mô hình qua Internet
    Thông qua cơ chế song song của mô hình Pipeline không đồng bộ (kiến trúc SWARM), các nút khác nhau chỉ giữ trọng số một phần và hợp tác để hoàn tất quá trình đào tạo hoặc suy luận thông qua mạng băng thông thấp.
  3. Quyền sở hữu một phần cho các ưu đãi
    Tất cả các nút tham gia đều có được quyền sở hữu một phần mô hình dựa trên đóng góp đào tạo của họ, do đó được hưởng quyền chia sẻ lợi nhuận trong tương lai và quyền quản lý giao thức.

2. Kiến trúc kỹ thuật của ngăn xếp giao thức Pluralis

Các tầng

Tên mô-đun

Mô tả chức năng

Lớp lập lịch đào tạo

Đàn ong song song

Mô hình đường ống không đồng bộ song song, hỗ trợ sự tham gia linh hoạt và đào tạo cộng tác với phần cứng không đồng nhất

Lớp nén truyền thông

Sự phân bố không gian cột

Được thiết kế cho kiến trúc Transformer, nén có cấu trúc của không gian cột tenxơ kích hoạt, tỷ lệ nén truyền thông 90%+

Tối ưu hóa lớp đồng bộ hóa

Cập nhật NAG-Async

Giới thiệu cơ chế nhìn trước động lượng để giải quyết vấn đề lỗi thời về độ dốc không đồng bộ và cải thiện tính ổn định và thông lượng đào tạo

Lớp xác nhận khuyến khích

Phân bổ quyền sở hữu một phần

Liên kết đóng góp và lợi ích của mô hình để thiết lập cơ chế khuyến khích dài hạn cho người tham gia

Lớp bảo vệ trọng lượng

Mô hình giao thức

Mô hình không thể được xuất và chỉ có thể chạy trong Swarm để đảm bảo tính bảo mật và giá trị được ghi nhận

3. Giải thích chi tiết các cơ chế kỹ thuật chính

  • Các mô hình không thể vật chất hóa

Trong A Third Path: Protocol Learning, lần đầu tiên đề xuất rằng trọng số mô hình được phân phối dưới dạng các mảnh vỡ để đảm bảo rằng "tài sản mô hình" chỉ có thể chạy trong mạng Swarm và quyền truy cập và lợi ích của chúng được kiểm soát bởi giao thức. Cơ chế này là điều kiện tiên quyết để đạt được cấu trúc khuyến khích bền vững cho đào tạo phi tập trung.

  • Mô hình không đồng bộ-Đào tạo song song

Trong "SWARM Parallel with Asynchronous Updates", Pluralis đã xây dựng một kiến trúc song song mô hình không đồng bộ dựa trên Pipeline và trình diễn lần đầu tiên trên LLaMA-3. Đổi mới cốt lõi là việc giới thiệu cơ chế Nesterov Accelerated Gradient (NAG) , cơ chế này hiệu chỉnh hiệu quả các vấn đề về trôi gradient và mất ổn định hội tụ trong quá trình cập nhật không đồng bộ, giúp việc đào tạo giữa các thiết bị không đồng nhất trở nên thiết thực trong môi trường băng thông thấp.

  • Sự phân bố không gian cột

Trong Beyond Top-K, đề xuất thay thế Top-K truyền thống bằng phương pháp nén không gian cột có cấu trúc để tránh phá hủy đường dẫn ngữ nghĩa. Cơ chế này tính đến cả độ chính xác của mô hình và hiệu quả giao tiếp. Đã được thử nghiệm rằng hơn 90% dữ liệu giao tiếp có thể được nén trong môi trường song song mô hình không đồng bộ, đây là bước đột phá quan trọng trong việc đạt được giao tiếp hiệu quả có cấu trúc.

4. Định vị công nghệ và lựa chọn đường đi

Pluralis rõ ràng lấy "song song mô hình không đồng bộ" làm hướng cốt lõi, nhấn mạnh rằng nó có những ưu điểm sau so với song song dữ liệu:

  • Hỗ trợ mạng băng thông thấp các nút không đồng nhất ;
  • Thích ứng với tính không đồng nhất của thiết bị và cho phép GPU cấp tiêu dùng tham gia;
  • Nó có khả năng lập lịch đàn hồi tự nhiên và hỗ trợ nhiều nút trực tuyến/ngoại tuyến.
  • Ba điểm đột phá chính nén cấu trúc + cập nhật không đồng bộ + không trích xuất được trọng số .

Hiện tại, theo sáu tài liệu blog kỹ thuật được công bố trên trang web chính thức, cấu trúc logic được tích hợp thành ba dòng chính sau:

  1. Triết lý và tầm nhìn : Con đường thứ ba: Học giao thức Tại sao đào tạo phi tập trung lại quan trọng
  2. Chi tiết cơ chế kỹ thuật : "SWARM Parallel", "Beyond Top-K", "Cập nhật không đồng bộ"
  3. Khám phá Đổi mới thể chế : Các mô hình không thể thực hiện được và các giao thức sở hữu một phần

Hiện tại, Pluralis vẫn chưa tung ra bất kỳ sản phẩm, mạng thử nghiệm hoặc mã nguồn mở nào. Lý do là vì con đường kỹ thuật mà nó đã chọn cực kỳ thách thức: trước tiên nó phải giải quyết các vấn đề cấp hệ thống như kiến trúc hệ thống cơ bản, giao thức truyền thông và khả năng không xuất khẩu trọng số trước khi có thể đóng gói các dịch vụ sản phẩm lên trên.

Trong một bài báo mới được Pluralis Research công bố vào tháng 6 năm 2025, khuôn khổ đào tạo phi tập trung của họ đã được mở rộng từ giai đoạn tiền đào tạo mô hình sang giai đoạn tinh chỉnh mô hình, hỗ trợ cập nhật không đồng bộ, giao tiếp thưa thớt và tổng hợp trọng số một phần. So với các thiết kế trước đây tập trung vào lý thuyết và tiền đào tạo, công trình này chú trọng hơn đến tính khả thi của việc triển khai, đánh dấu sự trưởng thành hơn nữa của họ trong kiến trúc đào tạo toàn chu kỳ.

5. Bối cảnh về đội ngũ và tài chính

Pluralis đã hoàn thành vòng hạt giống trị giá 7,6 triệu đô la vào năm 2025 , do Union Square Ventures (USV) CoinFund dẫn đầu . Nhà sáng lập Alexander Long có bằng Tiến sĩ về học máy và có nền tảng về cả toán học và nghiên cứu hệ thống. Các thành viên cốt lõi đều là các nhà nghiên cứu học máy có bằng Tiến sĩ. Đây là một dự án điển hình do công nghệ thúc đẩy , với các bài báo mật độ cao và blog kỹ thuật là con đường xuất bản chính. Dự án vẫn chưa thành lập nhóm BD/Tăng trưởng và tập trung vào việc khắc phục những thách thức về cơ sở hạ tầng của mô hình song song không đồng bộ băng thông thấp.

Gensyn: Một lớp giao thức đào tạo phi tập trung được thúc đẩy bởi việc thực hiện có thể xác minh

Gensyn là một dự án AI Web3 tập trung vào "thực hiện đáng tin cậy các tác vụ đào tạo học sâu". Cốt lõi không phải là tái cấu trúc kiến trúc mô hình hoặc mô hình đào tạo, mà là xây dựng một mạng lưới thực hiện đào tạo phân tán có thể xác minh được với toàn bộ quy trình "phân phối tác vụ + thực hiện đào tạo + xác minh kết quả + khuyến khích công bằng" . Thông qua thiết kế kiến trúc đào tạo ngoài chuỗi + xác minh trên chuỗi, Gensyn đã thiết lập một thị trường đào tạo toàn cầu hiệu quả, cởi mở và có động lực, biến "đào tạo là khai thác" thành hiện thực.

1. Định vị dự án: Lớp giao thức thực hiện cho các nhiệm vụ đào tạo

Gensyn không phải là về “cách đào tạo”, mà là về cơ sở hạ tầng của “ai đào tạo, cách xác minh và cách chia sẻ lợi nhuận”. Bản chất của nó là một giao thức điện toán có thể xác minh được cho các tác vụ đào tạo, chủ yếu giải quyết:

  • Ai sẽ thực hiện nhiệm vụ đào tạo (phân phối sức mạnh tính toán và khớp động)
  • Cách xác minh kết quả thực hiện (không cần tính toán lại toàn bộ, chỉ cần xác minh các toán tử đang tranh chấp)
  • Cách phân phối thu nhập đào tạo (Cơ chế trò chơi Stake, Slashing và đa vai)

2. Tổng quan về kiến trúc kỹ thuật

Các tầng

Các mô-đun

Mô tả chức năng

Lớp thực hiện

Bầy đàn RL

Hệ thống học tăng cường cộng tác đa mô hình, hỗ trợ các thiết bị không đồng nhất, cập nhật cục bộ và không cần đồng bộ hóa độ dốc

Lớp xác thực

Xanh + PoL

Cơ chế xác minh hành vi đào tạo, kết hợp tính toán lại giảm thiểu và xác minh quỹ đạo gradient

Lớp truyền thông

Bỏ qua ống

Hỗ trợ cơ chế truyền thông chịu lỗi với tính năng nhảy lớp và lập lịch động để cải thiện thông lượng và tính ổn định

HDEE

Hỗ trợ đào tạo cộng tác các mô hình chuyên gia không đồng nhất và thích ứng với các tình huống dữ liệu phức tạp đa nhiệm vụ

Lớp khuyến khích

Cơ chế trò chơi đa vai trò

Cơ chế trò chơi hợp tác giữa người nộp/người giải quyết/người xác minh/người tố giác

3. Giải thích chi tiết về Module

  • RL Swarm: Hệ thống đào tạo học tăng cường cộng tác

RL Swarm, do Gensyn tiên phong, là một hệ thống tối ưu hóa cộng tác đa mô hình phi tập trung dành cho giai đoạn sau đào tạo , với các tính năng cốt lõi sau:

  • Quá trình học tập và suy luận phân tán :
    • Trả lời : Mỗi nút đưa ra câu trả lời một cách độc lập.
    • Giai đoạn phê bình : Các nút bình luận về đầu ra của nhau và chọn ra câu trả lời và logic tốt nhất;
    • Giai đoạn đồng thuận (Giải quyết) : Dự đoán sở thích của hầu hết các nút và sửa đổi câu trả lời của riêng chúng cho phù hợp để đạt được các bản cập nhật trọng số cục bộ.

RL Swarm do Gensyn đề xuất là một hệ thống tối ưu hóa cộng tác đa mô hình phi tập trung. Mỗi nút chạy một mô hình độc lập và thực hiện đào tạo cục bộ mà không cần đồng bộ hóa gradient . Nó tự nhiên thích ứng với sức mạnh tính toán không đồng nhất và môi trường mạng không ổn định, đồng thời hỗ trợ truy cập và thoát nút đàn hồi. Cơ chế này dựa trên ý tưởng của RLHF và trò chơi đa tác nhân, nhưng gần hơn với logic tiến hóa động của mạng suy luận cộng tác. Các nút được thưởng theo mức độ nhất quán với kết quả đồng thuận của nhóm, do đó thúc đẩy tối ưu hóa liên tục và học tập hội tụ về khả năng suy luận. RL Swarm cải thiện đáng kể tính mạnh mẽ và khả năng khái quát hóa của mô hình trong mạng mở và đã được triển khai như một mô-đun thực thi cốt lõi trong Testnet Giai đoạn 0 của Gensyn dựa trên Ethereum Rollup.

  • Verde + Proof-of-Learning: Cơ chế xác minh đáng tin cậy

Mô-đun Verde của Gensyn kết hợp ba cơ chế:

  • Bằng chứng học tập : Xác định xem quá trình đào tạo có thực sự diễn ra hay không dựa trên dấu vết gradient và siêu dữ liệu đào tạo;
  • Xác định vị trí dựa trên đồ thị : xác định các nút phân kỳ trong đồ thị tính toán đào tạo và chỉ cần tính toán lại các hoạt động cụ thể;
  • Đoàn đại biểu được trọng tài : Áp dụng cơ chế xác minh trọng tài, trong đó bên xác minh và bên thách thức nêu tranh chấp và xác minh tại địa phương, giúp giảm đáng kể chi phí xác minh.

So với ZKP hoặc các chương trình xác minh tính toán lại đầy đủ, chương trình Verde đạt được sự cân bằng tốt hơn giữa khả năng xác minh và hiệu quả .

  • SkipPipe: Cơ chế tối ưu hóa khả năng chịu lỗi truyền thông

SkipPipe được thiết kế để giải quyết vấn đề tắc nghẽn truyền thông trong tình huống "băng thông thấp + nút ngoại tuyến". Các khả năng cốt lõi của nó bao gồm:

  • Tỷ lệ bỏ qua: bỏ qua các nút bị hạn chế để tránh tình trạng tắc nghẽn khi đào tạo;
  • Thuật toán lập lịch động: tạo ra đường dẫn thực thi tối ưu theo thời gian thực;
  • Thực thi có khả năng chịu lỗi: Ngay cả khi 50% số nút bị lỗi, độ chính xác suy luận chỉ giảm khoảng 7%.

Nó hỗ trợ cải thiện thông lượng đào tạo lên tới 55% và triển khai các khả năng chính như "lý luận thoát sớm", "sắp xếp lại liền mạch" và "hoàn thành suy luận".

  • HDEE: Cụm chuyên gia không đồng nhất giữa các miền

Mô-đun HDEE ( Heterogeneous Domain-Expert Ensembles ) được dành riêng để tối ưu hóa các tình huống sau:

  • Đào tạo đa lĩnh vực, đa phương thức và đa nhiệm vụ;
  • Sự phân bố của các loại dữ liệu đào tạo khác nhau không đồng đều và mức độ khó cũng khác nhau rất nhiều;
  • Các vấn đề về phân bổ và lập lịch tác vụ trong môi trường có khả năng tính toán của nhiều thiết bị không đồng nhất và băng thông truyền thông không ổn định.

Các tính năng cốt lõi của nó:

  • MHe-IHo : Chỉ định các mô hình có kích thước khác nhau cho các nhiệm vụ có độ khó khác nhau (các mô hình không đồng nhất, kích thước bước đào tạo thống nhất);
  • MHo-IHe : độ khó của nhiệm vụ đồng đều, nhưng điều chỉnh không đồng bộ về kích thước bước đào tạo;
  • Hỗ trợ các mô hình chuyên gia không đồng nhất + các chiến lược đào tạo có thể cắm thêm để cải thiện khả năng thích ứng và khả năng chịu lỗi;
  • Nó nhấn mạnh vào "sự hợp tác song song + giao tiếp cực kỳ thấp + phân bổ chuyên gia năng động" và phù hợp với hệ sinh thái nhiệm vụ phức tạp trong thực tế.
  • Cơ chế trò chơi đa vai trò: sự tin tưởng và động cơ song hành

Mạng lưới Gensyn giới thiệu bốn loại người tham gia:

  • Người nộp : công bố nhiệm vụ đào tạo, thiết lập cấu trúc và ngân sách;
  • Solver : thực hiện các nhiệm vụ đào tạo và gửi kết quả;
  • Người xác minh : Xác minh hành vi đào tạo để đảm bảo tuân thủ và hiệu quả;
  • Người tố giác : Thách thức người xác thực để nhận được phần thưởng trọng tài hoặc chịu hình phạt.

Cơ chế này lấy cảm hứng từ thiết kế trò chơi kinh tế Truebit. Bằng cách chèn lỗi + trọng tài ngẫu nhiên , nó khuyến khích người tham gia hợp tác một cách trung thực và đảm bảo hoạt động đáng tin cậy của mạng.

4. Testnet và lập kế hoạch lộ trình

sân khấu

Tính năng cốt lõi

Mục tiêu

✅ Giai đoạn 0

RL Swarm + Cơ chế theo dõi danh tính

Thực hiện nhiệm vụ đào tạo cơ bản cộng tác và cơ chế phân bổ

🟡 Giai đoạn 1

Xác minh Verde tích hợp và khả năng chịu lỗi giao tiếp SkipPipe

Hỗ trợ nhiều loại hình đào tạo và phương pháp xác minh hơn

🟢 Giai đoạn 2

Giới thiệu môi trường lưu trữ RL + nhiệm vụ đào tạo trước mô hình

Hỗ trợ nhu cầu đào tạo thực tế và song song đa mô hình

🟣 Giai đoạn 3

Suy luận dưới dạng dịch vụ

Hỗ trợ các cuộc gọi trên chuỗi và khả năng dịch vụ mô hình như tài sản

🏁 Cuối cùng

Ra mắt Mainnet + Vòng khép kín kinh tế Token

Xây dựng một lớp thực thi hoàn chỉnh cho “thị trường đào tạo phi tập trung”

5. Bối cảnh về đội ngũ và tài chính

Gensyn được đồng sáng lập bởi Ben Fielding và Harry Grieve và có trụ sở chính tại London, Vương quốc Anh. Vào tháng 5 năm 2023, Gensyn đã công bố hoàn thành khoản tài trợ Series A trị giá 43 triệu đô la do a16z crypto dẫn đầu, với các nhà đầu tư khác bao gồm CoinFund, Canonical, Ethereal Ventures, Factor và Eden Block. Bối cảnh của nhóm kết hợp giữa hệ thống phân tán và kinh nghiệm về kỹ thuật học máy, và từ lâu đã cam kết xây dựng một mạng lưới thực hiện đào tạo AI quy mô lớn, không cần tin cậy và có thể xác minh được.

Nous Research: Một hệ thống đào tạo tiến hóa nhận thức được thúc đẩy bởi các khái niệm AI chủ quan

Nous Research là một trong số ít nhóm đào tạo phi tập trung có cả thành tựu về triết học và kỹ thuật. Tầm nhìn cốt lõi của họ bắt nguồn từ khái niệm "Desideratic AI": AI được xem như một chủ thể thông minh có tính chủ quan và khả năng tiến hóa , thay vì một công cụ đơn giản có thể kiểm soát được. Điểm độc đáo của Nous Research nằm ở chỗ họ không tối ưu hóa đào tạo AI như một "vấn đề về hiệu quả", mà là một quá trình hình thành "chủ thể nhận thức". Được thúc đẩy bởi tầm nhìn này, Nous tập trung vào việc xây dựng một mạng lưới đào tạo mở được đào tạo cộng tác bởi các nút không đồng nhất, không yêu cầu lập lịch trung tâm và chống kiểm duyệt , và được triển khai một cách có hệ thống thông qua chuỗi công cụ đầy đủ.

1. Hỗ trợ khái niệm: xác định lại “mục đích” của đào tạo

Nous không đầu tư quá nhiều vào thiết kế khuyến khích hoặc kinh tế học giao thức, thay vào đó tìm cách thay đổi tiền đề triết lý của chính chương trình đào tạo :

  • Phản đối “chủ nghĩa liên kết” : không đồng tình với “đào tạo theo phong cách đào tạo” có mục tiêu duy nhất là sự kiểm soát của con người, và ủng hộ rằng đào tạo nên khuyến khích mô hình hình thành một phong cách nhận thức độc lập;
  • Nhấn mạnh vào tính chủ quan của mô hình : Người ta tin rằng mô hình cơ bản phải duy trì được tính không chắc chắn, tính đa dạng và khả năng tạo ra ảo giác (ảo giác là đức tính);
  • Đào tạo mô hình là sự hình thành nhận thức : mô hình không phải là "tối ưu hóa việc hoàn thành nhiệm vụ" mà là một cá nhân tham gia vào quá trình tiến hóa nhận thức.

Mặc dù khái niệm đào tạo này "lãng mạn", nhưng nó phản ánh logic cốt lõi của Nous trong việc thiết kế cơ sở hạ tầng đào tạo: làm thế nào để cho phép các mô hình không đồng nhất phát triển trong một mạng lưới mở thay vì được tuân theo một nguyên tắc thống nhất .

2. Đào tạo cốt lõi: Psyche Network và DisTrO Optimizer

Đóng góp quan trọng nhất của Nous cho đào tạo phi tập trung là xây dựng mạng Psyche và trình tối ưu hóa truyền thông cơ bản DisTrO (Đào tạo phân tán qua Internet) , cùng nhau tạo thành trung tâm thực hiện nhiệm vụ đào tạo: Mạng DisTrO + Psyche có nhiều khả năng cốt lõi, bao gồm nén truyền thông (sử dụng mã hóa

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận