Báo cáo hàng tuần của IOSG | Từ tỷ lệ băm đến trí tuệ: Bản đồ đầu tư AI phi tập trung được thúc đẩy bởi học tăng cường

Bài viết này được dịch máy
Xem bản gốc

Tóm tắt Chainfeeds:

Báo cáo nghiên cứu của IOSG Ventures phân tích một cách có hệ thống các nguyên tắc của mô hình huấn luyện AI và công nghệ học tăng cường, chứng minh những lợi thế về cấu trúc của học tăng cường × Web3, và phân tích các dự án như Prime Intellect, Gensyn, Nous Research, Gradient, Grail và Fraction AI.

Nguồn bài viết:

https://mp.weixin.qq.com/s/NKfN1uzojrOUy-9KtSTFPA

Tác giả bài viết:

IOSG Ventures


Quan điểm ​​:

IOSG Ventures: Tính tương thích cao giữa Học tăng cường (Reinforcement Learning - RL) và Web3 xuất phát từ thực tế cả hai về cơ bản đều là "hệ thống dựa trên khích lệ". RL dựa vào tín hiệu phần thưởng để tối ưu hóa chiến lược, trong khi blockchain dựa vào khích lệ kinh tế để điều phối hành vi của người tham gia, khiến chúng nhất quán một cách tự nhiên ở cấp độ cơ chế. Các yêu cầu cốt lõi của RL—triển khai không đồng nhất lượng lớn dữ liệu dựa trên chính sách hiện tại, một nhiệm vụ đòi hỏi nhiều tính toán nhưng ít yêu cầu giao tiếp. Nó không yêu cầu giao tiếp thường xuyên giữa nút và phù hợp với việc tạo song song trên các GPU cấp người tiêu dùng được phân tán toàn cầu. 2) Cập nhật (cập nhật tham số): Tỷ trọng của mô hình được cập nhật dựa trên dữ liệu thu thập được, yêu cầu nút tập trung có băng thông cao để hoàn thành. Việc "tách rời suy luận-huấn luyện" phù hợp một cách tự nhiên với cấu trúc tỷ lệ băm phi tập trung , không đồng nhất: Việc triển khai có thể được thuê ngoài cho mở mạng , với quyết toán dựa trên đóng góp thông qua cơ chế token , trong khi việc cập nhật mô hình vẫn được tập trung hóa để đảm bảo tính ổn định. Dựa trên phân tích cấu trúc của các dự án tiên tiến đã đề cập ở trên, chúng tôi nhận thấy rằng mặc dù điểm khởi đầu của mỗi đội ngũ(thuật toán, kỹ thuật hoặc thị trường) khác nhau, nhưng khi học tăng cường (RL) được kết hợp với Web3, logic kiến ​​trúc cơ bản của chúng hội tụ thành một mô hình "tách rời-xác minh- khích lệ" rất nhất quán. Đây không chỉ đơn thuần là sự trùng hợp kỹ thuật, mà là kết quả tất yếu của việc các mạng phi tập trung thích ứng với các đặc tính độc đáo của học tăng cường. Việc tách rời giữa triển khai và học tập—cấu trúc tính toán mặc định thuê ngoài việc truyền thông triển khai thưa thớt, có thể song song hóa cho các GPU cấp người tiêu dùng toàn cầu, với việc cập nhật tham số băng thông cao tập trung vào một số ít nút huấn luyện, như được thấy trong Actor-Learner bất đồng bộ của Prime Intellect và kiến ​​trúc nhóm kép của Gradient Echo. Theo mô hình kết hợp học tăng cường và Web3 này, những lợi thế ở cấp độ hệ thống chủ yếu được thể hiện ở việc viết lại cấu trúc chi phí và quản trị. 1) Tái cấu trúc chi phí: Sau quá trình huấn luyện trong RL có nhu cầu không giới hạn về lấy mẫu triển khai. Web3 có thể huy động tỷ lệ băm phân tán toàn cầu với chi phí cực thấp, một lợi thế về chi phí mà các nhà cung cấp dịch vụ đám mây tập trung không thể sánh kịp. 2) Sự đồng thuận chủ quyền: Phá vỡ thế độc quyền của các công ty lớn về giá trị AI (sự đồng thuận), cộng đồng có thể bỏ phiếu bằng token để xác định "câu trả lời nào là tốt" cho mô hình, từ đó dân chủ hóa quản trị AI. Tuy nhiên, hệ thống này cũng phải đối mặt với hai hạn chế cấu trúc chính: 1) Rào cản băng thông: Mặc dù có những đổi mới như DisTrO, độ trễ vật lý vẫn hạn chế việc huấn luyện đầy đủ các mô hình tham số cực lớn (70 tỷ+). Hiện tại, AI Web3 bị hạn chế hơn ở việc tinh chỉnh và suy luận. 2) Định luật Goodhard: Trong các mạng có khích lệ cao, thợ đào dễ bị quá khớp các quy tắc phần thưởng (cày điểm) hơn là cải thiện trí thông minh thực sự. Thiết kế một hàm phần thưởng mạnh mẽ để ngăn chặn gian lận là một trò chơi vĩnh cửu. Các cuộc tấn nút Byzantine độc ​​hại: Những cuộc tấn công này làm gián đoạn sự hội tụ của mô hình bằng cách chủ động thao túng và làm sai lệch tín hiệu huấn luyện. Chiến lược cốt lõi không phải là liên tục thiết kế các hàm thưởng chống gian lận, mà là xây dựng các cơ chế chống lại các cuộc tấn công đối nghịch.

Nguồn nội dung

https://chainfeeds.substack.com

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận