AI và "Tại sao bây giờ" của DAO dữ liệu

Bài viết này được dịch máy
Xem bản gốc

Các thỏa thuận cấp phép dữ liệu cao cấp gần đây như giữa OpenAI, News CorpReddit nhấn mạnh sự cần thiết của dữ liệu chất lượng cao trong AI. Các mô hình biên giới đã được đào tạo trên phần lớn internet—ví dụ: Thu thập thông tin chung, lập chỉ mục khoảng 10% tất cả các trang web, được sử dụng để đào tạo LLM và chứa hơn 100 nghìn tỷ mã thông báo.

Một con đường để cải tiến hơn nữa các mô hình AI là mở rộng và nâng cao dữ liệu mà chúng có thể đào tạo. Chúng tôi đã thảo luận về các cơ chế về cách tổng hợp dữ liệu—đặc biệt theo cách phi tập trung. Chúng tôi đặc biệt quan tâm đến việc khám phá cách các phương pháp phi tập trung có thể giúp tạo ra các bộ dữ liệu mới và mang lại lợi ích kinh tế cho những người đóng góp và người sáng tạo.

Một chủ đề thảo luận trong lĩnh vực tiền điện tử trong vài năm qua là ý tưởng về DAO dữ liệu hoặc tập thể các cá nhân tạo, tổ chức và quản lý dữ liệu. Chủ đề này đã được đề cập đến bởi Multicoinnhững chủ đề khác , nhưng sự tiến bộ nhanh chóng của AI là chất xúc tác cho một câu hỏi mới “tại sao lại là bây giờ?” của dữ liệu DAO.

Chúng tôi muốn chia sẻ suy nghĩ của mình xung quanh chủ đề DAO dữ liệu để theo đuổi câu hỏi: làm thế nào DAO dữ liệu có thể tăng tốc độ phát triển AI?

Theo dõi ngay

Dữ liệu trong AI ngày nay

Ngày nay, các mô hình AI được đào tạo về dữ liệu công khai, thông qua các mối quan hệ đối tác như các giao dịch của News Corp và Reddit hoặc bằng cách thu thập dữ liệu trên internet mở. Ví dụ: Llama 3 của Meta đã được đào tạo trên 15 nghìn tỷ mã thông báo từ các nguồn có sẵn công khai . Những cách tiếp cận này có hiệu quả trong việc tổng hợp lượng lớn dữ liệu một cách nhanh chóng—nhưng chúng có những hạn chế, cả về loại dữ liệu mà chúng thu thập và cách thức thu thập.

Đầu tiên, vấn đề là gì: Việc phát triển AI bị tắc nghẽn bởi chất lượng và số lượng dữ liệu. Leopold Aschenbrenner đã viết về “bức tường dữ liệu” hạn chế những cải tiến thuật toán hơn nữa: “Rất sớm thôi, cách tiếp cận ngây thơ để huấn luyện trước các mô hình ngôn ngữ lớn hơn trên nhiều dữ liệu bị loại bỏ hơn có thể bắt đầu gặp phải những tắc nghẽn nghiêm trọng”.

Một cách để phá bỏ bức tường dữ liệu là mở ra khả năng sẵn có của các bộ dữ liệu mới. Ví dụ: các công ty mô hình không thể thu thập dữ liệu kiểm soát đăng nhập mà không vi phạm điều khoản dịch vụ của hầu hết các trang web và theo định nghĩa, không có quyền truy cập vào dữ liệu chưa được tổng hợp. Ngoài ra còn có một lượng lớn dữ liệu riêng tư nằm ngoài tầm với của việc đào tạo AI ngày nay: hãy nghĩ đến Google Drive dành cho doanh nghiệp, Slacks của công ty, dữ liệu sức khỏe cá nhân hoặc tin nhắn riêng tư.

Thứ hai, cách thức: Theo Paradigm hiện tại, các công ty tổng hợp dữ liệu sẽ nắm bắt được phần lớn giá trị. S-1 của Reddit có tính năng cấp phép dữ liệu như một nguồn doanh thu dự kiến ​​chính: “Chúng tôi kỳ vọng lợi thế về dữ liệu ngày càng tăng và Sở hữu trí tuệ (IP) của mình sẽ tiếp tục là yếu tố chính trong việc đào tạo LLM trong tương lai”. Người dùng cuối tạo ra nội dung thực tế không thấy bất kỳ loại lợi ích kinh tế nào từ các thỏa thuận cấp phép này hoặc từ chính các mô hình AI. Sự sai lệch này có thể cản trở sự tham gia — đã có những phong trào kiện các công ty AI sáng tạo hoặc chọn không tham gia các bộ dữ liệu đào tạo. Đó là chưa kể đến những tác động kinh tế xã hội của việc tập trung doanh thu vào tay các công ty hoặc nền tảng kiểu mẫu mà không chuyển phần chia cho người dùng cuối.

Hiệu ứng Các tổ chức tự trị phi tập trung (DAO) dữ liệu

Một chủ đề chung xuyên suốt các vấn đề về dữ liệu được nêu ở trên: chúng được hưởng lợi từ sự đóng góp theo quy mô từ một mẫu người dùng đại diện, đa dạng. Bất kỳ điểm dữ liệu riêng lẻ nào cũng có thể không có giá trị đáng kể đối với hiệu suất của mô hình, nhưng về tổng thể, một nhóm lớn người dùng có thể tổng hợp các tập dữ liệu mới có giá trị cho việc đào tạo AI. Đây là nơi mà ý tưởng về DAO dữ liệu có thể phù hợp. Với DAO dữ liệu, những người đóng góp dữ liệu có thể thấy được lợi ích kinh tế từ việc đóng góp dữ liệu cũng như quản lý cách sử dụng và kiếm tiền từ dữ liệu đó.

Một số lỗ hổng trong bối cảnh dữ liệu hiện tại mà DAO dữ liệu có thể giải quyết là gì? Dưới đây là một số ý tưởng—lưu ý rằng danh sách này không đầy đủ và chắc chắn có những cơ hội khác cho DAO dữ liệu:

Dữ liệu thực tế

Trong thế giới cơ sở hạ tầng vật lý phi tập trung (DEPIN), các mạng như Hivemapper nhằm mục đích thu thập dữ liệu bản đồ toàn cầu mới nhất thế giới bằng cách khuyến khích chủ sở hữu camera hành trình đóng góp dữ liệu của họ, cũng như khuyến khích người dùng đóng góp dữ liệu thông qua ứng dụng của họ (ví dụ: về việc đóng hoặc sửa đường) ). Một lăng kính để xem DEPIN là DAO dữ liệu trong thế giới thực, trong đó tập dữ liệu được tạo từ mạng gồm các thiết bị phần cứng và/hoặc người dùng. Dữ liệu đó mang lại lợi ích thương mại cho nhiều công ty khác nhau, với doanh thu được tích lũy lại cho những người đóng góp dưới dạng phần thưởng Token .

Dữ liệu sức khỏe cá nhân

Tấn công sinh học là một phong trào xã hội trong đó các cá nhân và cộng đồng thực hiện phương pháp DIY để nghiên cứu sinh học, đôi khi bằng cách tự thử nghiệm. Ví dụ: các cá nhân có thể sử dụng các loại thuốc nootropic khác nhau để tăng cường hoạt động của não hoặc thử nghiệm các phương pháp điều trị khác nhau hoặc thay đổi môi trường để cải thiện giấc ngủ, cho đến việc tự tiêm thuốc thử nghiệm cho bản thân.

DAO dữ liệu có thể mang lại cấu trúc và động lực cho những nỗ lực tấn công sinh học này bằng cách tổ chức những người tham gia xung quanh các thí nghiệm chung và thu thập kết quả một cách có phương pháp. Doanh thu kiếm được từ các DAO sức khỏe cá nhân này, chẳng hạn như từ các phòng thí nghiệm nghiên cứu hoặc công ty dược phẩm, có thể được chuyển lại cho những người tham gia đã đóng góp kết quả dưới dạng dữ liệu sức khỏe cá nhân của chính họ.

Học tăng cường với phản hồi của con người

Tinh chỉnh các mô hình AI bằng RLHF (học tăng cường với phản hồi của con người) liên quan đến việc tận dụng đầu vào của con người để cải thiện hiệu suất của hệ thống AI. Thông thường, người đưa ra phản hồi mong muốn là một chuyên gia trong lĩnh vực của họ, người có thể đánh giá hiệu quả đầu ra của mô hình. Ví dụ: các phòng thí nghiệm có thể tìm kiếm các tiến sĩ toán học để cải thiện khả năng toán học của LLM của họ, ETC Phần thưởng Token có thể đóng một vai trò trong việc tìm nguồn cung ứng và khuyến khích sự tham gia của chuyên gia thông qua lợi ích đầu cơ của họ, chưa kể đến khả năng truy cập toàn cầu được cung cấp bằng cách sử dụng đường ray thanh toán tiền điện tử. Các công ty như Sapien , FractionSahara đang hoạt động trong lĩnh vực này.

Dữ liệu riêng tư

Khi dữ liệu có sẵn công khai cho việc đào tạo AI trở nên cạn kiệt, cơ sở cạnh tranh có thể sẽ chuyển sang các bộ dữ liệu độc quyền, bao gồm cả dữ liệu người dùng cá nhân. Một lượng lớn dữ liệu chất lượng cao vẫn không thể truy cập được sau các bức tường đăng nhập và trong tin nhắn trực tiếp, tài liệu riêng tư, ETC Dữ liệu như vậy không chỉ có hiệu quả trong việc đào tạo AI cá nhân mà còn chứa thông tin có giá trị không thể truy cập được trên web công cộng.

Tuy nhiên, việc truy cập và sử dụng dữ liệu này đặt ra những thách thức đáng kể, cả về mặt pháp lý và đạo đức. DAO dữ liệu có thể đưa ra giải pháp bằng cách cho phép những người tham gia sẵn sàng tải lên và kiếm tiền từ dữ liệu của họ cũng như quản lý cách sử dụng dữ liệu đó. Ví dụ: dữ liệu Reddit Các tổ chức tự trị phi tập trung (DAO) cho phép người dùng tải lên dữ liệu Reddit được xuất từ ​​chính nền tảng và chứa các nhận xét, bài đăng và lịch sử bỏ phiếu lên Treasury dữ liệu có thể được bán hoặc cho thuê theo cách bảo vệ quyền riêng tư cho các công ty AI. Ưu đãi Token cho phép người dùng kiếm tiền không chỉ bằng giao dịch một lần cho dữ liệu của họ mà còn dựa trên giá trị được tạo ra bởi các mô hình AI được đào tạo trên dữ liệu của họ.

Câu hỏi & Thử thách mở

Mặc dù lợi ích tiềm năng của DAO dữ liệu là rất đáng kể nhưng vẫn có một số điều cần cân nhắc và thách thức.

Tác động bóp méo của khuyến khích

Nếu có một điều có thể thu thập được từ lịch sử sử dụng các ưu đãi Token trong tiền điện tử thì đó là các ưu đãi bên ngoài sẽ thay đổi hành vi của người dùng. Điều đó có ý nghĩa trực tiếp trong việc tận dụng các ưu đãi Token cho mục đích dữ liệu: các ưu đãi có thể làm sai lệch cơ sở người tham gia và loại dữ liệu được đóng góp.

Việc giới thiệu các ưu đãi Token cũng mang lại tiềm năng cho người tham gia tìm cách đánh lừa hệ thống, gửi dữ liệu chất lượng thấp hoặc bịa đặt để tối đa hóa thu nhập của họ. Điều này quan trọng vì cơ hội doanh thu cho các DAO dữ liệu này phụ thuộc vào chất lượng dữ liệu. Nếu đóng góp bị sai lệch, nó sẽ làm giảm giá trị của tập dữ liệu.

Đo lường dữ liệu và phần thưởng

Cốt lõi của Các tổ chức tự trị phi tập trung (DAO) dữ liệu là ý tưởng rằng những người đóng góp sẽ được khen thưởng khi họ gửi thông qua các ưu đãi Token , về lâu dài sẽ hội tụ vào doanh thu mà Tổ chức tự trị phi tập trung (DAO) kiếm được. Tuy nhiên, việc biết chính xác mức thưởng bao nhiêu cho những đóng góp dữ liệu khác nhau là một thách thức, do tính chất chủ quan của giá trị dữ liệu. Ví dụ: trong ví dụ trên về tấn công sinh học: dữ liệu của một số người dùng có giá trị hơn những dữ liệu khác không? Nếu vậy, những yếu tố quyết định đó là gì? Và đối với dữ liệu bản đồ: thông tin bản đồ của một số khu vực địa lý có giá trị hơn những thông tin khác không và sự khác biệt đó sẽ được định lượng như thế nào? (Có nghiên cứu tích cực xoay quanh việc đo lường giá trị dữ liệu trong AI bằng cách tính toán mức độ đóng góp gia tăng của nó vào hiệu suất mô hình, nhưng các phương pháp như vậy có thể đòi hỏi nhiều tính toán.)

Hơn nữa, việc thiết lập các cơ chế mạnh mẽ để xác minh tính xác thực và chính xác của dữ liệu là rất quan trọng. Nếu không có các biện pháp như vậy, hệ thống có thể dễ bị gửi dữ liệu gian lận (ví dụ: tạo tài khoản giả) hoặc tấn công Sybil. Mạng DEPIN cố gắng giải quyết vấn đề này bằng cách tích hợp ở cấp thiết bị phần cứng, nhưng các loại DAO dữ liệu khác phụ thuộc vào sự đóng góp do người dùng điều khiển có thể dễ bị thao túng.

Sự gia tăng của dữ liệu mới

Hầu hết web mở đã được sử dụng cho mục đích đào tạo và do đó, nhà điều hành Các tổ chức tự trị phi tập trung (DAO) dữ liệu phải xem xét liệu tập dữ liệu của họ, được thu thập thông qua nỗ lực phân tán, có thực sự gia tăng và bổ sung cho dữ liệu hiện có trên web mở hay không và liệu các nhà nghiên cứu có có thể cấp phép cho dữ liệu đó từ các nền tảng hoặc mua nó thông qua các phương tiện khác. Các ý tưởng được nêu ở trên nhấn mạnh tầm quan trọng của việc thu thập dữ liệu hoàn toàn mới vượt xa những gì hiện có, từ đó dẫn đến vấn đề cần cân nhắc tiếp theo: mức độ tác động và cơ hội doanh thu.

Định cỡ cơ hội doanh thu

Về cơ bản, DAO dữ liệu đang xây dựng một thị trường hai mặt, kết nối người mua dữ liệu với người đóng góp dữ liệu. Do đó, sự thành công của DAO dữ liệu phụ thuộc vào việc thu hút lượng khách hàng ổn định và đa dạng sẵn sàng trả tiền cho dữ liệu.

DAO dữ liệu cần xác định và xác thực nhu cầu cuối cùng của họ và đảm bảo rằng cơ hội doanh thu đủ lớn, cả trên cơ sở tổng hợp và trên cơ sở mỗi người đóng góp, để khuyến khích số lượng và chất lượng dữ liệu cần thiết. Ví dụ: ý tưởng tạo Các tổ chức tự trị phi tập trung (DAO) dữ liệu người dùng để tổng hợp sở thích cá nhân và dữ liệu duyệt web cho mục đích quảng cáo đã được thảo luận trong nhiều năm, nhưng cuối cùng, doanh thu mà mạng như vậy có thể chuyển cho người dùng có thể là rất nhỏ. . (Để so sánh, ARPU toàn cầu của Meta vào cuối năm 2023 là 13,12 đô la .) Với việc các công ty AI có kế hoạch chi hàng nghìn tỷ đô la cho việc đào tạo, doanh thu trên mỗi người dùng đối với dữ liệu của họ có thể đủ hấp dẫn để tạo ra sự đóng góp trên quy mô lớn, tạo ra một mối quan hệ thú vị. “tại sao bây giờ” đối với dữ liệu DAO.

Vượt qua bức tường dữ liệu

DAO dữ liệu đại diện cho một con đường đầy hứa hẹn để tạo ra các tập dữ liệu mới chất lượng cao và vượt qua bức tường dữ liệu trong AI. Vẫn còn phải xem chính xác làm thế nào điều đó thành hiện thực, nhưng chúng tôi rất vui khi thấy không gian này phát triển.

Nếu bạn là người xây dựng làm việc trong lĩnh vực này, vui lòng liên hệ—chúng tôi rất mong nhận được phản hồi từ bạn.

Cảm ơn Matt Lim , Tom Hamer , Anastasios Angelopoulos , Nish Bhat vì đánh giá của họ và nhóm Variant vì những cuộc trò chuyện của họ đã đóng góp cho những ý tưởng này!

Cảm ơn đã đọc bản tin của Li! Đăng ký miễn phí để nhận bài viết mới và hỗ trợ công việc của tôi.

Khu vực:
Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận