Liệu chú thích dữ liệu, một “công việc khó khăn và mệt mỏi”, đang âm thầm trở nên phổ biến? @OpenledgerHQ, do Polychain dẫn đầu và được tài trợ hơn 11,2 triệu đô la, sử dụng cơ chế độc đáo của PoA+infini-gram để nhắm vào điểm đau bị bỏ qua từ lâu là “phân phối giá trị dữ liệu”. Chúng ta hãy phổ cập thêm từ góc độ kỹ thuật: 1) Thành thật mà nói, "tội lỗi gốc" lớn nhất của ngành AI hiện nay là sự phân phối giá trị dữ liệu không công bằng. Mục đích của PoA (Bằng chứng đóng góp) của OpenLedger là thiết lập một "hệ thống theo dõi bản quyền" cho các đóng góp dữ liệu. Cụ thể: Người đóng góp dữ liệu tải nội dung lên DataNet theo từng miền cụ thể và mỗi điểm dữ liệu được ghi lại vĩnh viễn cùng với dữ liệu và hàm băm nội dung của người đóng góp. Sau khi mô hình được đào tạo trên dữ liệu này, quá trình quy kết diễn ra trong giai đoạn suy luận, đó là khi mô hình tạo ra đầu ra. PoA theo dõi các điểm dữ liệu nào ảnh hưởng đến đầu ra đó bằng cách phân tích phạm vi khớp hoặc điểm ảnh hưởng, xác định ảnh hưởng theo tỷ lệ của dữ liệu của từng người đóng góp. Vì mô hình tạo ra phí thông qua suy luận, PoA đảm bảo lợi nhuận được phân phối chính xác dựa trên tác động của từng người đóng góp - tạo ra cơ chế khen thưởng minh bạch, công bằng và theo Chuỗi. Nói cách khác, PoA giải quyết mâu thuẫn cơ bản của kinh tế dữ liệu. Logic trong quá khứ rất đơn giản và thô sơ - các công ty AI thu được lượng dữ liệu khổng lồ miễn phí, sau đó kiếm bộn tiền bằng cách thương mại hóa các mô hình, trong khi những người đóng góp dữ liệu không nhận được gì. Tuy nhiên, PoA đã đạt được " sở hữu tư nhân dữ liệu " thông qua các phương tiện kỹ thuật, cho phép mỗi điểm dữ liệu tạo ra giá trị kinh tế rõ ràng. Tôi nghĩ rằng một khi cơ chế chuyển đổi này từ "mô hình ăn bám" sang "phân phối theo công việc" được triển khai, logic khích lệ đóng góp dữ liệu sẽ thay đổi hoàn toàn. Hơn nữa, PoA áp dụng chiến lược phân cấp để giải quyết vấn đề quy kết của các mô hình có kích thước khác nhau: đối với các mô hình nhỏ với hàng triệu tham số, ảnh hưởng của từng điểm dữ liệu có thể được ước tính bằng cách phân tích hàm ảnh hưởng của mô hình và lượng tính toán có thể được chấp nhận một cách khó khăn, nhưng đối với các mô hình tham số trung bình và lớn, phương pháp này trở nên không khả thi về mặt tính toán và không hiệu quả. Vào thời điểm này, vũ khí sát thủ Infini-gram phải được sử dụng. 2) Bây giờ câu hỏi đặt ra là, công nghệ infini-gram là gì? Vấn đề mà nó đang cố gắng giải quyết nghe có vẻ rất bất thường: trong một mô hình hộp đen với các tham số trung bình đến lớn, theo dõi chính xác nguồn dữ liệu của mỗi mã thông báo đầu ra. Phương pháp quy kết truyền thống chủ yếu dựa vào việc phân tích các hàm tác động của mô hình, nhưng về cơ bản chúng vô dụng khi đối mặt với các mô hình lớn. Lý do rất đơn giản: mô hình càng lớn, các phép tính nội bộ càng phức tạp và chi phí phân tích tăng trưởng theo cấp số nhân, trở nên không khả thi về mặt tính toán và không hiệu quả. Điều này hoàn toàn không thực tế trong các ứng dụng thương mại. Infini-gram có cách tiếp cận hoàn toàn khác: vì mô hình quá phức tạp bên trong, nên nó tìm kiếm các kết quả khớp trực tiếp trong dữ liệu gốc. Nó xây dựng một chỉ mục dựa trên mảng hậu tố và thay thế n-gram cửa sổ cố định truyền thống bằng hậu tố khớp dài nhất được chọn động. Nói một cách đơn giản, khi mô hình đưa ra một chuỗi, Infini-gram sẽ xác định kết quả khớp chính xác dài nhất trong dữ liệu đào tạo cho mỗi ngữ cảnh mã thông báo. Dữ liệu hiệu suất mà điều này mang lại thực sự đáng kinh ngạc. Chỉ mất 20 mili giây để truy vấn một tập dữ liệu thông báo 1,4 nghìn tỷ và chỉ có 7 byte được lưu trữ cho mỗi mã thông báo. Quan trọng hơn, không cần phải phân tích cấu trúc bên trong của mô hình hoặc thực hiện các phép tính phức tạp để phân bổ chính xác. Đối với các công ty AI coi mô hình là bí mật thương mại, đây là giải pháp được thiết kế riêng. Bạn nên biết rằng các giải pháp phân bổ dữ liệu trên thị trường không hiệu quả, không chính xác hoặc yêu cầu truy cập vào cấu trúc bên trong của mô hình. Infini-gram đã tìm thấy sự cân bằng ở cả ba chiều. 3) Ngoài ra, tôi cảm thấy khái niệm dataNets trên Chuỗi dữ liệu do OpenLedger đề xuất đặc biệt hợp thời. Không giống như giao dịch một lần của các giao dịch dữ liệu truyền thống, DataNets cho phép những người đóng góp dữ liệu liên tục được hưởng phần chia lợi nhuận trong lý luận khi dữ liệu được sử dụng. Trước đây, việc dán nhãn dữ liệu là một công việc nhàm chán với ít lợi nhuận và chỉ mang lại một lần. Bây giờ nó đã trở thành tài sản có lợi nhuận liên tục và logic khích lệ hoàn toàn khác. Trong khi hầu hết các dự án AI+Crypto vẫn đang làm việc trên các lĩnh vực tương đối trưởng thành như cho thuê tỷ lệ băm và đào tạo mô hình, OpenLedger đã chọn lĩnh vực khó khăn nhất là phân bổ dữ liệu. Công nghệ này có thể định nghĩa lại phía cung cấp dữ liệu AI. Xét cho cùng, trong thời đại mà chất lượng dữ liệu là vua, bất kỳ ai có thể giải quyết được vấn đề phân phối giá trị dữ liệu sẽ có thể thu hút được các nguồn dữ liệu tốt nhất. bên trên. Nhìn chung, sự kết hợp giữa OpenLedgerPoA + Infini-gram không chỉ giải quyết được các vấn đề kỹ thuật mà quan trọng hơn là cung cấp một logic phân phối giá trị hoàn toàn mới cho toàn bộ ngành. Khi cuộc chạy đua vũ trang về sức mạnh tỷ lệ băm dần lắng xuống và sự cạnh tranh dữ liệu trở nên gay gắt hơn, loại lộ trình kỹ thuật này chắc chắn sẽ không phải là một lộ trình biệt lập. Sẽ có một tình huống mà nhiều giải pháp cạnh tranh song song trong lộ trình này - một số tập trung vào độ chính xác của việc quy kết, một số tập trung vào hiệu quả chi phí và một số tập trung vào tính dễ sử dụng. Mỗi giải pháp đều đang khám phá giải pháp tối ưu cho việc phân phối giá trị dữ liệu. Cuối cùng, cái nào sẽ chiến thắng sẽ phụ thuộc vào việc liệu nó có thực sự thu hút đủ nhà cung cấp dữ liệu và nhà phát triển hay không.
Bài viết này được dịch máy
Xem bản gốc
Từ Twitter
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận
Chia sẻ
Nội dung liên quan




