Sự nghiện dữ liệu của Big Tech đang phá vỡ AI

Bài viết này được dịch máy
Xem bản gốc
Sự nghiện dữ liệu của Big Tech đang phá vỡ AI

LLaMA-4 của Meta được ra mắt với kỳ vọng cao. Thay vào đó , nó đã gây thất vọng . So với phiên bản tiền nhiệm, nó cung cấp khả năng lý luận yếu hơn, nhiều ảo giác hơn và hiệu suất tổng thể giảm sút. Theo Johanna Cabildo , CEO của D-GN, lý do không phải là thiếu khả năng tính toán hoặc cải tiến mà là dữ liệu.

Sau khi đã khai thác hết nguồn cung cấp văn bản sạch, đa dạng và chất lượng cao trên internet, Meta chuyển sang dữ liệu tổng hợp: nội dung do AI tạo ra được sử dụng để đào tạo AI mới hơn. Điều này tạo ra một vòng lặp trong đó các mô hình tự học hỏi, mất đi độ chính xác và chiều sâu sau mỗi chu kỳ.

Những người chơi lớn khác—OpenAI, Google, Anthropic—cũng phải đối mặt với tình thế tiến thoái lưỡng nan tương tự. Thời đại của dữ liệu đào tạo thực tế phong phú đã kết thúc. Những gì còn lại là chất độn tổng hợp . Kết quả là, tiến trình đang bị đình trệ và ảo tưởng về sự tiến bộ đang che giấu sự suy giảm âm thầm.

Ai sở hữu dữ liệu?

Chỉ số AI Stanford năm 2024 báo cáo rằng tám công ty hiện kiểm soát 89% dữ liệu và cơ sở hạ tầng đào tạo AI toàn cầu. Điều này không chỉ liên quan đến sức mạnh thị trường. Nó ảnh hưởng đến kiến ​​thức nào được nhúng vào AI và quan điểm nào bị loại trừ.

Các mô hình được đào tạo trên các tập dữ liệu thiên vị hoặc hẹp có thể củng cố tác hại trong thế giới thực. Các công cụ AI được xây dựng trên hồ sơ chăm sóc sức khỏe của Hoa Kỳ chẩn đoán sai bệnh nhân ở các quốc gia khác. Hệ thống tuyển dụng phạt những ứng viên có tên không phải của phương Tây . Nhận dạng khuôn mặt kém chính xác hơn trên làn da sẫm màu, đặc biệt là đối với phụ nữ. Bộ lọc tắt tiếng phương ngữ của nhóm thiểu số vì xúc phạm hoặc không liên quan.

Khi các mô hình dựa nhiều hơn vào dữ liệu tổng hợp, các lỗi sẽ trở nên tệ hơn. Các nhà nghiên cứu cảnh báo về các vòng lặp đệ quy tạo ra "những điều vô nghĩa được đánh bóng"—văn bản nghe có vẻ đúng nhưng lại chứa các sự kiện bịa đặt. Đến đầu năm 2025, Columbia Journalism Review phát hiện ra rằng Google Gemini chỉ đưa ra các trích dẫn hoàn toàn chính xác 10% thời gian. Các hệ thống này càng được đào tạo trên các đầu ra lỗi của chính chúng, thì chúng càng nhanh hỏng.

Bị khóa trong, bị khóa ngoài

Các công ty AI xây dựng mô hình của họ trên nền tảng kiến ​​thức công khai có sẵn—sách, Wikipedia, diễn đàn và thậm chí cả các bài báo. Nhưng hiện tại, các công ty đó đang ngăn chặn mô hình của họ và kiếm tiền từ quyền truy cập.

Vào cuối năm 2023, tờ New York Times đã kiện OpenAI và Microsoft vì sử dụng trái phép nội dung của mình. Trong khi đó, Reddit và Stack Overflow đã ký kết các thỏa thuận cấp phép độc quyền , cho phép OpenAI truy cập vào nội dung do người dùng tạo ra trước đây mở cho tất cả mọi người.

Chiến lược này rất rõ ràng: thu thập kiến ​​thức công cộng miễn phí, kiếm tiền từ kiến ​​thức đó và khóa kiến ​​thức đó đằng sau API. Các công ty đã hưởng lợi từ hệ sinh thái mở hiện đang hạn chế quyền truy cập trong khi thúc đẩy dữ liệu tổng hợp như một giải pháp thay thế bền vững—mặc dù có nhiều bằng chứng cho thấy nó làm giảm hiệu suất của mô hình. AI không thể tiến hóa bằng cách tự học hỏi. Không có hiểu biết sâu sắc nào trong gương.

Một con đường khác

Việc khắc phục cuộc khủng hoảng dữ liệu của AI không đòi hỏi nhiều khả năng tính toán hơn hay mô hình lớn hơn mà đòi hỏi phải thay đổi cách thu thập, định giá và quản lý dữ liệu.

Công nghệ Web3 cung cấp một cách khả thi để tiến về phía trước. Blockchain có thể theo dõi dữ liệu đến từ đâu. Các hệ thống được mã hóa có thể đền bù công bằng cho những người đóng góp kiến ​​thức của họ. Các dự án như Morpheus Labs đã sử dụng các công cụ này để cải thiện hiệu suất AI tiếng Swahili lên 30%, chỉ bằng cách khuyến khích sự tham gia của cộng đồng.

Các công cụ bảo vệ quyền riêng tư như bằng chứng zero-knowledge bổ sung thêm một lớp tin cậy. Chúng giúp có thể đào tạo các mô hình về thông tin nhạy cảm—như hồ sơ y tế—mà không tiết lộ dữ liệu riêng tư. Điều này đảm bảo rằng các mô hình có thể học một cách có đạo đức trong khi vẫn mang lại hiệu suất cao.

Những ý tưởng này không phải là suy đoán. Các công ty khởi nghiệp hiện đang sử dụng các công cụ phi tập trung để xây dựng các hệ thống AI chính xác về mặt văn hóa và tôn trọng quyền riêng tư trên toàn thế giới.

Tái thiết tương lai

AI đang định hình các hệ thống định hình xã hội—giáo dục, y học, công việc và truyền thông. Câu hỏi trung tâm không còn là liệu AI có thống trị hay không mà là ai kiểm soát nó trở thành gì.

Chúng ta sẽ cho phép một số ít công ty tái chế sản phẩm đầu ra của chính họ, làm giảm chất lượng mô hình và củng cố sự thiên vị? Hay chúng ta sẽ đầu tư vào việc xây dựng một hệ sinh thái dữ liệu mới—một hệ sinh thái coi trọng tính minh bạch, công bằng và quyền sở hữu chung?

Vấn đề không phải là máy móc không có đủ dữ liệu. Vấn đề là dữ liệu mà chúng sử dụng ngày càng tổng hợp, hẹp và bị kiểm soát. Giải pháp là trả lại quyền lực cho những người tạo ra nội dung có ý nghĩa—và thưởng cho họ vì điều đó. AI tốt hơn bắt đầu với dữ liệu tốt hơn. Và dữ liệu tốt hơn bắt đầu từ chúng ta.

Bài đăng Sự nghiện dữ liệu của Big Tech đang phá vỡ AI xuất hiện đầu tiên trên Metaverse Post .

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận