Tinh thần kinh doanh trước tình trạng thiếu dữ liệu AI: Việc chiếm dụng dữ liệu do GPT-4 tạo ra để đào tạo mô hình đã gây lo ngại cho các nhà đầu tư

avatar
36kr
04-17
Bài viết này được dịch máy
Xem bản gốc

Theo báo cáo của truyền thông nước ngoài The Information ngày 15/4, trong lĩnh vực AI, nhiều chatbot do các công ty khởi nghiệp phát triển thực chất dựa trên dữ liệu và công nghệ do các công ty lớn như OpenAI cung cấp. Các dịch vụ chi phí thấp này có thể bắt chước hiệu suất của GPT-4 và Llama ở một mức độ nào đó, nhưng cách tiếp cận này có thể vi phạm yêu cầu sử dụng của những gã khổng lồ công nghệ này. Không chỉ vậy, việc bắt chước giá rẻ này còn có thể đe dọa đến thị thị phần và thu nhập của các công ty AI hùng mạnh.

Bản thân những gã khổng lồ AI cũng không thể thoát khỏi tranh chấp bản quyền và một số hành vi sử dụng dữ liệu trái phép đã gây ra nhiều tranh chấp và kiện tụng hơn. May mắn thay, nhận thức chung về bản quyền trong ngành đã thay đổi và OpenAI và Google đã đi đầu trong việc đạt được thỏa thuận cấp phép dữ liệu với các nhà xuất bản và trang web.

Ngoài ra, trong cuộc cạnh tranh thị trường phức tạp ngày nay, các nhà đầu tư cũng có những cân nhắc riêng. Họ không chỉ muốn thấy sự tiến bộ nhanh chóng trong ngành AI mà còn không sẵn sàng hỗ trợ các công ty khởi nghiệp “đi tắt đón đầu” trong nghiên cứu và phát triển công nghệ. Bởi vì họ lo ngại những vi phạm quy tắc này có thể có tác động tiêu cực đến sự bền vững và danh tiếng lâu dài của công ty khởi nghiệp.

1. Một cách mới để các công ty AI khởi nghiệp: sử dụng GPT-4 để tạo mô hình đào tạo nội dung

Các nhà phát triển tận dụng mô hình tiên tiến nhất của OpenAI, GPT-4, làm nguồn tài nguyên giúp đẩy nhanh quá trình nghiên cứu và phát triển của họ. Họ đặt câu hỏi về mô hình để hiểu rõ hơn và đưa ra đề xuất về các vấn đề cụ thể. Ví dụ: Có gì sai với dòng mã này? Các câu trả lời sau đó được sử dụng để cải thiện mô hình của riêng họ.

Một người sáng lập giúp các nhà phát triển xây dựng AI đàm thoại ước tính rằng khoảng một nửa số khách hàng của anh ấy đã tạo ra một số dữ liệu từ các mô hình Claude của OpenAI hoặc GPT-4 của Anthropic và sử dụng dữ liệu để cải thiện các mô hình của riêng họ.

Nhiều nhà phát triển không cần đào tạo mô hình từ đầu. Quá trình phát triển các mô hình quy mô nhỏ thường dựa trên các mô hình mã nguồn mở mã nguồn mở phổ biến được cung cấp miễn phí, chẳng hạn như các mô hình từ Meta hoặc Mistral AI. Sau đó, họ đã cải thiện đáng kể các mô hình quy mô nhỏ này bằng cách thêm câu trả lời từ các mô hình OpenAI.

Đối với một số công ty, rủi ro vi phạm các quy tắc bằng văn bản hoặc bất thành văn có thể đáng giá. Trong lĩnh vực AI tạo ra có tính cạnh tranh cao, điều quan trọng là phải có được dữ liệu chất lượng cao để đào tạo hoặc hoàn thiện các mô hình. Bất kỳ startup AI nào cũng biết rằng nếu thiếu nguồn dữ liệu đào tạo sẽ bị tụt hậu.

Ngay cả các công ty công nghệ lớn cũng không thể cưỡng lại sự cám dỗ của sự “tiện lợi” như vậy. Các ví dụ bao gồm việc Google sao chép các video trên YouTube để đào tạo các mô hình AI của mình và Meta thuê các nhà thầu châu Phi tóm tắt các cuốn sách có bản quyền để đào tạo các mô hình AI của mình, tờ Times đưa tin. Ngoài ra, Bloomberg còn đưa tin rằng Adobe đã sử dụng các bức ảnh do AI tạo ra do công ty khởi nghiệp Midjourney cung cấp để đào tạo phần mềm tạo hình ảnh Firefly của mình.

Năm ngoái, một kỹ sư AI cấp cao của Google đã từ chức để phản đối sau khi nêu lên lo ngại về việc công ty sử dụng dữ liệu ChatGPT của OpenAI để đào tạo các mô hình của chính Google, The Information đưa tin.

Nhưng một số nhà phát triển không muốn chủ động thừa nhận việc họ sử dụng các mô hình mã nguồn mở. Một khi hành vi này bị công khai, công ty của họ sẽ rơi vào tình thế khó xử. Chẳng hạn, Mistral AI ở Paris và Zero One Wish ở Bắc Kinh đã phải thừa nhận rằng họ đã sử dụng mô hình mã nguồn mở Llama 2 của Meta làm nền tảng cho việc phát triển sản phẩm của mình sau sự cố rò rỉ thông tin.

Khi ngày càng nhiều công ty phát triển các mô hình bắt nguồn từ các mô hình khác, chúng có thể trở nên không thể phân biệt được. Điều này có thể làm xói mòn lợi thế cạnh tranh của các công ty hàng đầu như OpenAI, vốn sẽ cạnh tranh về giá khi khách hàng chọn những mẫu rẻ hơn, tiện lợi hơn so với những mẫu cao cấp và đắt tiền nhất.

2. Altman nới lỏng các hạn chế đối với việc sử dụng ChatGPT và OpenAI trước đây đã từng vướng vào các tranh chấp bản quyền.

OpenAI cùng với các công ty AI hàng đầu khác như Anthropic và Google cấm hành vi này về mặt kỹ thuật. Tuy nhiên, Giám đốc điều hành OpenAI Sam Altman đã đề cập trong cuộc trò chuyện với các nhà sáng lập công ty khởi nghiệp tại một hội nghị rằng những người sáng lập doanh nghiệp nhỏ có thể sử dụng công nghệ của OpenAI ở một mức độ nào đó.

Mặc dù câu trả lời của Altman khiến một số nhà sáng lập có mặt nhẹ nhõm hơn, nhưng họ có thể thay đổi quyết định bất cứ lúc nào nếu cách tiếp cận này gây tổn hại cho sự phát triển của OpenAI. Không rõ OpenAI, Google, Anthropic và các nhà phát triển lớn khác sẽ cho phép các đối thủ nhỏ hơn sao chép AI của họ một cách hiệu quả trong bao lâu.

Tuy nhiên, những gì công ty khởi nghiệp đang làm với dữ liệu OpenAI có những điểm tương đồng với những gì OpenAI và các nhà phát triển AI hàng đầu khác đang làm khi đào tạo các mô hình của riêng họ. Trong một cuộc phỏng vấn vào tháng trước, Mira Murati, giám đốc công nghệ của OpenAI, đã trả lời các câu hỏi về việc liệu các đồng nghiệp của cô có sử dụng dữ liệu từ YouTube và Instagram do Meta Platforms sở hữu để đào tạo Sora về Diễn xuất hay không.

Sẽ không có gì đáng ngạc nhiên nếu OpenAI sử dụng dữ liệu này. Một báo cáo gần đây của New York Times đã mô tả cách OpenAI tạo ra công cụ nhận dạng giọng nói Whisper để phiên âm các video YouTube nhằm cải thiện mô hình GPT-4 của nó. The Information trước đây đã đưa tin rằng công ty đã bí mật sử dụng dữ liệu YouTube để đào tạo các mô hình AI trước đây của mình. Đầu tháng này, Giám đốc điều hành YouTube Neal Mohan cho biết ông sẽ không chấp thuận việc OpenAI sử dụng video YouTube để phát triển các mô hình như Sora.

Điều này làm dấy lên những cáo buộc từ các nhà xuất bản tin tức và một số nhà văn. Vào tháng 12 năm ngoái, New York Times khởi kiện OpenAI và Microsoft, người ủng hộ lớn nhất của nó, cáo buộc họ sao chép trái phép các bài báo của New York Times khi đào tạo người mẫu. Vụ kiện cáo buộc rằng chatbot của OpenAI có thể tạo ra đầu ra nội dung hoàn chỉnh của New York Times.

Đáp lại, OpenAI lập luận rằng họ đã cố gắng thiết lập quan hệ đối tác với các nhà xuất bản tin tức và các hoạt động đào tạo của họ được cho phép theo nguyên tắc bản quyền của Hoa Kỳ theo “sử dụng hợp pháp”.

Tuy nhiên, cả OpenAI và Google đều đã đạt được các thỏa thuận cấp phép trị giá hàng triệu đô la với các nhà xuất bản, bao gồm Axel Springer và các thỏa thuận lớn hơn với các trang web lớn như Reddit.

Nhưng không phải nhà phát triển AI nào cũng đi lang thang trong “vùng xám”. Nhà khoa học trưởng của Databricks, Jonathan Frankle, cho biết công ty không dựa vào công việc của các đối thủ cạnh tranh khi phát triển các mô hình ngôn ngữ quy mô lớn mã mã nguồn mở mạnh mẽ. Người phát ngôn của Anthropic cũng cho biết hãng không sử dụng sản phẩm của các mẫu xe khác để đào tạo các mẫu xe cỡ lớn của riêng mình.

3. Các nhà đầu tư không muốn các công ty khởi nghiệp “đi đường tắt” và dữ liệu tổng hợp có thể trở thành nguồn đào tạo mới.

Một số nhà đầu tư cảm thấy khó chịu với những công ty “đi tắt đón đầu” hoặc phát triển công nghệ không thể phân biệt được với đối thủ cạnh tranh, bởi thực tế những công ty này không có công nghệ thực sự của riêng mình. Các nhà đầu tư muốn thấy sự tiến bộ nhanh chóng trong lĩnh vực AI và kết quả nghiên cứu khoa học tốt hơn so với các công ty cùng ngành.

Một số công ty đã huy động được hàng trăm triệu đô la tài trợ thậm chí còn không thừa nhận sử dụng các mô hình mã nguồn mở từ các công ty AI khác. Tình trạng này càng khiến nhà đầu tư Li không hài lòng hơn, cho rằng tính liêm chính của công ty có vấn đề. Matt Murphy, giám đốc điều hành tại Menlo Công ty đầu tư mạo hiểm, giải thích rằng đây là điều xảy ra trong một hệ sinh thái mới không có bộ quy tắc rõ ràng.

Dữ liệu tổng hợp là một giải pháp thay thế trong đó các công ty có thể sử dụng mô hình AI của riêng họ để tạo dữ liệu thay vì lấy nội dung nguồn trực tuyến. Ví dụ: Google và Meta cho biết họ sử dụng dữ liệu tổng hợp để xây dựng mô hình giải các bài toán hình học và tạo mã máy tính. Vì AI có thể tạo ra loại dữ liệu này nên nó tránh được nhiều vấn đề pháp lý khi sử dụng nội dung do con người tạo ra.

Trong khi đó, hàng chục công ty khởi nghiệp AI đang thu thập dữ liệu riêng tư từ các ngành như chăm sóc sức khỏe và công ty luật để phát triển các mô hình cho các mục đích sử dụng cụ thể.

Kết luận: Việc bắt chước AI sáng tạo tiếp tục hỗn loạn và OpenAI có thái độ khoan dung

Nhiều mô hình AI lớn do các công ty khởi nghiệp phát triển có khả năng sử dụng dữ liệu từ OpenAI và các công ty khác, mặc dù các công ty khởi nghiệp này đang cố gắng làm suy yếu OpenAI. Cách tiếp cận này đã trở thành bí mật mở trong ngành, dẫn đến tình trạng cạnh tranh trong đó công nghệ giống nhau nhưng giá giảm nửa.

Trong khi các công ty khởi nghiệp như OpenAI duy trì thái độ khoan dung đối với các trường hợp sử dụng quy mô nhỏ, một số công ty vẫn không chủ động tiết lộ rằng họ sử dụng công nghệ của người khác trong quá trình phát triển. Họ cho rằng sự thừa nhận này có thể khiến công ty gặp rủi ro.

Trong mọi trường hợp, tình trạng thiếu dữ liệu để đào tạo các mô hình lớn và áp lực cạnh tranh tăng trưởng vẫn đang gia tăng. Hiện tại, dữ liệu tổng hợp vẫn đang trong giai đoạn khám phá. Chúng tôi mong muốn các công ty AI sẽ đào tạo mô hình tiên tiến hơn và thu thập dữ liệu.

Bài viết này xuất phát từ tài khoản công khai WeChat "Zhidixi" (ID: zhidxcom), được biên soạn bởi: Giraffe, biên tập viên: Li Shuiqing, 36 Krypton được xuất bản với sự cho phép.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận