Nghiên cứu khẳng định OpenAI đào tạo các mô hình AI trên dữ liệu có bản quyền

avatar
AI News
04-02
Bài viết này được dịch máy
Xem bản gốc

Một nghiên cứu mới từ Dự án Tiết lộ AI đã nêu ra những câu hỏi về dữ liệu mà OpenAI sử dụng để đào tạo các mô hình ngôn ngữ lớn (LLM). Nghiên cứu cho thấy mô hình GPT-4o của OpenAI thể hiện sự "nhận dạng mạnh" đối với dữ liệu bị hạn chế truy cập và có bản quyền từ sách của O'Reilly Media.

Dự án Tiết lộ AI, do nhà công nghệ Tim O'Reilly và nhà kinh tế học Ilan Strauss lãnh đạo, nhằm giải quyết những tác động xã hội có hại tiềm ẩn của việc thương mại hóa AI bằng cách vận động tăng cường tính minh bạch của doanh nghiệp và công nghệ. Bài nghiên cứu của dự án nêu bật sự thiếu hụt trong việc tiết lộ thông tin của AI, rút ra những điểm tương đồng với các tiêu chuẩn tiết lộ tài chính và vai trò của chúng trong việc thúc đẩy các thị trường chứng khoán vững mạnh.

Nghiên cứu đã sử dụng một tập dữ liệu được thu thập hợp pháp gồm 34 cuốn sách có bản quyền của O'Reilly Media để điều tra liệu các LLM của OpenAI có được đào tạo trên dữ liệu có bản quyền mà không có sự đồng ý hay không. Các nhà nghiên cứu đã áp dụng phương pháp tấn công suy luận thành viên DE-COP để xác định liệu các mô hình có thể phân biệt giữa văn bản O'Reilly do con người viết và các phiên bản được viết lại bằng LLM.

Những phát hiện chính từ báo cáo bao gồm:

  • GPT-4o thể hiện sự "nhận dạng mạnh" đối với nội dung sách O'Reilly bị hạn chế truy cập, với điểm AUROC là 82%. Ngược lại, mô hình GPT-3.5 Turbo của OpenAI không thể hiện cùng mức độ nhận dạng (điểm AUROC chỉ trên 50%)
  • GPT-4o thể hiện sự nhận dạng mạnh hơn đối với nội dung sách O'Reilly không công khai so với các mẫu có thể truy cập công khai (82% so với 64% điểm AUROC)
  • GPT-3.5 Turbo thể hiện sự nhận dạng tương đối lớn hơn đối với các mẫu sách O'Reilly có thể truy cập công khai so với các mẫu không công khai (64% so với 54% điểm AUROC)
  • GPT-4o Mini, một mô hình nhỏ hơn, không thể hiện kiến thức về nội dung O'Reilly Media công khai hay không công khai khi được kiểm tra (AUROC xấp xỉ 50%)

Các nhà nghiên cứu cho rằng các vi phạm truy cập có thể đã xảy ra thông qua cơ sở dữ liệu LibGen, vì tất cả các sách O'Reilly được kiểm tra đều được tìm thấy ở đó. Họ cũng thừa nhận rằng các LLM mới hơn có khả năng phân biệt tốt hơn giữa ngôn ngữ do con người viết và ngôn ngữ do máy tạo ra, điều này không làm giảm khả năng phân loại dữ liệu của phương pháp.

Nghiên cứu nhấn mạnh khả năng có "sự chệch hướng theo thời gian" trong kết quả, do sự thay đổi của ngôn ngữ theo thời gian. Để giải quyết vấn đề này, các nhà nghiên cứu đã kiểm tra hai mô hình (GPT-4o và GPT-4o Mini) được đào tạo trên dữ liệu từ cùng một giai đoạn.

Báo cáo ghi nhận rằng mặc dù bằng chứng cụ thể là về OpenAI và sách của O'Reilly Media, nhưng nó có khả năng phản ánh một vấn đề hệ thống xung quanh việc sử dụng dữ liệu có bản quyền. Báo cáo lập luận rằng việc sử dụng dữ liệu đào tạo không được bồi thường có thể dẫn đến sự suy giảm chất lượng và tính đa dạng của nội dung trên internet, khi các dòng doanh thu cho việc tạo nội dung chuyên nghiệp bị suy yếu.

Dự án Tiết lộ AI nhấn mạnh sự cần thiết phải có trách nhiệm giải trình mạnh mẽ hơn trong quá trình tiền đào tạo mô hình của các công ty AI. Họ đề xuất rằng các quy định về trách nhiệm pháp lý khuyến khích tăng cường tính minh bạch của doanh nghiệp trong việc tiết lộ nguồn gốc dữ liệu có thể là một bước quan trọng để tạo điều kiện cho các thị trường thương mại về cấp phép và bồi thường dữ liệu đào tạo.

Các yêu cầu tiết lộ của Đạo luật AI của EU có thể giúp kích hoạt một chu kỳ tiêu chuẩn tiết lộ tích cực nếu được quy định và thực thi đúng đắn. Việc đảm bảo rằng các chủ sở hữu sở hữu trí tuệ biết khi nào tác phẩm của họ được sử dụng trong việc đào tạo mô hình được coi là một bước quan trọng để thiết lập các thị trường AI cho dữ liệu của nhà sáng tạo nội dung.

Mặc dù có bằng chứng cho thấy các công ty AI có thể đang thu thập dữ liệu một cách bất hợp pháp để đào tạo mô hình, nhưng một thị trường đang nổi lên trong đó các nhà phát triển mô hình AI trả tiền cho nội dung thông qua các thỏa thuận cấp phép. Các công ty như Defined.ai tạo điều kiện mua dữ liệu đào tạo, thu được sự đồng ý từ các nhà cung cấp dữ liệu và loại bỏ thông tin nhận dạng cá nhân.

Báo cáo kết luận bằng việc nêu rõ rằng bằng cách sử dụng 34 cuốn sách độc quyền của O'Reilly Media, nghiên cứu cung cấp bằng chứng thực nghiệm cho thấy OpenAI có khả năng đã đào tạo GPT-4o trên dữ liệu không công khai và có bản quyền.

(Hình ảnh của Sergei Tokmakov)

Xem thêm: Anthropic cung cấp thông tin chi tiết về 'sinh học AI' của Claude

Biểu ngữ Triển lãm AI & Big Data, nơi khán giả sẽ nghe thêm về các vấn đề như việc OpenAI bị cho là sử dụng dữ liệu có bản quyền để đào tạo các mô hình mới của mình.

Bạn muốn tìm hiểu thêm về AI và big data từ các nhà lãnh đạo ngành? Hãy ghé thăm Triển lãm AI & Big Data diễn ra tại Amsterdam, California và London. Sự kiện toàn diện này được đồng tổ chức với các sự kiện hàng đầu khác bao gồm Hội nghị Tự động hóa Thông minh, BlockX, Tuần Chuyển đổi SốTriển lãm An ninh Mạng & Đám mây.

Khám phá các sự kiện và hội thảo trực tuyến về công nghệ doanh nghiệp sắp tới do TechForge cung cấp tại đây.

Bài viết Nghiên cứu cho rằng OpenAI đào tạo các mô hình AI trên dữ liệu có bản quyền xuất hiện đầu tiên trên Tin tức AI.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
1
Thêm vào Yêu thích
1
Bình luận