Các trang web lớn đang nói không với việc thu thập dữ liệu AI của Apple

08-29

Bài viết này được dịch máy

Xem bản gốc

Chưa đầy ba tháng sau khi Apple âm thầm ra mắt công cụ cho phép các nhà xuất bản từ chối tham gia chương trình đào tạo AI của mình, một số hãng tin tức và nền tảng xã hội lớn đã sử dụng công cụ này của công ty.

WIRED có thể xác nhận rằng Facebook, Instagram, Craigslist, Tumblr, The New York Times, The Financial Times, The Atlantic, Vox Media, mạng lưới USA Today và công ty mẹ của WIRED, Condé Nast, nằm trong số nhiều tổ chức lựa chọn loại trừ dữ liệu của họ khỏi chương trình đào tạo AI của Apple. Sự đón nhận lạnh nhạt phản ánh sự thay đổi đáng kể trong cả nhận thức và cách sử dụng các trình thu thập dữ liệu rô bốt đã lướt web trong nhiều thập kỷ. Giờ đây, khi Bots này đóng vai trò quan trọng trong việc thu thập dữ liệu đào tạo AI, chúng đã trở thành vùng xung đột về Sở hữu trí tuệ (IP) và tương lai của web.

Công cụ mới này, Applebot-Extended, là một phần mở rộng cho bot thu thập dữ liệu web của Apple, cho phép chủ sở hữu trang web yêu cầu Apple không sử dụng dữ liệu của họ để đào tạo AI. (Apple gọi đây là "kiểm soát việc sử dụng dữ liệu" trong một bài đăng trên blog giải thích cách thức hoạt động của nó.) Applebot ban đầu, được công bố vào năm 2015, ban đầu thu thập dữ liệu trên internet để cung cấp năng lượng cho các sản phẩm tìm kiếm của Apple như Siri và Spotlight. Tuy nhiên, gần đây, mục đích của Applebot đã mở rộng: Dữ liệu mà nó thu thập cũng có thể được sử dụng để đào tạo các mô hình nền tảng mà Apple đã tạo ra cho các nỗ lực AI của mình.

Applebot-Extended là một cách tôn trọng quyền của nhà xuất bản, theo phát ngôn viên của Apple, Nadine Haija. Trên thực tế, nó không ngăn Applebot gốc thu thập dữ liệu trang web—điều này sau đó sẽ ảnh hưởng đến cách nội dung của trang web đó xuất hiện trong các sản phẩm tìm kiếm của Apple—mà thay vào đó, ngăn dữ liệu đó được sử dụng để đào tạo các mô hình ngôn ngữ lớn của Apple và các dự án AI tạo sinh khác. Về bản chất, đây là một bot để tùy chỉnh cách hoạt động của một bot khác.

Các nhà xuất bản có thể Block Applebot-Extended bằng cách cập nhật tệp văn bản trên trang web của họ được gọi là Giao thức loại trừ robot hoặc robots.txt. Tệp này đã quản lý cách Bots thực hiện việc thu thập dữ liệu trên web trong nhiều thập kỷ—và giống như chính các Bots , giờ đây nó là trung tâm của một cuộc chiến lớn hơn về cách AI được đào tạo. Nhiều nhà xuất bản đã cập nhật tệp robots.txt của họ để Block Bots AI từ OpenAI, Anthropic và các công ty AI lớn khác.

Robots.txt cho phép chủ sở hữu trang web Block hoặc cho phép Bots theo từng trường hợp cụ thể. Mặc dù không có nghĩa vụ pháp lý nào đối với Bots để tuân thủ những gì tệp văn bản nêu, nhưng việc tuân thủ là một chuẩn mực lâu đời. (Một chuẩn mực đôi khi bị bỏ qua: Đầu năm nay, một cuộc điều tra của WIRED đã tiết lộ rằng công ty khởi nghiệp AI Perplexity đã bỏ qua robots.txt và lén lút thu thập dữ liệu từ các trang web.)

Applebot-Extended còn quá mới nên tương đối ít trang web Block nó. Công ty khởi nghiệp phát hiện AI có trụ sở tại Ontario, Canada, Originality AI đã phân tích một mẫu gồm 1.000 trang web có lưu lượng truy cập cao vào tuần trước và phát hiện ra rằng khoảng 7 phần trăm - chủ yếu là các phương tiện truyền thông và tin tức - đang chặn Applebot-Extended. Tuần này, dịch vụ giám sát tác nhân AI Dark Visitors đã tiến hành phân tích riêng của mình về một mẫu khác gồm 1.000 trang web có lưu lượng truy cập cao và phát hiện ra rằng khoảng 6 phần trăm đã chặn bot. Xét về tổng thể, những nỗ lực này cho thấy rằng phần lớn chủ sở hữu trang web không phản đối các hoạt động đào tạo AI của Apple hoặc chỉ đơn giản là không biết đến tùy chọn Block Applebot-Extended.

Trong một phân tích riêng được tiến hành trong tuần này, nhà báo dữ liệu Ben Welsh phát hiện ra rằng chỉ hơn một phần tư các trang web tin tức mà ông khảo sát (294 trong số 1.167 ấn phẩm chủ yếu bằng tiếng Anh, có trụ sở tại Hoa Kỳ) đang chặn Applebot-Extended. Để so sánh, Welsh phát hiện ra rằng 53 phần trăm các trang web tin tức trong mẫu của ông Block bot của OpenAI. Google đã giới thiệu bot dành riêng cho AI của riêng mình, Google-Extended, vào tháng 9 năm ngoái; nó bị chặn bởi gần 43 phần trăm các trang web đó, một dấu hiệu cho thấy Applebot-Extended có thể vẫn nằm ngoài tầm ngắm. Tuy nhiên, như Welsh nói với WIRED, con số đã "dần dần" tăng lên kể từ khi ông bắt đầu tìm kiếm.

Welsh đang thực hiện một dự án đang theo dõi cách các hãng tin tiếp cận các tác nhân AI lớn. “Một Bit chia rẽ đã xuất hiện giữa các nhà xuất bản tin tức về việc họ có muốn Block Bots này hay không”, ông nói. “Tôi không có câu trả lời cho lý do tại sao mọi tổ chức tin tức đều đưa ra quyết định của mình. Rõ ràng là chúng ta có thể đọc về nhiều người trong số họ thực hiện các thỏa thuận cấp phép, trong đó họ được trả tiền để đổi lấy việc cho phép các Bots vào—có lẽ đó là một yếu tố”.

Năm ngoái, tờ New York Times đưa tin rằng Apple đang cố gắng đạt được thỏa thuận AI với các nhà xuất bản. Kể từ đó, các đối thủ cạnh tranh như OpenAI và Perplexity đã công bố quan hệ đối tác với nhiều hãng tin, nền tảng xã hội và các trang web phổ biến khác. "Rất nhiều nhà xuất bản lớn nhất thế giới rõ ràng đang áp dụng cách tiếp cận chiến lược", Jon Gillham, người sáng lập Originality AI, cho biết. "Tôi nghĩ trong một số trường hợp, có một chiến lược kinh doanh liên quan - chẳng hạn như giữ lại dữ liệu cho đến khi có thỏa thuận hợp tác".

Có một số bằng chứng ủng hộ lý thuyết của Gillham. Ví dụ, các trang web của Condé Nast từng Block trình thu thập dữ liệu web của OpenAI. Sau khi công ty công bố quan hệ đối tác với OpenAI vào tuần trước, họ đã bỏ chặn Bots của công ty này. (Condé Nast từ chối bình luận về hồ sơ cho câu chuyện này.) Trong khi đó, người phát ngôn của Buzzfeed, Juliana Clifton, nói với WIRED rằng công ty, hiện đang chặn Applebot-Extended, đưa mọi bot thu thập dữ liệu web AI mà họ có thể xác định vào danh sách Block của mình trừ khi chủ sở hữu của nó đã tham gia vào quan hệ đối tác—thường là trả phí—với công ty, công ty cũng sở hữu Huffington Post.

Vì robots.txt cần được chỉnh sửa thủ công và có rất nhiều tác nhân AI mới ra mắt, nên việc duy trì danh sách Block được cập nhật có thể rất khó khăn. "Mọi người không biết phải Block cái gì", Gavin King, người sáng lập Dark Visitors cho biết. Dark Visitors cung cấp dịch vụ freemium tự động cập nhật robots.txt của trang web khách hàng và King cho biết các nhà xuất bản chiếm một phần lớn trong số khách hàng của ông vì lo ngại về bản quyền.

Robots.txt có vẻ như là lãnh địa bí ẩn của các quản trị viên web—nhưng xét đến tầm quan trọng to lớn của nó đối với các nhà xuất bản kỹ thuật số trong thời đại AI, thì giờ đây nó là lãnh địa của các giám đốc điều hành truyền thông. WIRED đã biết rằng hai giám đốc điều hành từ các công ty truyền thông lớn trực tiếp quyết định Bots nào sẽ bị Block.

Một số cửa hàng đã lưu ý rõ ràng rằng họ Block các công cụ thu thập dữ liệu AI vì hiện tại họ không có quan hệ đối tác với chủ sở hữu của chúng. "Chúng tôi đang chặn Applebot-Extended trên tất cả các tài sản của Vox Media, như chúng tôi đã làm với nhiều công cụ thu thập dữ liệu AI khác khi chúng tôi không có thỏa thuận thương mại với bên kia", Lauren Starke, phó chủ tịch truyền thông cấp cao của Vox Media cho biết. "Chúng tôi tin vào việc bảo vệ giá trị của tác phẩm đã xuất bản của mình".

Những người khác sẽ chỉ mô tả lý luận của họ bằng những thuật ngữ mơ hồ—nhưng thẳng thắn!—“Nhóm đã xác định, tại thời điểm này, không có giá trị gì khi cho phép Applebot-Extended truy cập vào nội dung của chúng tôi”, giám đốc truyền thông của Gannett Lark-Marie Antón cho biết.

Trong khi đó, tờ New York Times, đơn vị đang kiện OpenAI về hành vi vi phạm bản quyền, chỉ trích bản chất từ chối tham gia của Applebot-Extended và những đơn vị tương tự. “Như luật pháp và các điều khoản dịch vụ của The Times nêu rõ, việc thu thập hoặc sử dụng nội dung của chúng tôi cho mục đích thương mại là hành vi bị nghiêm cấm nếu không có sự cho phép trước bằng văn bản của chúng tôi”, giám đốc truyền thông bên ngoài của NYT Charlie Stadtlander cho biết, đồng thời lưu ý rằng tờ Times sẽ tiếp tục thêm Bots trái phép vào danh sách Block khi tìm thấy chúng. “Điều quan trọng là luật bản quyền vẫn được áp dụng bất kể các biện pháp chặn kỹ thuật có được áp dụng hay không. Việc đánh cắp tài liệu có bản quyền không phải là điều mà chủ sở hữu nội dung cần từ chối tham gia”.

Không rõ liệu Apple có tiến gần hơn đến việc chốt thỏa thuận với các nhà xuất bản hay không. Tuy nhiên, nếu có, hậu quả của bất kỳ thỏa thuận cấp phép hoặc chia sẻ dữ liệu nào cũng có thể hiển thị trong các tệp robots.txt ngay cả trước khi chúng được công bố rộng rãi.

Gillham cho biết: “Tôi thấy thật hấp dẫn khi một trong những công nghệ quan trọng nhất của thời đại chúng ta đang được phát triển, và cuộc chiến giành dữ liệu đào tạo của công nghệ này lại diễn ra trên tệp văn bản thực sự khó hiểu này, công khai để tất cả chúng ta đều có thể xem”.

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan