Shadow 'Archive' tuyên bố đã sao chép gần như toàn bộ kho nhạc của Spotify.

avatar
Decrypt
12-23
Bài viết này được dịch máy
Xem bản gốc

Anna's Archive , thư viện ngầm nổi tiếng với việc cho phép tìm kiếm sách điện tử và bài báo học thuật lậu, đã thông báo vào cuối tuần này về điều có thể là chiến dịch vi phạm bản quyền âm nhạc lớn nhất trong lịch sử: "Chúng tôi đã sao lưu Spotify."

Nhóm này tuyên bố đã thu thập được 86 triệu tệp âm thanh từ Spotify, chiếm 99,6% tổng số nội dung mà người dùng thực sự nghe trên nền tảng này. Tổng dung lượng: gần 300 terabyte, được phân phối thông qua các tập tin torrent.

Spotify không hài lòng. Một người phát ngôn nói với Billboard rằng "một bên thứ ba đã thu thập siêu dữ liệu công khai và sử dụng các chiến thuật bất hợp pháp để vượt qua DRM nhằm truy cập một số tệp âm thanh của nền tảng." Hãy chú ý đến cách dùng từ cẩn thận ở đây: "một số" tệp âm thanh. Anna's Archive cho biết con số là 86 triệu. Spotify không xác nhận quy mô này. Công ty cũng gọi nhóm này là "những kẻ cực đoan chống bản quyền" từng vi phạm bản quyền nội dung trước đó.

Vậy, ngoài việc lừa đảo Spotify—và các nghệ sĩ thu âm, những người có thu nhập chủ yếu đến từ tiền bản quyền—thì chính xác họ đã nhận được gì?

Anna's Archive tuyên bố sở hữu siêu dữ liệu cho 99% thư viện 256 triệu bài hát của Spotify, bao gồm cả các tệp âm thanh của 86 triệu bài hát thực sự quan trọng—những bài hát mà mọi người thường xuyên nghe. Riêng cơ sở dữ liệu siêu dữ liệu đã chứa 186 triệu mã ISRC (Mã Ghi âm Tiêu chuẩn Quốc tế) duy nhất. Để so sánh, MusicBrainz , cơ sở dữ liệu âm nhạc mở hợp pháp lớn nhất, chỉ có khoảng 5 triệu mã. Anna's Archive vừa xây dựng một hệ thống lớn hơn gấp 37 lần.

Các bản nhạc phổ biến được giữ nguyên ở định dạng OGG Vorbis gốc với tốc độ 160 kilobit/giây—không mã hóa lại, không mất chất lượng. Những bản nhạc ít phổ biến hơn được nén thành OGG Opus ở tốc độ 75 kbps để tiết kiệm dung lượng. Nhóm đã sử dụng chỉ số độ phổ biến của Spotify để ưu tiên những bản nhạc cần tải về trước, tập trung vào những bản nhạc có điểm phổ biến trên 0.

Hơn 70% trong số 256 triệu bài hát trên Spotify có điểm phổ biến chính xác bằng 0. Không ai nghe chúng cả. 10.000 bài hát hàng đầu có điểm phổ biến từ 70 đến 100. Chỉ có khoảng 210.000 bài hát—khoảng 0,1% tổng số bài hát—có điểm phổ biến từ 50 trở lên. Chính 0,1% này lại chiếm phần lớn tổng số lượt nghe nhạc trên Spotify.

Ba bài hát đứng đầu bảng xếp hạng Spotify hiện nay là gì? Đó là "Die With A Smile" của Lady Gaga và Bruno Mars (3,07 tỷ lượt stream), "BIRDS OF A FEATHER" của Billie Eilish (3,13 tỷ lượt stream), và "DtMF" của Bad Bunny (1,12 tỷ lượt stream). Chỉ riêng ba bài hát này đã có tổng số lượt nghe nhiều hơn tổng số lượt nghe của 20 đến 100 triệu bài hát còn lại cộng lại.

Nói cách khác, Spotify chủ yếu là nghĩa địa của những bài hát mà chẳng ai bao giờ nghe. Nhóm này quyết định không lưu trữ nghĩa địa đó (toàn bộ danh mục) — vì việc đó sẽ đòi hỏi thêm 700 terabyte dung lượng lưu trữ cho nội dung chỉ chiếm 0,04% hoạt động nghe nhạc. Dù sao thì phần lớn trong số đó cũng chỉ là những nội dung rác do AI tạo ra.

Kho lưu trữ của Anna đã công bố bản phân tích chi tiết về những gì họ tìm thấy. Một số phát hiện có thể dự đoán được. Một số khác thì khá kỳ lạ.

Thời lượng các bài hát tập trung rõ rệt ở đúng 2:00, 3:00 và 4:00 phút. Nhóm này cho biết họ không biết lý do tại sao. Số lượng album phát hành đã tăng vọt kể từ năm 2015, với hơn 10 triệu album được phát hành chỉ riêng trong năm 2023 — có thể do sự tạo ra bằng trí tuệ nhân tạo và việc tải lên tự động.

Nhạc điện tử/nhảy là thể loại lớn nhất về số lượng nghệ sĩ (520.075), tiếp theo là nhạc Rock (370.179) và nhạc thế giới/truyền thống (202.529).

Ngoài ra, dù bạn có tin hay không, opera, nhạc hợp xướng và nhạc thính phòng là những thể loại phụ có số lượng nghệ sĩ nhiều nhất.

Dữ liệu về đặc điểm âm thanh cho thấy độ lớn âm thanh tương quan mạnh mẽ với năng lượng (điều này không có gì đáng ngạc nhiên), nhịp độ (BPM) tập trung quanh mức 120 với phân bố chuẩn, và hầu hết các bản nhạc đều có điểm "giọng nói" và "nhạc cụ" thấp - nghĩa là giọng hát chiếm ưu thế. Đô trưởng và Sol trưởng là những giọng phổ biến nhất. Khoảng 13,5% tổng số bản nhạc trên Spotify được gắn thẻ nội dung khiêu dâm.

Anna's Archive coi đây là hoạt động bảo tồn, chứ không phải vi phạm bản quyền. "Chúng tôi nhận thấy vai trò của mình ở đây là xây dựng một kho lưu trữ âm nhạc chủ yếu nhằm mục đích bảo tồn," bài đăng trên blog viết. Nhóm này lập luận rằng các nỗ lực lưu trữ âm nhạc hiện có đang tập trung quá nhiều vào các nghệ sĩ nổi tiếng và các định dạng chất lượng cao dành cho người yêu âm thanh (FLAC không mất dữ liệu), khiến những tác phẩm âm nhạc ít người biết đến có nguy cơ biến mất nếu các nền tảng thay đổi chính sách hoặc ngừng hoạt động.

Điều đó có phần đúng. Spotify kiểm soát 256 triệu bài hát và có thể xóa nội dung, thay đổi điều khoản cấp phép hoặc biến mất hoàn toàn. Việc phân phối torrent phi tập trung tạo ra sự dư thừa mà không một thực thể nào có thể ngăn chặn được. Dữ liệu đã được phân tán trên hàng nghìn máy chủ torrent trên toàn thế giới.

Nhưng hãy thành thật mà nói, đây cũng chỉ là hành vi vi phạm bản quyền. Spotify trả cho nghệ sĩ khoảng từ 0,003 đến 0,005 đô la cho mỗi lượt phát. Theo công cụ tính toán doanh thu Spotify của Dittomusic, 1 triệu lượt phát sẽ mang lại cho nghệ sĩ 4370 đô la tiền bản quyền. Việc phân phối miễn phí qua torrent thậm chí còn loại bỏ khoản bồi thường tối thiểu đó.

Cả hai điều đó đều đúng cùng một lúc.

Anna's Archive đang phải đối mặt với áp lực pháp lý ngày càng gia tăng. Bỉ đã ban hành lệnh chặn với mức phạt lên tới 500.000 euro vào tháng 7 năm 2025. Anh đã giành được quyền chặn tại Tòa án Tối cao vào tháng 12 năm 2024. Các nhà cung cấp dịch vụ Internet lớn của Đức đã chặn các tên miền chính của trang web vào tháng 10 năm 2025. Theo báo cáo minh bạch của chính mình, Google đã xóa 749 triệu URL của Anna's Archive khỏi kết quả tìm kiếm — chiếm 5% tổng số yêu cầu gỡ bỏ theo DMCA mà công cụ tìm kiếm này nhận được kể từ năm 2012.

Internet Archive—một tổ chức phi lợi nhuận hợp pháp —đã dàn xếp một vụ kiện liên quan đến Dự án Great 78 của mình về việc số hóa các đĩa than 78rpm lỗi thời sau khi các nhà xuất bản đòi bồi thường 621 triệu đô la. Anna's Archive vừa lưu trữ số lượng bài hát nhiều gấp 31.000 lần, tất cả đều là những bài hát hiện hành, đều đang được nhiều người tìm kiếm. Phản ứng pháp lý của ngành công nghiệp âm nhạc sẽ khiến vụ kiện của Internet Archive trở nên lỗi thời.

Trên Hacker News , các bình luận viên đã tranh luận về việc liệu kho lưu trữ này có thực sự hữu ích cho người tiêu dùng hay không, khi mà Spotify đã mang lại sự tiện lợi. Một người chỉ ra rằng Anna's Archive đã cung cấp quyền truy cập "cấp doanh nghiệp" vào kho sách của mình với giá hàng chục nghìn đô la — về cơ bản là bán quyền truy cập dữ liệu số lượng lớn cho các công ty AI để đào tạo.

Hiện tại, chỉ có siêu dữ liệu được phát hành đầy đủ. Các tệp âm thanh đang được phân phối dần dần thông qua các torrent hàng loạt, bắt đầu với các bản nhạc phổ biến nhất. Anna's Archive đã yêu cầu người dùng giúp chia sẻ các torrent và cho biết họ có thể thêm tính năng tải xuống từng tệp riêng lẻ nếu có đủ sự quan tâm.

Các vụ kiện tụng có lẽ sắp xảy ra. Câu hỏi duy nhất là liệu kho lưu trữ có tồn tại sau những vụ kiện đó hay không—và ở thời điểm này, có lẽ điều đó không còn quan trọng nữa. Dữ liệu đã được phát tán, phân tán trên hàng nghìn máy chủ không thể bị tắt tập trung. Đó chính là mục đích của torrent.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận