以提供盗版电子书和学术论文搜寻服务而闻名的秘密图书馆Anna's Archive本周末宣布了一项可能是历史上最大的音乐盗版行动:“我们备份了 Spotify。”
该组织声称他们从Spotify抓取了8,600万个音讯文件,占该平台用户实际收听内容的99.6%。总大小略低于300TB,透过大量BT下载传播。
Spotify对此很不高兴。发言人告诉Billboard ,「第三方抓取了公开的元数据,并使用非法手段绕过DRM(数位版权管理),获取了平台上的部分音讯档案。」注意这里措辞很谨慎:「部分」音讯档案。 Anna's Archive网站称有8,600万个音讯档案被偷走。 Spotify并未证实这个数字。该公司还称该组织为「反版权极端分子」 ,他们先前曾盗版YouTube的内容。
那么,除了剽窃 Spotify 和主要依靠版税收入的录音艺术家之外,他们究竟得到了什么?
Anna's Archive 声称拥有 Spotify 曲库中 2.56 亿首歌曲中 99% 的元数据,其中包括 8600 万首真正重要的歌曲(也就是人们经常播放的歌曲)的音讯档案。仅元资料资料库就包含 1.86 亿个唯一的 ISRC(国际标准录音代码)。相较之下,最大的合法开放音乐资料库MusicBrainz 的ISRC 数量约为 500 万。 Anna's Archive 建构的资料库规模是 MusicBrainz 的 37 倍。
热门歌曲以原始的 OGG Vorbis 格式(160 kbps)保留,未进行重新编码,因此音质无损。不太热门的歌曲则被压缩成 OGG Opus 格式(75 kbps)以节省空间。团队使用 Spotify 的流行度指标来确定优先抓取哪些歌曲,并专注于流行度得分高于零的歌曲。
Spotify 2.56 亿首歌曲中,超过 70% 的歌曲流行度得分为零,几乎无人问津。前 1 万的歌曲流行度得分在 70 到 100 之间。只有约 21 万首歌曲(约占曲库的 0.1%)流行度得分达到 50 或更高。而这 0.1% 的歌曲却占了绝大部分的收听量。
目前Spotify播放量最高的三首歌分别是:Lady Gaga和Bruno Mars的《Die With A Smile》(30.7亿次播放)、Billie Eilish的《BIRDS OF A FEATHER》(31.3亿次播放)以及Bad Bunny的《DtMF》(11.2亿次播放)。这三首歌的总播放量就超过了播放量最低的2000万到1亿首歌的总和。
换句话说,Spotify 基本上就是一个歌曲坟场,里面堆满了无人问津的歌曲。 Spotify 决定不把这个「坟场」(完整的曲库)存档——因为仅仅占收听量 0.04% 的内容,就需要额外 700 TB 的储存空间。而且,其中很多都是人工智慧生成的垃圾歌曲。
安娜档案馆发表了对他们发现的详细分析。其中有些结果在意料之中,有些则令人匪夷所思。
歌曲长度明显集中在 2 分钟、3 分钟和 4 分钟这几个时段。团队表示他们也不知道原因。自 2015 年以来,专辑发行量呈指数级增长,仅在 2023 年就预计将发行超过 1000 万张专辑——这很可能是由人工智慧生成和自动上传驱动的。
电子/舞曲是艺人数量最多的音乐类型(520,075),其次是摇滚(370,179)和世界/传统音乐(202,529)。
另外,信不信由你,歌剧、合唱和室内乐这三个子流派的艺术家数量最多。
音频特征数据显示,响度与能量密切相关(这并不令人意外),BPM 值集中在 120 左右,呈正态分布,大多数曲目的“人声”和“乐器”得分较低——这意味著人声占主导地位。 C 大调和 G 大调是最常见的调。 Spotify 上约有 13.5% 的曲目被标记为包含露骨内容。
Anna's Archive 将此举定义为保存而非盗版。 「我们认为我们在这里可以发挥作用,建立一个主要以保存为目标的音乐档案馆,」该组织在其部落格文章中写道。他们认为,现有的音乐存档工作过于专注于流行歌手和发烧级音质格式(无损 FLAC),导致一些冷门音乐一旦平台改变政策或关闭,就很容易消失。
这话不无道理。 Spotify 控制著 2.56 亿首歌曲,可以删除内容、更改授权条款,甚至彻底消失。而去中心化的种子分发方式则创造了冗余机制,任何单一实体都无法关闭。数据已经分散在全球数千个种子节点。
但说实话,这其实就是盗版。 Spotify 给艺术家的报酬是每次播放0.003 到 0.005 美元。根据 Dittomusic 的 Spotify 收入计算器,100 万次播放量能为艺术家带来 4,370 美元的版税。而透过种子文件免费传播,连这点微薄的收入都拿不到。
这两件事同时成立。
Anna's Archive 已面临越来越大的法律压力。比利时于2025 年 7 月发布了封锁令,并处以最高 50 万欧元的罚款。英国于 2024 年 12 月通过高等法院获得了封锁令。德国的主要网路服务供应商于 2025 年 10 月封锁了该网站的主要网域。根据Google自身的透明度报告,Google已从搜寻结果中移除了7.49 亿个Anna's Archive 的 URL——这占该搜寻引擎自 2012 年以来收到的所有 DMCA 删除请求的 5%。
网路档案馆(Internet Archive)是一家合法的非营利机构,它因其「伟大78计划」(Great 78 Project)将过时的78转唱片数位化而与出版商达成和解,此前出版商索赔6.21亿美元。而安娜档案馆(Anna's Archive)刚刚存档的曲目数量是其3.1万倍,而且全部都是当下热门的流行歌曲。音乐产业的法律回应会让网路档案馆的案例显得微不足道。
在Hacker News上,评论者们就 Spotify 的便利性是否足以满足消费者需求展开了辩论。有人指出,Anna's Archive 已经以数万美元的价格提供「企业级」图书库存取权限——本质上是将大量资料出售给人工智慧公司用于训练。
目前,只有元数据已完全发布。音讯档案正透过大量种子逐步发布,首先发布的是最热门的曲目。 Anna's Archive 请求用户帮忙做种,并表示如果需求足够,他们可能会添加单一文件的下载。
诉讼很可能即将到来。唯一的问题是,存档能否在诉讼中幸存下来——但到了现在,这可能已经无关紧要了。资料已经存在于网路上,分布在成千上万个节点上,这些节点无法被集中关闭。这正是BT下载的意义。





