Apple이 출판사들이 자사의 AI 훈련 에서 탈퇴할 수 있는 도구를 조용히 선보인 지 3개월도 채 되지 않아, 여러 유명 뉴스 매체와 소셜 플랫폼에서 Apple의 이 같은 방침을 지지하고 나섰습니다.
WIRED는 Facebook, Instagram, Craigslist, Tumblr, The New York Times, The Financial Times, The Atlantic, Vox Media, USA Today 네트워크, 그리고 WIRED의 모회사인 Condé Nast가 Apple의 AI 훈련에서 데이터를 제외하기로 선택한 많은 조직 중 하나라는 것을 확인할 수 있습니다. 냉담한 반응은 수십 년 동안 웹을 탐색해 온 로봇 크롤러에 대한 인식과 사용 모두에서 상당한 변화를 반영합니다. 이제 이러한 봇이 AI 훈련 데이터를 수집하는 데 중요한 역할을 함에 따라, 그들은 지적 재산권(IP) 과 웹의 미래에 대한 갈등 지역이 되었습니다.
이 새로운 도구인 Applebot-Extended는 Apple의 웹 크롤링 봇에 대한 확장 기능으로, 특히 웹사이트 소유자가 Apple에 데이터를 AI 훈련에 사용하지 말라고 말할 수 있도록 합니다. (Apple은 작동 방식을 설명하는 블로그 게시물 에서 이를 "데이터 사용 제어"라고 부릅니다.) 2015년에 발표된 원래 Applebot은 처음에는 Siri와 Spotlight과 같은 Apple의 검색 제품을 구동하기 위해 인터넷을 크롤링했습니다. 하지만 최근 Applebot의 목적이 확대되었습니다. 수집한 데이터는 Apple이 AI 노력을 위해 만든 기본 모델을 훈련하는 데에도 사용할 수 있습니다.
Apple 대변인 나딘 하이자는 Applebot-Extended가 퍼블리셔의 권리를 존중하는 방법이라고 말합니다. 실제로 원래 Applebot이 웹사이트를 크롤링하는 것을 막지는 않습니다. 그러면 해당 웹사이트의 콘텐츠가 Apple 검색 제품에 표시되는 방식에 영향을 미칩니다. 대신 해당 데이터가 Apple의 대규모 언어 모델과 기타 생성 AI 프로젝트를 훈련하는 데 사용되는 것을 방지합니다. 본질적으로 다른 봇의 작동 방식을 사용자 지정하는 봇입니다.
퍼블리셔는 웹사이트에서 Robots Exclusion Protocol 또는 robots.txt라는 텍스트 파일을 업데이트하여 Applebot-Extended를 블록 수 있습니다. 이 파일은 수십 년 동안 봇이 웹을 스크래핑하는 방식을 관리해 왔으며, 봇 자체와 마찬가지로 이제 AI가 훈련되는 방식을 둘러싼 더 큰 싸움의 중심에 있습니다. 많은 퍼블리셔는 이미 robots.txt 파일을 업데이트 하여 OpenAI, Anthropic 및 기타 주요 AI 플레이어의 AI 봇을 블록 했습니다.
Robots.txt는 웹사이트 소유자가 사례별로 봇을 블록 하거나 허용할 수 있도록 합니다. 봇이 텍스트 파일에 명시된 내용을 준수해야 할 법적 의무는 없지만, 준수는 오랜 규범입니다. (때로는 무시되는 규범: 올해 초 WIRED 조사에 따르면 AI 스타트업 Perplexity가 robots.txt를 무시하고 은밀하게 웹사이트를 스크래핑하고 있음 이 밝혀졌습니다.)
Applebot-Extended는 너무 새롭기 때문에 아직 블록 웹사이트가 비교적 적습니다. 캐나다 온타리오에 있는 AI 감지 스타트업 Originality AI는 지난주에 트래픽이 많은 웹사이트 1,000개를 샘플링하여 분석한 결과, 약 7%(주로 뉴스 및 미디어 매체)가 Applebot-Extended를 차단하고 있는 것으로 나타났습니다. 이번 주에 AI 에이전트 감시 서비스인 Dark Visitors는 트래픽이 많은 웹사이트 1,000개를 샘플링하여 자체 분석을 실행한 결과, 약 6%에서 봇이 차단된 것으로 나타났습니다. 이러한 노력을 종합해 보면, 대다수의 웹사이트 소유자가 Apple의 AI 교육 관행에 반대하지 않거나 Applebot-Extended를 블록 하는 옵션을 알지 못하는 것으로 나타났습니다.
이번 주에 실시한 별도의 분석에서 데이터 저널리스트 벤 웰시는 자신이 조사한 뉴스 웹사이트(주로 영어권 미국 기반 출판사 1,167개 중 294개)의 4분의 1이 조금 넘는 곳에서 Applebot-Extended를 차단하고 있다는 사실을 발견했습니다. 이와 대조적으로 웰시는 샘플에 있는 뉴스 웹사이트의 53%가 OpenAI의 봇을 블록 있다는 사실을 발견했습니다. Google은 작년 9월에 자체 AI 전용 봇인 Google-Extended를 출시했습니다. 이 봇은 해당 사이트의 약 43%에서 차단되었는데, 이는 Applebot-Extended가 여전히 주목을 받지 못하고 있다는 신호입니다. 하지만 웰시가 WIRED에 말했듯이, 그가 조사를 시작한 이후로 그 숫자는 "점진적으로" 증가하고 있습니다.
웰시는 뉴스 매체가 주요 AI 에이전트에 접근하는 방식을 모니터링하는 진행 중인 프로젝트를 진행 중입니다. 그는 "뉴스 발행사들 사이에서 이런 봇을 블록 할지 여부에 대한 의견 비트(Bit) 가 생겼습니다."라고 말합니다. "모든 뉴스 기관이 왜 이런 결정을 내렸는지에 대한 답은 없습니다. 분명히 많은 기관이 봇을 허용하는 대가로 돈을 받는 라이선스 거래를 한다는 기사를 읽을 수 있습니다. 어쩌면 그게 요인일 수도 있습니다."
작년에 뉴욕타임스는 애플이 퍼블리셔들과 AI 거래를 시도하고 있다고 보도했습니다 . 그 이후로 OpenAI와 Perplexity와 같은 경쟁사들은 다양한 뉴스 매체, 소셜 플랫폼 및 기타 인기 웹사이트와의 파트너십을 발표 했습니다. Originality AI 설립자 존 길럼은 "세계에서 가장 큰 퍼블리셔 중 상당수가 분명히 전략적 접근 방식을 취하고 있습니다."라고 말합니다. "어떤 경우에는 파트너십 계약이 체결될 때까지 데이터를 보류하는 것과 같은 비즈니스 전략이 관련되어 있다고 생각합니다."
길럼의 이론을 뒷받침하는 증거가 몇 가지 있습니다. 예를 들어, Condé Nast 웹사이트는 OpenAI의 웹 크롤러를 블록 하곤 했습니다. 이 회사가 지난주 OpenAI와의 파트너십을 발표한 후, 이 회사의 봇을 차단 해제했습니다. (Condé Nast는 이 기사에 대한 기록에 대해 언급하기를 거부했습니다.) 한편, Buzzfeed 대변인 줄리아나 클리프턴은 WIRED에 현재 Applebot-Extended를 차단하고 있는 이 회사는 소유자가 Huffington Post도 소유한 이 회사와 파트너십(일반적으로 유료)을 맺지 않는 한 식별할 수 있는 모든 AI 웹 크롤링 봇을 블록 목록에 추가한다고 말했습니다.
robots.txt는 수동으로 편집해야 하고, 새로운 AI 에이전트가 너무 많이 출시되고 있기 때문에 최신 블록 목록을 유지하기 어려울 수 있습니다. Dark Visitors 설립자 Gavin King은 "사람들은 무엇을 블록 해야 할지 모릅니다."라고 말합니다. Dark Visitors는 클라이언트 사이트의 robots.txt를 자동으로 업데이트하는 프리미엄 서비스를 제공하며, King은 저작권 문제로 인해 퍼블리셔가 클라이언트의 상당 부분을 차지한다고 말합니다.
Robots.txt는 웹마스터의 신비로운 영역처럼 보일 수 있지만 AI 시대에 디지털 퍼블리셔에게 엄청난 중요성을 지닌 만큼 이제는 미디어 임원의 영역입니다. WIRED는 주요 미디어 회사의 두 CEO가 블록 봇을 직접 결정한다는 사실을 알게 되었습니다.
일부 매체는 현재 소유자와 파트너십을 맺지 않았기 때문에 AI 스크래핑 도구를 블록 한다고 명시적으로 언급했습니다. Vox Media의 커뮤니케이션 담당 수석 부사장인 로렌 스타크는 "상대방과 상업적 계약을 맺지 않았을 때 다른 많은 AI 스크래핑 도구에서 그랬듯이, Vox Media의 모든 자산에서 Applebot-Extended를 차단하고 있습니다."라고 말했습니다. "저희는 게시된 작품의 가치를 보호하는 것을 믿습니다."
다른 사람들은 그들의 추론을 모호하지만 직설적인 용어로만 설명할 것입니다. Gannett의 최고 커뮤니케이션 책임자인 Lark-Marie Antón은 "팀은 이 시점에서 Applebot-Extended가 우리 콘텐츠에 액세스하는 것을 허용하는 데 가치가 없다고 판단했습니다."라고 말합니다.
한편, 저작권 침해로 OpenAI를 고소한 The New York Times는 Applebot-Extended와 그 유사 제품의 옵트아웃 특성을 비판하고 있습니다. NYT 외부 커뮤니케이션 책임자인 Charlie Stadtlander는 "법률과 The New York Times의 자체 서비스 약관에서 명확히 밝히고 있듯이, 사전 서면 허가 없이는 상업적 목적으로 저희 콘텐츠를 스크래핑하거나 사용하는 것은 금지되어 있습니다."라고 말하며, Times가 발견하는 대로 승인되지 않은 봇을 블록 목록에 계속 추가할 것이라고 언급했습니다. "중요한 점은 기술적 차단 조치가 있는지 없는지에 관계없이 저작권법이 여전히 적용된다는 것입니다. 저작권이 있는 자료의 도용은 콘텐츠 소유자가 옵트아웃할 필요가 없는 것입니다."
Apple이 출판사와의 거래를 마무리하는 데 더 가까워졌는지는 불분명합니다. 하지만 그렇게 된다면, 데이터 라이선싱이나 공유 약정의 결과는 공개적으로 발표되기 전에도 robots.txt 파일에 표시될 수 있습니다.
길럼은 "우리 시대의 가장 중요한 기술 중 하나가 개발되고 있고, 그 훈련 데이터를 놓고 벌어지는 전투가 정말 모호한 텍스트 파일에서 우리 모두가 볼 수 있도록 공개적으로 진행되고 있다는 사실이 흥미롭다"고 말했다.