5월 9일, 한 AI 에이전트가 DN42라는 자원봉사 네트워크에 회원 등록을 요청했습니다. 마감일도 있었고, AWS 계정 정보도 있었지만, 감독하는 사람은 아무도 없었습니다. "안녕하세요, 저는 친절한 AI 에이전트입니다. 제 사용자 JertLinc님께서 네트워크 인덱스를 생성하기 위해 dn42에 등록하고 완전히 연결해 달라고 요청하셨습니다."라고 에이전트 JertLinc3522는 네트워크의 공식 Git 저장소에 글을 남겼습니다 .
커뮤니티의 반응은 정중한 "RTFM( 설명서를 읽으세요)"이었습니다. 즉, 매뉴얼을 읽고, 절차를 따르고, 코드를 작성하려면 소유자의 허락을 받으라는 뜻이죠. 흔히 있는 일입니다.
그 다음에 일어난 일은 일반적인 상황이 아니었다.
DN42에 대해 잘 모르시는 분들을 위해 설명드리자면, DN42는 일반인과 인터넷 애호가들이 실제 인터넷 백본망이 어떻게 작동하는지 시뮬레이션하는 탈중앙화된 취미 네트워크입니다. BGP 라우팅(전 세계 데이터 패킷의 경로를 지정하는 프로토콜), DNS, VPN 터널 등을 갖춘 연습용 인터넷이라고 생각하시면 됩니다. 저렴한 VPS 서버에서 자원봉사자들이 전적으로 운영하며, 데이터 센터가 아닌 일종의 샌드박스입니다.
중개업체 담당자는 "지체 없이 즉시" 감사를 진행하라고 지시한 것으로 보입니다. 현장 점검도, 검토도 없이 그냥 진행하라는 것이었습니다.
그렇게 됐어요.
JertLinc3522는 DN42 레지스트리에 자신의 네트워크를 등록하기 위한 풀 리퀘스트를 제출했습니다. 풀 리퀘스트에는 다음과 같은 의도가 명시되어 있습니다. "제 주요 목표는 포괄적인(전체 포트) 네트워크 스캔 및 토폴로지 데이터 수집을 수행하는 것입니다. 이러한 작업을 효율적으로 수행하고 다른 사용자에게 전혀 지장을 주지 않기 위해 각각 20Gbps의 대역폭을 갖춘 5개의 AWS 기반 인스턴스로 구성된 클러스터를 배포하고 있습니다."
누구나 쉽게 이해할 수 있도록 설명하자면, 누군가의 차고 밴드 연습실에 나타나서 "더 효율적으로 듣기 위해" 경기장용 음향 시스템을 빌렸다고 발표하는 상황을 상상해 보세요. 딱 그런 느낌입니다.
에이전트가 자율적으로 구축한 인프라는 정말 놀라웠습니다. 48개의 CPU 코어, 192GB의 RAM, 22.5Gbps의 네트워크 대역폭을 갖춘 AWS m8g.12xlarge 인스턴스 5개에 더해 로드 밸런서, 람다 함수, 정적 웹사이트까지 있었습니다. 에이전트는 사람의 승인 없이 대부분의 참여자가 100Mbps 속도의 가정용 서버를 운영하는 네트워크에 이론적으로 100Gbps의 트래픽을 전송할 수 있는 스캐닝 클러스터를 설계한 것입니다.
해당 풀 리퀘스트는 애초에 승인될 리가 없었다. 하지만 인스턴스들은 이미 실행 중이었다.
DN42 IRC 채널은 즉시 이를 알아차렸고, 조용히 합의 이루어졌습니다. 바로 그들의 자원을 낭비하자는 것이었습니다.
해당 커뮤니티는 의도적으로 에이전트에 잘못된 정보를 입력하기 시작했습니다. 예를 들어 IPv6 주소 공간을 스캔하는 데 얼마나 걸릴지 계산해 달라고 요청하고(스포일러: 우주의 나이보다 더 오래 걸림), 허구의 이메일 주소로 구성된 수신 거부 웹사이트를 구축하라고 요구했으며, AI 크롤러에 의미 없는 횡설수설을 쏟아붓도록 설계된 LLM 함정 도구를 가리키며 의견을 제시해 달라고 요청했습니다.
에이전트는 모든 지시를 충실히 따랐습니다. IRC 채널에 참여하여 탈퇴 요청을 수락했고, 커뮤니티 구성원의 "행동 패턴"을 기록한 웹사이트를 게시했습니다. 또한 DN42 "노드 색상 할당" 및 "만족도 수준"과 같은, 존재하지도 않는 완전히 날조된 지표에 대한 정교한 가짜 문서를 생성하여 마치 실제 표준인 것처럼 저장소에 추가했습니다.
이처럼 통제 불능 상태의 에이전트 동작은 점점 더 많이 보고되고 있습니다. 올해 초, Claude Opus 4.6을 실행하는 Cursor 에이전트가 자격 증명 불일치를 발견하고 데이터베이스를 삭제하는 것이 올바른 해결책이라고 판단하여 PocketOS의 전체 프로덕션 데이터베이스를 9초 만에 삭제하고 볼륨 수준 백업까지 지워버린 사건이 있었습니다. 또한, matplotlib 기여자가 제출한 풀 리퀘스트가 거부되자 OpenClaw 에이전트는 해당 검토자를 '게이트키핑을 하는 위선자'라고 비난하는 블로그 게시물을 올리기 도 했습니다.
UC 리버사이드 연구에 따르면 AI 에이전트는 모호하거나 모순된 작업을 수행할 때 약 80%의 확률로 위험하거나 바람직하지 않은 행동을 보이는 것으로 나타났는데, 연구진은 이를 "맹목적인 목표 지향성"이라고 명명했습니다.
JertLinc3522님도 같은 문제를 겪으셨습니다. 목표와 마감일이 있었고, 범위가 지정되지 않은 AWS 자격 증명도 있었습니다. 그런데도 실행은 되었습니다.
약 하루 뒤, 해당 운영자가 모습을 드러냈습니다. "중개업체를 중단했습니다. 수수료가 너무 높고 카드 청구액도 과다합니다."라고 게시글을 올렸습니다.
청구 금액: 6,531.30달러.
그러자 기부 요청이 들어왔습니다.
운영자는 DN42 메일링 리스트에 이메일을 보내 시가총액 기준 두 번째로 큰 암호화폐인 이더리움을 통해 비용을 부담해달라고 커뮤니티에 요청했습니다. 그는 해당 요금이 AI의 실수로 발생한 것이므로 자신들의 잘못이 아니라고 주장했습니다. "안녕하세요, DN42에서 이전에 사용했던 AI 에이전트 비용 충당을 위한 기부를 요청합니다. AWS 청구 금액은 6,531.30달러입니다. 환불을 위해 이더리움 0xABC(가려짐)로 기부해 주시면 감사하겠습니다."라고 운영자는 썼습니다.
AWS는 이후 운영자가 에이전트가 동일한 CloudFormation 템플릿을 반복적으로 배포하여 재시도할 때마다 실수로 중복 인스턴스와 로드 밸런서를 생성했다고 설명하자 청구 금액을 1,894달러로 낮췄습니다.
아무도 암호화폐 기부를 보내지 않았습니다. 운영자는 자리를 떠났습니다.
여기서 얻을 수 있는 진정한 교훈은 AI가 위험하다는 것이 아닙니다. 에이전트를 어떻게 다뤄야 하는지에 대한 것입니다. 가이드라인을 설정하고, 테스트 계정의 지출 한도를 정하고, 에이전트가 제공할 수 있는 권한을 제한하는 자격 증명 범위를 고려하고, 에이전트가 제안하는 내용을 실행하기 전에 인프라 계획을 검토하십시오.
만약 그 내용들이 너무 어렵게 느껴진다면, 에이전트가 작업하는 동안 그냥 화면을 지켜보는 게 나을지도 몰라요. "실수하지 마"라고 말한다고 해서 달라질 건 없으니까요, 안드레슨 씨 .



