ChatGPT도 피해를 입었고, 아마존 서버 장애로 인터넷 절반이 마비됐다.

36氪

10-21

이 기사는 기계로 번역되었습니다

원문 표시

아마존이 기침을 하면 인터넷의 절반이 흔들린다.

Amazon AWS 서버의 다운타임 으로 인해 대량 인터넷 서비스가 중단되었고, ChatGPT도 영향을 받았습니다.

이번 장애는 AWS의 글로벌 서비스의 핵심인 미국 동부의 us-east-1 지역에서 발생했습니다.

오류 추적 플랫폼인 다운디텍터(Downdetector)의 데이터에 따르면, 그날 650만 건이 넘는 사용자 오류 신고가 접수되었습니다 .

비전체 목록

이 AWS 사고로 인해 Reddit을 비롯한 소셜 플랫폼의 서비스가 중단되었고, 사람들은 불평조차 할 수 없게 되었습니다.

게다가 AWS 자체의 고객 지원 티켓 시스템도 다운되어 오류를 보고할 방법도 없었습니다.

다행히도 머스크의 X는 AWS를 사용하지 않았기 때문에 영향을 받지 않았고, 이를 통해 네티즌들은 이 AWS 실패 사례에 대해 논의할 기회를 얻었습니다.

일부 네티즌들은 이모티콘을 사용해 머스크가 이 일련의 사건의 가장 큰 수혜자라고 농담을 했습니다.

하지만 농담은 차치하고라도, 이 사건으로 피해를 입은 사람들은 전혀 웃을 수 없을지도 모릅니다...

Amazon 서비스 중단으로 다양한 산업에 영향

아마존 서비스 중단 사태는 얼마나 광범위하게 일어났을까요? 먼저 개발자들의 상황을 살펴보겠습니다.

Docker 는 중요한 애플리케이션 컨테이너 엔진입니다. 일부 개발자들은 Docker가 완전히 마비되어 여러 핵심 서비스가 한꺼번에 중단되는 현상을 발견했습니다.

Docker 외에도 또 다른 중요한 개발 도구 인 npm 도 같은 문제에 직면했고, 인기 있는 AI 프로그래밍 도구인 Cursor와 Vercel 도 예외는 아니었습니다.

개발자 외에도 다른 근로자들도 영향을 받았습니다. 화상 회의 소프트웨어 Zoom 과 OpenAI의 동일한 사무실 플랫폼 Slack이 모두 작동 중단되었습니다.

흥미로운 점은 아마존이 올해 내부 회의에 Zoom을 사용하기로 했다는 소식입니다. 즉, AWS는 Zoom 없이는 온라인 회의를 진행할 수 없지만, AWS는 Zoom을 수정하지 않는 한 Zoom을 사용할 수 없습니다.

제가 제 일을 할 수 없으니, 왜 그냥 쉬는 게 아닌가?

이 방법도 효과가 없습니다. Epic , Sony PlayStation 과 같은 게임 플랫폼, Reddit 과 같은 소셜 플랫폼, Netflix, Disney+, Max와 같은 스트리밍 비디오 사이트도 다운되었기 때문입니다.

그럼 공부할 수 있겠죠? 죄송하지만 듀오링고 서비스 가 다운되어서 학생 그룹이 숙제 플랫폼인 캔버스 에 로그인할 수 없습니다.

AI 도구 측면에서는 가장 유명한 ChatGPT 도 영향을 받은 것으로 여겨지며, 유명한 AI 검색 도구 인 Perplexity 도 목록에 포함되어 있습니다.

더욱이 그 영향은 온라인에서 오프라인으로 확산되었습니다. 택시 호출 앱이 다운되고, 맥도날드와 스타벅스가 마비되었으며, 사람들은 일상생활에서 택시를 부르거나 음식을 주문할 수 없게 되었습니다.

유나이티드 항공, 델타 항공 등의 항공사도 영향을 받아 승객 체크인과 수하물 처리가 불가능해졌습니다.

비행기에 탑승하지 못하는 것보다 더 끔찍한 것은 내리지 못하는 것입니다. 한 네티즌은 샤오홍슈에서 겪은 일을 공유하며, 자신이 탑승했던 델타 항공 항공편이 착륙 후 도킹에 실패하여 탑승객 전원이 활주로에서 기다려야 했다고 말했습니다. 기장은 아마존의 서비스 중단이 원인이라고 발표했습니다.

더욱 심각한 것은 스마트 도어락을 사용하는 사람들이 네트워크 문제로 인해 문을 열 수 없었지만, 도어락의 알람 기능은 정상적으로 작동하고 있어 경찰이 집 문으로 출동하는 일이 발생했다는 것입니다.

물론, 알렉사 등 아마존의 다른 스마트 홈 제품들은 네트워크 서비스 부족으로 인해 완전히 작동을 멈췄습니다.

이러한 상황은 대서양 건너편의 영국에도 영향을 미쳤습니다.

예를 들어, 프리미어 리그는 AWS 오류의 영향으로 웨스트햄 유나이티드와 브렌트퍼드 경기에서 반자동 오프사이드 시스템이 오작동했다고 공식 발표했습니다. 경기 중 필요한 경우, 기존의 수동 라인 드로잉 방식을 사용하여 판정을 보조할 예정입니다.

물론, "피해자"의 목록은 매우 길죠...

인터넷은 왜 이렇게 취약한가?

이번에는 AWS의 us-east-1 서버에서 문제가 발생했으며, 직접적인 원인은 DNS(Domain Name System) 확인 문제였습니다.

AWS는 이 문제가 네트워크 로드 밸런서의 상태를 모니터링하고 관리하는 EC2 내부 네트워킹의 하위 시스템에서 시작되었다고 밝혔습니다.

모니터링 시스템의 이상 현상으로 인해 네트워크 연결 불안정, 데이터베이스 접속 지연, 일부 API 요청 실패가 발생했습니다. 그 결과, 여러 핵심 클라우드 서비스에 광범위한 중단이 발생했습니다.

us-east-1은 AWS가 가장 먼저 설립한 리전으로, 가장 오랜 인프라 역사와 가장 다양한 서비스를 제공합니다. 대량 기업이 us-east-1에 핵심 서비스를 구축하고 있습니다.

us-east-1은 컴퓨팅 및 스토리지 리소스의 홈 베이스일 뿐만 아니라, 여러 글로벌 제어 플레인 서비스의 중앙 호스팅 리전 역할도 수행합니다. 즉, 다른 리전이 로컬에서 정상적으로 운영되더라도 배포, 인증, 권한 변경과 같은 제어 플레인 작업은 여전히 us-east-1에 의존합니다 .

이 점이 us-east-1을 다른 Amazon 서버와 다르게 만드는데, 이 서버의 장애가 전 세계에 영향을 미칠 수 있습니다.

us-east-1이 다운된 것은 이번이 처음이 아닙니다. 지난 몇 년(2020년, 2021년, 2023년)에도 이와 유사한 "대규모 마비" 사고가 발생했으며, 매번 수많은 온라인 서비스에 영향을 미쳤습니다.

실패는 불가피하지만, 실패의 정도는 인터넷에 존재하는 문제를 드러냅니다.

아마존과 같은 대형 클라우드 서비스는 글로벌 네트워크 보안과 안정성을 향상시켰지만, 성공에는 자체적인 한계도 작용했습니다. 이처럼 표준화되고 중앙화된 서비스는 작은 오류라도 치명적인 결과를 초래할 수 있습니다.

이런 상황을 피하기 위해 웹사이트 개발자는 회복성 메커니즘을 구축해야 합니다.

Hacker News의 일부 네티즌은 정적 사이트가 CloudFront를 통해 여러 지역에 연결되어 있고 us-east-1에만 전적으로 의존하지 않았기 때문에 이 사고의 영향을 받지 않았다고 말했습니다.

게다가 이러한 기본적인 다중 지역 장애 조치 배포 방법은 기술적으로 복잡하지 않으며 비용을 크게 증가시키지 않습니다.

웹 서비스 개발자 여러분, 배포 전략을 다시 검토해야 할 때입니다.

참조 링크:

[1]https://www.theverge.com/news/802486/aws-outage-alexa-fortnite-snapchat-offline#comments

[2]https://www.wired.com/story/what-that-huge-aws-outage-reveals-about-the-internet/

[3]https://www.businessinsider.com/ring-starbucks-alexa-app-down-aws-outage-issues-2025-10

[4]https://www.cnbc.com/2025/10/20/amazon-web-services-outage-hits-airline-websites-other-major-sites.html

[5]https://news.ycombinator.com/item?id=45640838

본 기사는 WeChat 공개 계정 "Quantum Bit" 에서 발췌하였으며, 저자는 Cressey이고, 36Kr에서 게시 허가를 받았습니다.

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트