YQ가 작성
AididiaoJP, Foresight News에서 편집
Amazon Web Services가 또다시 심각한 서비스 중단을 겪으며 암호화폐 인프라에 심각한 영향을 미쳤습니다. AWS의 미국 동부 1 지역(버지니아 북부 데이터 센터)에서 발생한 문제로 Coinbase를 비롯한 Robinhood, Infura, Base, Solana 등 수십 개의 주요 암호화폐 플랫폼이 마비되었습니다.
AWS는 수천 개 기업이 사용하는 핵심 데이터베이스 및 컴퓨팅 서비스인 Amazon DynamoDB와 EC2에 영향을 미치는 "오류율 증가"를 인정했습니다. 이번 서비스 중단은 이 기사의 핵심 주장, 즉 암호화 인프라가 중앙 집중식 클라우드 서비스 제공업체에 의존하는 것이 시스템적 취약성을 야기하며, 이러한 취약성은 압박을 받을 때 반복적으로 나타납니다.
타이밍이 매우 암울합니다. 193억 달러 규모의 청산 사태로 거래소 차원의 인프라 장애가 드러난 지 불과 10일 만에, 오늘 AWS 서비스 중단 사태는 이 문제가 단일 플랫폼을 넘어 기반 클라우드 인프라 계층까지 확대되었음을 보여줍니다. AWS에 장애가 발생하면, 그 연쇄적인 영향은 중앙화 거래소, 중앙 집중식 종속성을 가진 "탈중앙화" 플랫폼, 그리고 수많은 다른 서비스에 동시에 영향을 미칩니다.
이는 단발적인 사건이 아니라 하나의 패턴입니다. 다음 분석에서는 2025년 4월, 2021년 12월, 그리고 2017년 3월에 발생한 유사한 AWS 장애 사례를 살펴보겠습니다. 이러한 장애는 주요 암호화 서비스를 마비시켰습니다. 문제는 다음 인프라 장애가 발생할지 여부가 아니라, 언제, 무엇이 장애를 유발할 것인가입니다.
2025년 10월 10-11일 청산 체인 이벤트: 사례 연구
2025년 10월 10일에서 11일 사이에 발생한 청산 연쇄 사건은 인프라 장애 유형에 대한 유익한 사례 연구를 제공합니다. UTC 기준 오후 8시(20:00)에 주요 지정학적 발표가 시장 전체의 매도세를 촉발했습니다. 한 시간 만에 60억 달러의 청산이 발생했습니다. 아시아 시장이 개장할 무렵, 160만 명의 거래자 계좌에서 193억 달러의 레버리지 포지션이 증발했습니다.

그림 1: 2025년 10월 청산 체인 이벤트 타임라인
이 인터랙티브 타임라인 차트는 시간별 청산의 극적인 진행 상황을 보여줍니다. 첫 한 시간 만에 60억 달러가 증발했고, 두 번째 시간에는 더욱 극적인 속도로 거래가 가속화되었습니다. 시각화는 다음과 같은 내용을 보여줍니다.
20:00-21:00: 초기 영향 - 60억 달러 청산(적색 구역)
21:00-22:00: API가 제한을 시작하는 체인 피크 기간 - 42억 달러
22:00-04:00: 지속적인 악화 기간 - 유동성이 부족한 시장에서 91억 달러가 현금화됨
주요 전환점: API 요금 제한, MM (Market Making) 철수 및 오더북 축소
그 규모는 이전의 모든 암호화폐 시장 사건보다 적어도 한 자릿수 이상 크며, 역사적 비교를 통해 이 사건의 계단 함수적 특성이 드러납니다.

그림 2: 과거 청산 사건 비교
막대 그래프는 2025년 10월 사건의 중요성을 매우 극적으로 보여줍니다.
2020년 3월(COVID): 12억 달러
2021년 5월(폭락): 16억 달러
2022년 11월(FTX): 16억 달러
2025년 10월: 193억 달러, 이전 기록보다 16배 증가
하지만 청산 수치는 전체 이야기의 일부만을 보여줄 뿐입니다. 더 흥미로운 질문은 메커니즘과 관련이 있습니다. 외부 시장 사건이 어떻게 이러한 특정 실패 모드를 촉발했을까요? 그 답은 중앙화 거래소 인프라와 블록체인 프로토콜 설계의 시스템적 취약점을 드러냅니다.
오프체인 실패: 중앙화 거래소 아키텍처
인프라 과부하 및 속도 제한
거래소 API는 남용을 방지하고 서버 부하를 관리하기 위해 속도 제한을 구현합니다. 정상적인 운영 환경에서는 이러한 제한을 통해 합법적인 거래가 가능하면서도 잠재적인 공격은 차단할 수 있습니다. 하지만 변동성이 극심한 시기에는 수천 명의 거래자 동시에 포지션을 조정하려고 시도할 때 이러한 속도 제한이 병목 현상을 유발합니다.
CEX는 초당 수천 건의 주문을 처리하더라도 청산 알림을 초당 한 건으로 제한합니다. 이로 인해 10월 연쇄 반응 당시 투명성이 부족했습니다. 사용자는 실시간으로 연쇄 반응의 심각성을 파악할 수 없었습니다. 타사 모니터링 도구는 분당 수백 건의 청산을 표시했지만, 공식 데이터 소스는 훨씬 적은 수의 청산을 표시했습니다.
API 속도 제한으로 인해 거래자 중요한 첫 한 시간 동안 포지션을 수정할 수 없었습니다. 연결 요청 시간이 초과되어 주문 제출이 실패했습니다. 로스 컷 주문은 실행되지 않았고, 포지션 쿼리는 오래된 데이터를 반환했습니다. 이러한 인프라 병목 현상은 시장 상황을 운영 위기로 만들었습니다.
기존 거래소 정상적인 거래량에 맞춰 인프라를 구성하여 안전 마진을 확보합니다. 그러나 정상적인 거래량은 스트레스 거래량과 크게 다르며, 일평균 거래량은 최대 스트레스 수요를 예측하는 데 적합하지 않습니다. 연쇄적인 이벤트가 발생하면 모든 사용자가 동시에 계좌를 확인함에 따라 거래량이 100배 이상 급증하고 포지션 데이터 조회가 1,000배 증가합니다.

그림 4.5: 암호화 서비스에 영향을 미치는 AWS 중단
자동 확장 클라우드 인프라가 도움이 되었지만, 즉각적인 대응은 아니었습니다. 추가 데이터베이스 읽기 복제본을 생성하는 데 몇 분이 걸렸습니다. 새로운 API 게이트웨이 인스턴스를 생성하는 데는 몇 분이 더 걸렸습니다. 그 시간 동안 보증금 시스템은 과부하된 오더북 손상된 가격 데이터를 기반으로 포지션 값을 계속 태그 했습니다.
오라클 조작 및 가격 책정 취약점
10월 연쇄 사건 발생 당시, 보증금 시스템의 핵심 설계 선택이 드러났습니다. 일부 거래소 외부 오라클 데이터 피드가 아닌 내부 현물 시장 가격을 기반으로 담보 가치를 계산했습니다. 정상적인 시장 상황에서 차익거래자들은 거래소 간 가격 일관성을 유지합니다. 그러나 인프라에 과부하가 걸리면 이러한 연계성이 무너집니다.

그림 3: 오라클 조작 흐름도
이 대화형 흐름도는 5단계 공격 벡터를 시각화합니다.
초기 매도: USDe에 6,000만 달러 매도 압력
가격 조작: USDe가 단일 거래소 에서 $1.00에서 $0.65로 폭락
오라클 오류: 보증금 시스템이 손상된 내부 가격 피드를 사용합니다.
체인 트리거: 담보가 하락하고 강제 청산이 시작됩니다.
확대: 193억 달러 규모의 청산(322배 확대)
이 공격은 바이낸스가 래핑된 합성 담보에 현물 시장 가격을 적용하는 방식을 악용했습니다. 공격자가 6천만 달러 상당의 USDe를 비교적 빈약한 오더북 에 투입하자, 현물 가격은 1달러에서 0.65달러로 폭락했습니다. 담보를 현물 가격으로 태그 도록 설정된 보증금 시스템은 모든 USDe 담보 포지션의 가치를 35%까지 낮췄습니다. 이로 인해 보증금 콜이 발생하고 수천 개의 계좌가 강제 청산되었습니다.
이러한 청산으로 인해 유동성이 낮은 동일한 시장에 더 많은 매도 주문이 유입되었고, 이는 가격을 더욱 하락시켰습니다. 보증금 시스템은 이러한 하락된 가격을 감지하고 더 많은 포지션의 가치를 태그. 이러한 피드백 루프는 6천만 달러의 매도 압력을 193억 달러의 강제 청산으로 증폭시켰습니다.

그림 4: 청산 체인 피드백 루프
이 피드백 루프 다이어그램은 체인의 자체 강화 특성을 보여줍니다.
가격 하락 → 청산 유발 → 강제 매도 → 가격 추가 하락 → [주기 반복]
제대로 설계된 오라클 시스템이 있었다면 이 메커니즘은 작동하지 않았을 것입니다. 바이낸스가 여러 거래소 에서 시간 가중 평균 가격(TWAP)을 사용했다면, 즉각적인 가격 조작이 담보 가치 평가에 영향을 미치지 않았을 것입니다. 체인링크나 다른 여러 소스 오라클 에서 집계된 가격 피드를 사용했다면 공격은 실패했을 것입니다.
4일 전 wBETH 사건도 유사한 취약점을 보여주었습니다. wBETH는 ETH와 1:1 교환 비율을 유지해야 합니다. 하지만 이 사건으로 유동성이 고갈되었고, wBETH/ETH 현물 시장은 20%의 할인을 받았습니다. 결과적으로 보증금 시스템은 wBETH 담보의 가치를 낮춰, 사실상 기초 ETH로 전액 담보된 포지션의 청산을 촉발했습니다.
자동 부채 해소(ADL) 메커니즘
현재 시장가로 청산이 실행될 수 없는 경우, 거래소 손실을 수익이 있는 거래자 에게 분배하기 위해 자동 청산(ADL)을 시행합니다. ADL은 청산된 포지션의 부족분을 메우기 위해 수익이 있는 포지션을 현재 가격으로 청산하도록 강제합니다.
10월 연쇄 사건 당시 바이낸스는 여러 거래 쌍에 대해 자동이체(ADL)를 실행했습니다. 수익성 있는 롱 포지션을 보유한 거래자 자신의 리스크 관리 실패가 아니라 다른 거래자 들의 포지션이 부실화되면서 강제 청산을 당했습니다.
ADL은 중앙집중형 파생상품 거래의 근본적인 구조적 선택을 반영합니다. 거래소 손실이 발생하지 않음을 보장합니다. 즉, 손실은 다음 당사자 중 하나 이상이 부담해야 합니다.
보험 기금(거래소 가 청산 부족분을 충당하기 위해 예약한 기금)
ADL(수익성 있는 거래자 의 강제 폐쇄)
사회화된 손실(모든 사용자에게 손실을 분산)
미결제약정 대비 보험기금 규모에 따라 자동자산할인(ADL) 빈도가 결정됩니다. 바이낸스의 보험기금은 2025년 10월 기준 약 20억 달러였습니다. 이는 BTC, ETH, BNB 무기한 계약의 미결제약정 40억 달러 대비 50%를 보장했습니다. 그러나 10월 연쇄적 사건 발생 당시 모든 거래쌍의 미결제약정 총액은 200억 달러를 초과했습니다. 보험기금은 부족분을 충당하지 못했습니다.
10월 연쇄 사건 이후, 바이낸스는 미결제약정 총액이 40억 달러 미만으로 유지되는 한 BTC, ETH, BNB USDⓈ-M 계약에 대해 ADL(자동자산청산)에 대한 보증을 제공하겠다고 발표했습니다. 이는 거래소 ADL을 피하기 위해 더 큰 규모의 보험 기금을 유지할 수 있도록 하는 인센티브 구조를 만들어냈지만, 이는 수익성 있게 운용될 수 있는 자금을 묶어두는 결과를 초래했습니다.
온체인 실패: 블록체인 프로토콜의 한계
막대형 차트는 다양한 사고에 따른 가동 중지 시간을 비교합니다.
솔라나(2024년 2월): 5시간 - 투표 처리량 병목 현상
Polygon(2024년 3월): 11시간 - 검증기 버전 불일치
낙관주의(2024년 6월): 2.5시간 - 시퀀서 오버로드(에어드랍)
솔라나(2024년 9월): 4.5시간 - 거래 스팸 공격
Arbitrum(2024년 12월): 1.5시간 - RPC 공급자 오류

그림 5: 주요 네트워크 중단 - 기간 분석
솔라나: 합의 병목 현상
솔라나는 2024년부터 2025년까지 여러 차례 서비스 중단을 겪었습니다. 2024년 2월 서비스 중단은 약 5시간, 2024년 9월 서비스 중단은 4~5시간 지속되었습니다. 이러한 서비스 중단은 모두 유사한 근본 원인에서 비롯되었습니다. 스팸 공격이나 과도한 활동으로 인해 네트워크가 거래량을 감당하지 못했기 때문입니다.
그림 5 세부 정보: 솔라나의 중단(2월 5시간, 9월 4.5시간)은 스트레스 상황에서 네트워크 복원력에 대한 반복적인 문제를 보여줍니다.
솔라나의 아키텍처는 처리량에 최적화되어 있습니다. 이상적인 조건에서 네트워크는 초당 3,000~5,000건의 트랜잭션을 1초 미만의 확정성으로 처리합니다. 이 성능은 이더 보다 훨씬 뛰어납니다. 그러나 스트레스 상황에서는 이러한 최적화가 취약점을 야기합니다.
2024년 9월 서비스 중단은 검증자 투표 메커니즘을 마비시킨 스팸 거래 폭주로 인해 발생했습니다. 솔라나 검증자는 합의에 도달하기 위해 블록에 투표해야 합니다. 정상적인 운영 중에는 검증자가 합의 진행을 보장하기 위해 투표 거래의 우선순위를 정합니다. 그러나 이전에는 수수료 시장 목적으로 투표 거래를 일반 거래와 동일하게 취급했습니다.
거래 메모리풀이 수백만 개의 불필요한 거래로 가득 차면 검증자는 투표 거래를 전파하는 데 어려움을 겪습니다. 충분한 투표가 없으면 블록을 확정할 수 없습니다. 확정된 블록이 없으면 체인이 정지됩니다. 보류 중인 거래가 있는 사용자는 해당 거래가 메모리풀에 갇힌 것을 보게 됩니다. 따라서 새로운 거래를 제출할 수 없습니다.
StatusGator는 2024년에서 2025년 사이에 여러 차례 Solana 서비스 중단을 기록했지만, Solana는 이를 공식적으로 인정하지 않았습니다. 이로 인해 정보 불균형이 발생하여 사용자는 로컬 연결 문제와 네트워크 전체 문제를 구분할 수 없었습니다. 타사 모니터링 서비스가 책임 소재를 제공하지만, 플랫폼은 포괄적인 상태 페이지를 유지해야 합니다.
이더: 가스비 폭등
이더 2021년 DeFi 붐 당시 가스비가 급등하여 간단한 거래에도 100달러 이상의 수수료가 부과되었습니다. 복잡한 스마트 컨트랙트 연동에는 500~1,000달러의 비용이 발생했습니다. 이러한 수수료로 인해 소규모 거래에는 네트워크 사용이 불가능해졌고, MEV 클레임 이라는 또 다른 공격 경로가 활성화되었습니다.

그림 7: 네트워크 스트레스 기간 동안의 거래 비용
이 선형 차트는 스트레스 상황에서 네트워크 전반의 가스 요금이 급등하는 모습을 생생하게 보여줍니다.
이더: $5(정상) → $450(혼잡이 최고치) — 90배 증가
Arbitrum: $0.50 → $15 – 30배 증가
낙관론: $0.30 → $12 – 40배 증가
시각화를 통해 2계층 솔루션도 시작점이 훨씬 낮음에도 불구하고 상당한 가스 요금 업그레이드를 경험한다는 것을 알 수 있습니다.
최대 클레임 가치(MEV)는 검증자가 거래를 순서, 포함 또는 제외하여 클레임 수 있는 수익을 나타냅니다. MEV는 가스 수수료가 높은 환경에서 특히 수익성이 높습니다. 차익거래자들은 대규모 DEX 거래를 선점하기 위해 경쟁하고, 청산 봇들은 담보가 부족한 포지션을 가장 먼저 청산하기 위해 경쟁합니다. 이러한 경쟁은 가스 수수료 입찰 전쟁으로 나타납니다.
혼잡 시간대에 거래가 포함되도록 하려면 MEV 봇보다 높은 가격을 제시해야 합니다. 이로 인해 거래 수수료가 거래 금액을 초과하는 상황이 발생합니다. $100 에어드랍 수령하다 시겠습니까? $150의 가스비를 지불하세요. 청산을 피하기 위해 담보를 추가해야 합니까? $500의 우선 수수료를 지불하는 봇과 경쟁하세요.
이더 의 가스 한도는 블록당 총 연산량을 제한합니다. 혼잡 기간에는 사용자들이 부족한 블록 공간에 입찰합니다. 수수료 시장은 의도된 대로 작동합니다. 최고 입찰자가 우선권 갖습니다. 그러나 이러한 설계는 사용자들이 가장 많이 접속해야 하는 사용량이 많은 기간에는 네트워크 비용이 점점 더 많이 발생합니다.
레이어 2 솔루션은 주기적인 결제를 통해 이더 의 보안을 유지하면서 연산을 오프체인으로 이동시킴으로써 이 문제를 해결하고자 합니다. Optimism, Arbitrum 및 기타 롤업은 수천 건의 거래를 오프체인으로 처리한 후 압축 증명을 이더 에 제출합니다. 이 아키텍처는 정상적인 운영 중 거래당 비용을 효과적으로 절감합니다.
레이어 2: 시퀀서 병목 현상
하지만 레이어 2 솔루션은 새로운 병목 현상을 야기합니다. 옵티미즘(Optimism)은 2024년 6월 25만 개의 주소가 동시에 에어드랍 신청하면서 서비스 중단을 경험했습니다. 이더 에 거래를 제출하기 전에 거래를 순서 구성 요소인 시퀀서(Sequencer)에 과부하가 걸려 사용자들이 몇 시간 동안 거래를 제출할 수 없었습니다.
이번 서비스 중단은 연산을 오프체인으로 이동하더라도 인프라 요구 사항이 사라지지 않음을 보여주었습니다. 시퀀서는 수신되는 트랜잭션을 처리하고, 순서, 실행하고, 이더 결제를 위해 사기 방지 증명 또는 ZK 증명을 생성해야 합니다. 트래픽이 극심한 상황에서 시퀀서는 독립형 블록체인과 동일한 확장성 문제에 직면합니다.
여러 RPC 공급자를 사용할 수 있어야 합니다. 기본 공급자에 장애가 발생하면 사용자는 대체 공급자로 원활하게 장애 조치(failover)해야 합니다. Optimism 서비스 중단 기간 동안 일부 RPC 공급자는 작동을 유지했지만 다른 공급자는 장애가 발생했습니다. 지갑이 기본적으로 장애가 발생한 공급자에 연결되도록 설정된 사용자는 체인 자체가 온라인 상태를 유지했음에도 불구하고 체인과 상호 작용할 수 없었습니다.
AWS 서비스 중단은 암호화 생태계에 집중된 인프라 리스크 이 존재한다는 사실을 반복적으로 입증했습니다.
2025년 10월 20일(오늘): 미국 동부 지역에서 발생한 서비스 중단으로 Coinbase, Venmo, Robinhood, Chime이 영향을 받았습니다. AWS는 DynamoDB 및 EC2 서비스의 오류율이 증가했음을 인정했습니다.
2025년 4월: 지역별 서비스 중단으로 바이낸스, 쿠코인, MEXC가 동시에 영향을 받았습니다. AWS 기반 구성 요소에 장애가 발생하면 여러 주요 거래소 서비스를 이용할 수 없게 됩니다.
2021년 12월: 미국 동부 지역에서 발생한 정전으로 Coinbase, Binance.US, "탈중앙화"거래소 dYdX가 8~9시간 동안 마비되었으며, Amazon의 자체 창고와 주요 스트리밍 서비스에도 영향을 미쳤습니다.
2017년 3월: S3 장애로 인해 사용자가 5시간 동안 Coinbase와 GDAX에 로그인하지 못했으며, 인터넷도 광범위하게 중단되었습니다.
패턴은 명확합니다. 이러한 거래소 AWS 인프라에 중요한 구성 요소를 호스팅합니다. AWS에 지역 장애가 발생했을 때 여러 주요 거래소 와 서비스가 동시에 중단되었습니다. 사용자는 장애 기간 동안 자금에 접근하거나, 거래를 실행하거나, 포지션을 수정할 수 없었습니다. 시장 변동성이 즉각적인 조치를 필요로 하는 바로 그 시점이었습니다.
폴리곤: 합의 버전 불일치
Polygon(구 Matic)은 2024년 3월에 11시간 동안 서비스 중단을 겪었습니다. 근본 원인은 검증기 버전 간의 불일치였습니다. 일부 검증기는 이전 소프트웨어 버전을 사용하고 다른 검증기는 업그레이드된 버전을 사용했는데, 이러한 버전들은 상태 전환을 다르게 계산했습니다.
그림 5 세부 정보: Polygon 중단(11시간)은 분석된 주요 이벤트 중 가장 길었으며, 합의 실패의 심각성을 강조합니다.
검증자들이 올바른 상태에 대해 서로 다른 결론에 도달하면 합의가 실패하고, 검증자들이 블록의 유효성에 동의하지 않아 체인은 새로운 블록을 생성할 수 없습니다. 이로 인해 교착 상태가 발생합니다. 기존 소프트웨어를 실행하는 검증자들은 새 소프트웨어를 실행하는 검증자들이 생성한 블록을 거부하고, 새 소프트웨어를 실행하는 검증자들은 기존 소프트웨어를 실행하는 검증자들이 생성한 블록을 거부합니다.
문제 해결에는 조정된 검증자 업그레이드가 필요하지만, 장애 발생 시 검증자 업그레이드 조정에는 시간이 소요됩니다. 모든 검증자 운영자에게 연락하고, 올바른 소프트웨어 버전을 배포하고, 검증자를 재시작해야 합니다. 수백 개의 독립적인 검증자가 있는 탈중앙화 네트워크에서는 이러한 조정에 몇 시간 또는 며칠이 걸릴 수 있습니다.
하드 포크 일반적으로 블록 높이 트리거를 사용합니다. 모든 검증자는 동시 활성화를 보장하기 위해 특정 블록 높이만큼 업그레이드하지만, 이를 위해서는 사전 조정이 필요합니다. 검증자가 점진적으로 새 버전을 채택하는 점진적 업그레이드는 Polygon에 지장을 줄 수 있는 정확한 버전 불일치를 초래할 리스크.
건축적 균형

그림 6: 블록체인 트릴레마 - 탈중앙화 대 성능
이 산점도 시각화는 다양한 시스템을 두 가지 주요 차원에 매핑합니다.
비트코인: 높은 탈중앙화, 낮은 성능
이더: 높은 탈중앙화, 중간 성능
솔라나: 적당한 탈중앙화, 높은 성능
바이낸스(CEX): 최소 탈중앙화, 최대 성능
Arbitrum/Optimism: 중간 ~탈중앙화, 중간 성능
주요 통찰력: 어떤 시스템도 최대 탈중앙화 와 최대 성능을 동시에 달성할 수 없습니다. 각 설계는 다양한 사용 사례에 맞게 의도적으로 균형을 맞춥니다.
중앙화 거래소 구조적 단순성을 통해 낮은 지연 시간을 달성합니다. 매칭 엔진은 마이크로초 단위로 주문을 처리하고, 상태는 중앙 집중형 데이터베이스에 저장됩니다. 합의 프로토콜이 없기 때문에 오버헤드가 발생하지만, 이러한 단순성은 단일 장애 지점을 생성합니다. 인프라에 부하가 걸리면, 긴밀하게 연결된 시스템 전체에 연쇄적인 장애가 확산됩니다.
탈중앙화 프로토콜은 상태를 여러 검증자 간에 분산하여 단일 장애 지점을 제거합니다. 처리량이 높은 체인은 장애 발생 시에도 이러한 특성을 유지합니다(자금 손실은 발생하지 않고, 활성 상태만 일시적으로 손상됩니다). 그러나 분산된 검증자 간에 합의에 도달하면 연산 오버헤드가 발생하며, 검증자들은 상태 전환이 완료되기 전에 합의에 도달해야 합니다. 검증자들이 호환되지 않는 버전을 실행하거나 과도한 트래픽에 직면하면 합의 프로세스가 일시적으로 중단될 수 있습니다.
복제본을 추가하면 내결함성은 향상되지만 조정 비용이 증가합니다. 비잔틴 내결함성 시스템에서는 검증자가 추가될 때마다 통신 오버헤드가 증가합니다. 고처리량 아키텍처는 최적화된 검증자 통신을 통해 이러한 오버헤드를 최소화하여 우수한 성능을 달성하지만 특정 공격 패턴에 취약합니다. 보안 중심 아키텍처는 검증자 다양성과 합의 견고성을 우선시하여 기본 계층 처리량을 제한하는 동시에 복원력을 극대화합니다.
레이어 2 솔루션은 계층화된 설계를 통해 두 가지 속성을 모두 제공하려고 합니다. 레이어 1 결제를 통해 이더 의 보안 속성을 계승하는 동시에 오프체인 연산을 통해 높은 처리량을 제공합니다. 그러나 시퀀서 및 RPC 계층에서 새로운 병목 현상이 발생하여, 아키텍처의 복잡성으로 인해 일부 문제를 해결하는 동시에 새로운 장애 모드가 생성됨을 보여줍니다.
확장은 여전히 근본적인 문제입니다.
이러한 사건들은 일관된 패턴을 보여주었습니다. 정상적인 부하를 처리할 수 있도록 시스템을 준비한 후, 시스템 과부하로 인해 심각한 장애가 발생했습니다. 솔라나는 일반적인 트래픽을 효율적으로 처리했지만, 거래량이 10,000% 증가하자 시스템 마비가 발생했습니다. 이더 가스비는 DeFi 도입으로 인해 정체가 발생할 때까지 적정 수준을 유지했습니다. 옵티미즘의 인프라는 25만 개의 주소가 동시에 에어드랍 신청할 때까지 원활하게 작동했습니다. 바이낸스의 API는 정상적인 거래 중에는 정상적으로 작동했지만, 온체인 청산 과정에서 속도가 제한되었습니다.
2025년 10월의 사건들은 거래소 수준에서 이러한 역학 관계를 여실히 보여주었습니다. 정상적인 운영 상황에서는 바이낸스의 API 속도 제한과 데이터베이스 연결만으로도 충분했지만, 청산 캐스케이드 상황에서 모든 거래자 동시에 포지션 조정을 시도하면서 이러한 제한이 병목 현상을 야기했습니다. 강제 청산을 통해 거래소 보호하기 위해 고안된 보증금 시스템은 최악의 순간에 강제 매도 상황을 만들어내 위기를 더욱 악화시켰습니다.
자동 확장은 단계적 부하 증가에 대한 보호 기능이 부족합니다. 추가 서버를 가동하는 데 몇 분이 소요되며, 그 시간 동안 보증금 시스템은 씬 오더북 의 손상된 가격 데이터를 기반으로 포지션 가치를 태그. 새로운 용량이 가동될 때쯤이면 이미 연쇄 반응이 확산된 상태입니다.
드문 스트레스 상황에 대비하여 리소스를 과도하게 프로비저닝하면 정상적인 운영 중에 비용이 발생합니다. 거래소 운영자는 일반적인 부하에 맞춰 최적화하며, 간헐적인 정전은 경제적으로 정당화될 수 있는 선택 사항으로 받아들입니다. 다운타임으로 인한 비용은 사용자에게 전가되며, 사용자는 중요한 시장 변동 시 청산, 거래 중단 또는 자금 접근 불가를 경험하게 됩니다.
인프라 개선

그림 8: 인프라 장애 모드 분포(2024-2025)
근본 원인에 대한 원형 차트 분석은 다음과 같습니다.
인프라 과부하: 35%(가장 흔함)
네트워크 혼잡도: 20%
합의 실패: 18%
오라클 조작: 12%
검증자 문제: 10%
스마트 계약 취약점: 5%
여러 가지 아키텍처 변경을 통해 실패 빈도와 심각도를 줄일 수 있지만 각 변경에는 다음과 같은 상충이 따릅니다.
가격결정체계와 청산체계의 분리
10월 문제는 부분적으로 보증금 계산을 현물 시장 가격과 연계한 데서 비롯되었습니다. 현물 가격이 아닌 랩핑된 자산에 환매 비율을 사용했다면 wBETH의 가격 오류를 피할 수 있었을 것입니다. 더 일반적으로, 중요한 리스크 관리 시스템은 조작 가능성이 있는 시장 데이터에 의존해서는 안 됩니다. 다중 소스 집계 및 TWAP 계산 기능을 갖춘 독립적인 오라클 시스템은 더욱 강력한 가격 데이터 피드를 제공합니다.
과잉 공급 및 중복 인프라
2025년 4월 바이낸스, 쿠코인, MEXC에 영향을 미친 AWS 서비스 중단은 중앙 집중식 인프라 의존의 리스크 보여주었습니다. 여러 클라우드 제공업체에 걸쳐 중요 구성 요소를 실행하면 운영 복잡성과 비용이 증가하지만, 상호 연관된 장애는 발생하지 않습니다. 레이어 2 네트워크는 자동 장애 조치를 통해 여러 RPC 제공업체를 유지할 수 있습니다. 이러한 추가 비용은 일반적인 운영 상황에서는 낭비처럼 보일 수 있지만, 최대 수요 발생 시 몇 시간의 다운타임을 방지합니다.
강화된 스트레스 테스트 및 용량 계획
시스템이 고장 날 때까지 정상적으로 작동하는 패턴은 부하 상황에서의 테스트가 부적절함을 나타냅니다. 정상 부하의 100배를 시뮬레이션하는 것이 표준 관행이어야 합니다. 개발 단계에서 병목 현상을 파악하는 것이 실제 장애 발생 시 발견하는 것보다 비용이 적게 듭니다. 그러나 현실적인 부하 테스트는 여전히 어렵습니다. 운영 트래픽은 합성 테스트에서 완전히 포착할 수 없는 패턴을 나타내며, 실제 장애 발생 시 사용자 행동은 테스트 시와 다릅니다.
앞으로 나아갈 길
오버프로비저닝은 가장 안정적인 해결책이지만 경제적 유인과 상충됩니다. 드물게 발생하는 이벤트에 대비하여 10배의 초과 용량을 유지하는 데는 일 년에 한 번 발생하는 문제를 예방하기 위해 매일 비용이 발생합니다. 심각한 장애로 인해 오버프로비저닝을 정당화할 만큼 충분한 비용이 발생할 때까지 시스템은 계속해서 과부하 상태에서 실패할 것입니다.
규제 압력은 변화를 강요할 수 있습니다. 규제가 99.9% 가동 시간을 의무화하거나 허용 가능한 다운타임을 제한한다면, 거래소 과잉 공급을 해야 할 것입니다. 하지만 규제는 재난 발생 시 예방이 아닌 사후 조치로 이어지는 경우가 많습니다. 2014년 마운트곡스(Mt. Gox) 사태는 일본에서 공식적인 암호화폐 거래소 규제로 이어졌습니다. 2025년 10월에 발생한 일련의 사건들은 유사한 규제 대응을 촉발할 가능성이 높습니다. 이러한 대응이 결과(최대 허용 다운타임, 청산 중 최대 슬리피지)를 명시하는지, 아니면 구현 방식(특정 오라클 제공업체, 서킷 브레이커 임계값)을 명시하는지는 불확실합니다.
근본적인 문제는 이러한 시스템이 글로벌 시장에서 지속적으로 운영되면서도 기존 업무 시간에 맞춰 설계된 인프라에 의존한다는 것입니다. 새벽 2시에 스트레스가 발생하면, 사용자들은 막대한 손실에 직면하는 가운데 각 팀은 해결책을 마련하기 위해 분주히 움직입니다. 스트레스 상황에서 기존 시장은 거래가 중단되고, 암호화폐 시장은 그대로 붕괴됩니다. 이것이 기능 문제인지 버그인지는 관점과 관점에 따라 달라집니다.
블록체인 시스템은 단기간에 놀라운 기술적 정교함을 달성했습니다. 수천 개의 노드에서 분산 합의를 유지하는 것은 진정한 엔지니어링의 위업입니다. 그러나 압박 속에서도 안정성을 확보하려면 프로토타입 아키텍처를 넘어 프로덕션급 인프라로의 전환이 필요합니다. 이러한 전환에는 기능 개발 속도보다는 안정성 확보에 우선순위를 두고, 자금 지원이 필요합니다.
모두가 수익을 내고 다운타임은 남의 일처럼 느껴지는 불장(Bull market) 속에서 성장보다 견고성을 우선시하는 것이 과제입니다. 다음 주기가 시스템을 스트레스 테스트할 때, 새로운 취약점이 나타날 것입니다. 업계가 2025년 10월의 실패에서 교훈을 얻을지, 아니면 비슷한 패턴을 반복할지는 여전히 미지수입니다. 역사적으로 볼 때, 다음 심각한 취약점은 스트레스 상황에서 수십억 달러 규모의 또 다른 실패를 통해 발견될 것입니다.




