지난 금요일, 전 세계가 혼란에 빠졌습니다. 수백만 대의 윈도우 컴퓨터가 갑자기 블루 스크린으로 바뀌고 작동을 멈췄습니다. 이 정전으로 전 세계의 많은 공항, 은행, 병원 및 중요 인프라가 마비되었습니다. 완전히 미친 짓이었습니다. 사람들은 그것이 일종의 디지털 테러 공격이라고 생각했습니다. 그럴 수도 있지만 우리는 모든 세부 정보를 가지고 있지 않습니다. 사람들이 빨리 알아낸 것은 범인이 손상된 CrowdStrike 시스템 파일이라는 것입니다!! 분명히, 잘못된 시스템 파일이 보안 업데이트를 통해 수백만 대의 Windows 컴퓨터에 푸시됩니다. Windows 운영 체제는 새로운 시스템 파일을 감지하고 재부팅을 시도했지만 실패했고 모든 것이 작동을 멈췄습니다. 제3자 회사(CrowdStrike)가 세심한 테스트 없이 원격으로 Windows 시스템에 파일을 푸시할 수 있다는 것은 미친 짓입니다. CrowdStrike 주식은 정전 후 당연히 자유낙하했습니다. 이 정전으로 인해 우리의 글로벌 IT 인프라가 실제로 얼마나 취약한지 궁금해졌습니다. CrowdStrike 같은 제3자 공급업체가 나쁜 업데이트를 푸시하는 것만으로 글로벌 IT 시스템에 엄청난 피해를 입힐 수 있다면, 러시아나 북한 해커들이 이런 공급업체에 침투해 이상한 곳에 맬웨어를 심어 막대한 피해를 입히는 것을 막는 것은 무엇일까요? 해커 뉴스 스레드 에 올라온 엄청나게 우울한 댓글이 있습니다.
이 맥락에서 CrowdStrike는 NT 커널 로드 가능 모듈(.sys 파일)로, syscall 레벨 가로채기를 한 다음 머신의 별도 프로세스에 로깅합니다. 또한 syscall이 다른 노드에 연결하려고 하거나 액세스해서는 안 될 파일에 액세스하려고 할 때 syscall이 작동하지 않도록 할 수도 있습니다(술에 취한 휴리스틱을 사용).
여기서 일어난 일은 이전 Falcon 센서 제품에 있던 느림과 지연 문제를 해결하기 위해 모든 클라이언트에 승인 없이 새로운 커널 드라이버를 푸시한 것입니다. 클라이언트가 이를 제어할 수 있도록 하는 스테이징 시스템이 있지만 모든 사람의 스테이징과 규칙을 무시하고 프로덕션에 푸시했습니다.
이로 인해 우리는 나가야 했고 현재 30명이 복구와 DR을 하고 있습니다. 대부분의 노드는 블루 스크린으로 부트 루핑되고 있는데, 클라우드에서는 F8을 눌러 드라이버를 제거할 수 없습니다. 우리는 말 그대로 각 노드를 내리고, 디스크를 작동하는 노드에 연결하고, .sys 파일을 삭제하고 다시 가져와야 합니다. 아니면 스냅샷 에서 완전히 새로운 노드를 가져오거나.
이건 괜찮지만 EC2는 지금 이걸 하는 사람들로 가득 차서 영원히 걸리고 있어요. 스토리지 지연 시간이 엄청나죠.
나는 이런 이유로 몇 달 동안 이 똥을 생산에서 제외하기 위해 싸웠다. 지금은 바쁘지만 옳았다.
편집: 윈도우에 대해 불평하는 모든 사람들에게, 우리는 윈도우에서 아무런 문제가 없었습니다. 이것은 윈도우 문제가 아닙니다. 이것은 커널에 똥을 싸는 제3자 보안 공급업체입니다.
사람들은 위에 표시된 대로 지침을 따라 개인용 컴퓨터를 다시 작동시킬 수 있지만 수만 대의 컴퓨터가 있는 거대한 서버 팜에 수정 사항을 적용하는 것은 위에서 언급한 대로 엄청난 도전이 될 것입니다. 이것은 터무니없고 이것이 악의적인 사람들에게 제3자 보안 업데이트를 통해 세상을 장악할 수 있는 방법에 대한 아이디어를 제공하지 않기를 바랍니다.