[보안뉴스 문정후 기자] 주말 동안 사상 초유의 전 세계 IT 마비 사태가 발생했고, 그 원인은 크라우드스트라이크(CrowdStrike)라는 보안 업체의 ‘업데이트’였다는 사실이 드러났다. 하지만 세부적인 내용에 대해서는 아직까지 알려진 바가 없다. 그런 가운데 크라우드스트라이크가 1차 조사 결과 보고서를 발표했다. 이를 간략히 요약하면 다음과 같다.
[이미지 = gettyimagesbank]
어떤 사건이 발생했나
크라우드스트라이크가 정리한 내용에 따르면 2024년 7월 19일 금요일 크라우드스트라이크는 윈도 기반 컴퓨터들에 설치되는 팔콘(Falcon) 플랫폼의 정기 업데이트를 진행했다고 한다. 팔콘은 윈도 환경을 ‘동적으로’ 보호하는 장치로, 변화하는 위협들에 뒤쳐지지 않기 위해서 꾸준한 업데이트를 필요로 한다. 늘 하던 작업을 했다는 것인데, 그날 만큼은 신속대응콘텐트(Rapid Response Content) 설정을 최신화 하는 과정에서 윈도와의 충돌이 발생했다고 한다.
크라우드스트라이크가 업데이트를 배포한 건 UTC 시간 기준 7월 19일 금요일 새벽 4시 9분과 5시 27분 사이였다. 따라서 이 시간에 컴퓨터를 켜서 인터넷에 연결 후 팔콘의 최신 업데이트 파일을 받아 설치한 경우 시스템이 마비되는 일을 겪게 됐다. 크라우드스트라이크는 5시 27분에 업데이트를 되돌렸고, 따라서 이 시간 이후에 온라인을 통해 연결된 윈도 팔콘 사용자라면 사건의 영향을 받지 않을 수 있었다.
왜 충돌이 일어났는가?
늘 하던 일이지만 유독 그 날 큰 문제가 터졌던 건 신속대응콘텐트 업데이트에 문제가 있었는데, 이를 배포하기 전에 파악하지 못했기 때문이라고 크라우드스트라이크는 설명한다. 신속대응콘텐트는 각종 행동 패턴 매칭 작업을 수행하는 데 필요한 핵심 요소 중 하나로, 팔콘의 ‘동적 보호’를 가능하게 하는 원동력이라고 해도 과언이 아니다. 그 중요한 것을 업데이트 하는 과정에서 크라우드스트라이크가 발견하지 못한 오류가 생겨났다는 것이다.
“신속대응콘텐트는 동적 방어 요소이기 때문에 늘 최신 위협 정보를 가지고 있어야 합니다. 최초 개발 시 입력된 위협에만 대응을 하는 것이었다면 정적 방어 도구로서의 역할을 했겠지요. 그러면 업데이트도 필요 없었을 테고요. 즉 팔콘이 동적인 방어 플랫폼으로 있을 수 있는 건 신속대응콘텐트 덕분이고, 신속대응콘텐트가 동적인 방어 도구의 근간이 될 수 있는 건 꾸준한 업데이트 덕분이라고 할 수 있습니다. 그만큼 이번에 문제가 된 ‘업데이트’가 크라우드스트라이크 팔콘에 있어서 대단히 중요한 위치를 차지하고 있다고 할 수 있습니다.”
그렇다는 건 주기적으로 하는 이 업데이트 과정을 크라우드스트라이크가 소홀히 하지 않는다는 뜻이 된다. “반드시 스트레스 테스트를 다방면으로 진행하고 나서 배포합니다. 리소스 활용, 시스템 퍼포먼스 이상 상황 발생 등 다양한 시나리오를 극한으로 설정해 업데이트 된 신속대응콘텐트가 올바로 작동하는지 확인하죠. 또한 최종 배포 전에는 콘텐트밸리데이터(Content Validator)라는 도구를 활용해 업데이트의 유효성을 확인하는 과정도 거칩니다.”
그런데 19일에는 이 콘텐트밸리데이터에 버그가 하나 있었다. 그래서 업데이트 파일들의 유효성 검사가 제대로 이뤄지지 않았다. 원래였다면 통과되지 않았어야 할 템플릿 인스턴스 한 개가 정상으로 분류됐다. 콘텐트밸리데이터에 대해 의심할 이유가 크라우드스트라이크에는 없었고, 따라서 정상으로 분류된 업데이트 관련 파일들을 전부 배포 채널에 올려 고객들에게 전달하기 시작했다. “얼마 후 고객들의 팔콘 센서들로 업데이트가 도착했습니다. 그러자 아웃오브바운드 메모리 리드(out-of-bounds memory read) 문제가 발생하기 시작했고 윈도와 충돌해 결국 윈도 시스템 전체를 마비시키기에 이르렀습니다.”
급히 마무리 된 보고서
업데이트를 마지막으로 검사하는 도구에 있던 버그 하나가 그 큰 사건을 일으킨 것이라고 크라우드스트라이크는 설명하고 있다. 하지만 정작 이번 보고서를 통해서는 그 버그에 대해 아무런 설명도 제공하지 않았다. 작은 힌트도 기재되지 않았다. 이 때문에 보고서를 읽어도 개운한 느낌이 들지 않고, 오히려 다음 보고서가 더 조급하게 기다려지게 된다.
대신 크라우드스트라이크는 똑같은 일이 재발하지 않는 방법을 도입하겠다며 보고서를 마무리했다. “먼저는 신속대응콘텐트의 시험 과정을 강화하는 겁니다. 이는 로컬 개발자를 활용한 시험 절차 삽입, 콘텐츠 업데이트와 롤백 양방향 시험, 스트레스 테스트와 퍼징 테스트, 의도적인 결함 주입, 안정성 시험, 콘텐츠 인터페이스 시험 등을 통해 해결이 가능합니다.” 기존의 정기 업데이트 시 도입할 만한 것들로 보인다. 여기에 더해 콘텐트밸리데이터의 오류를 해결하는 것까지 짚었다.
3줄 요약
1. 원래 크라우드스트라이크는 팔콘의 동적 방어를 위해 꾸준한 업데이트 진행.
2. 꼼꼼하게 검사해보고 배포하는 게 정상인데, 7월 19일에는 테스트 도구 하나에 버그가 있었음.
3. 버그에 대해서는 아무런 설명이 없어 아쉬운 보고서.
[국제부 문정후 기자(globoan@boannews.com)]
<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>