클라우드 마비 사태, 왜 일어나며 어떻게 대처하는가?

클라우드가 마비되는 것을 100% 막을 수는 없다. 아마존도, 구글도, MS도 불가능한 일이다. 하지만 어쩔 수 없는 일이라고 해서 피해가 발생하지 않는 건 아니다. 클라우드 시대에 가장 큰 위협이 되고 있는 ‘클라우드 마비’에 대해 좀 더 깊이 알아보자.

[보안뉴스 문정후 기자] 기업들의 클라우드 의존도가 높아지고 있다. 네트워크 인프라를 클라우드 서비스로 대체하고, 각종 데이터를 저장하고, 심지어 보안을 강화하는 데에 전부 클라우드가 첫 번째 옵션으로 떠오르고 있는 것이다. 그렇기 때문에 클라우드가 가끔씩 정전될 때마다 기업들은 혼란을 겪는다. 적잖은 손해가 발생하기도 한다.

[이미지 = gettyimagesbank]

많은 사람들이 클라우드로 옮기면서 “여기서는 아무 일이 일어나지 않을 거야”라고 막연히 기대한다. 그것은 비용을 내는 것에 대한 보상심리일 수도 있고, 클라우드에 대한 기술적 이해 부족 때문일 수도 있다. 물론 온프레미스에서 자체적으로 IT 인프라 전체를 관리하는 것보다 전문적인 클라우드 서비스에 맡기는 것이 나은 부분이 많은 게 사실이다. 하지만 클라우드도 완전하지 않다. 세계에서 가장 유명한 서비스들이 이따금씩 정전되는 것을 우리는 실제로 여러 번 보아왔다. 그러므로 클라우드 마비에 대처해두는 것이 필요하다.

클라우드 정전을 야기하는 것에는 여러 가지가 있다. 그 중 지난 몇 년 동안 반복적으로 나타난 것들은 다음과 같다.

설정 오류
지금은 그래픽 사용자 인터페이스(GUI)와 자동화의 시대라고 해도 과언이 아니다. 우리는 텍스트보다 그래픽으로 현상을 이해하고, 손을 직접 대기보다 자동으로 많은 문제가 해결되는 때를 살고 있다. 하지만 IT 아키텍처의 근간을 이루는 수많은 기술들은 아직 텍스트와 수동 작업을 기본으로 하고 있다. 새로운 서버를 구축한다든지, 애플리케이션에 새로운 저장 영역을 지정한다든지, 새로운 라우터 테이블을 설정한다든지 할 때 우리는 텍스트 기반 수동 작업을 주로 실시한다. 그리고 이 과정에서 실수들이 심심찮게 발생한다.

클라우드 마비 역시 이러한 설정 오류로 인해 발생하는 경우가 상당히 많다. 페이스북, 인스타그램, 메신저, 왓츠앱, 오큘러스VR 등이 단순 설정 오류로 인해 6시간이나 마비됐었다. 라우팅 프로토콜에 관한 설정 문제였다. 메타라는 세계에서 손꼽히는 초대형 업체에서도 이런 실수들이 일어나고, 이 여섯 시간 동안 셀 수 없는 수많은 기업들이 손해를 봤다.

예상치 못한 시스템 행동 패턴
설정을 잘 해도 정전이나 마비가 발생한다. 최근 마이크로소프트에서도 이런 식으로 마비 현상이 발생했었다. 당시에는 문제의 원인이 발견되지 않았었는데, 알고 보니 몇 가지 명령어들이 다른 제조사들에서 만든 라우터들에서 각기 다른 결과를 낳고 있었다. 명령이나 설정이 똑같이 올바르게 적용됐음에도 라우터들마다 다른 결과를 출력하고, 그것이 쌓이니 대규모 마비 현상으로 이어진 것이었다.

당시 문제의 근원이 된 라우터를 만진 엔지니어들이 특이한 작업을 한 것도 아니었다. 평소에 하던 대로 라우터를 네트워크에 추가하고, 그렇게 함으로써 WAN을 확장한 것 뿐이었다. 그 과정에서 새 라우터에 IP 주소를 할당하고, 그 새 주소를 IGP(마이크로소프트 WAN 내의 모든 라우터들을 연결시키는 데 활용할 수 있는 프로토콜)와 BGP(인터넷 라우팅 정보를 마이크로소프트 WAN 내부로 연결시키는 프로토콜)라는 프로토콜들로 편입시키는 작업도 진행했다. 모든 것이 당연히 해야 하는 일이었고, 정상적으로 처리됐었다. 다만 다른 제조사들이 만든 각각의 라우터들이 상이한 방식으로 작동하는 바람에 일이 꼬이고 결국 네트워크가 마비되기에 이르렀었다.

전력 문제
클라우드 업체들이 데이터센터를 건립할 때 위치 선정에 신중을 기한다. 여러 가지 사안을 고민하지만 가장 중요한 건 ‘전기 공급’이다. 값싼 전기가 끊임없이, 안정적으로 데이터센터에 공급되어야만 하기 때문에 그 점을 확인하고 또 확인한다. 데이터센터는 일반 건물보다 평당 적게는 10배에서 많게는 50배에 이르는 전기를 사용하는 건물이기 때문이다. 전기 없으면, 혹은 전기가 불안정하면 사실상 존재 자체가 성립되지 않는다고 해도 과언이 아니다.

그럼에도 전기는 심심치 않게 끊기는 편이다. 현재까지 발생한 모든 클라우드 마비 혹은 정전 사건의 43%가 전력 공급 때문에 발생했다. 그래서 클라우드 업체들마다 비상 전력 공급을 위한 장치들을 마련해 두고 있다. 전기 공급이 갑자기 끊길 때, 어느 정도 시간은 스스로 버틸 수 있어야 하기 때문이다. 하지만 위에서 말했다시피 데이터센터는 어마어마하게 전기를 소모하는 곳이다. 비상 공급 전력으로는 충분할 수가 없다. 얼마 버티지 못한다. 전력 공급이 문제가 됐던 클라우드 마비 사건 중 가장 유명한 건 MS의 버지니아 주 데이터센터의 정전 사태일 것이다. 당시 해당 데이터센터는 무려 12시간이나 작동하지 않았다.

물리적 파손
세계 곳곳에서 여러 가지 공사가 진행된다. 통신사들도 네트워크 및 회사 부지 확장을 이유로 자주 공사를 실시한다. 그러면서 굴착기가 등장하고, 땅을 파는 작업이 이뤄지는데, 이 과정에서 매설되어 있던 케이블들이 끊기는 일이 이따금씩 발생한다. 땅 밑을 훤히 들여다볼 수 있는 게 아닌 이상 굴삭기를 조정하다가 땅 속의 케이블을 끊는 건 불가항력적인 사고다. 그리고 이렇게 끊긴 케이블들은 일부 클라우드 고객들이 서비스를 받지 못하게 만든다. 다만 최근 들어 이런 사고를 줄이기 위해 통신사들이 케이블 매설 지도를 만들어 케이블 위치를 최대한 꼼꼼하게 파악하고 있기는 하다. 사고의 빈도도 낮아지고 있다.

굴삭기들의 삽질을 어느 정도 안전하게 꾸려가고 있는가 싶더니, 이제는 자연이 문제가 될 때가 많다. 각종 재난 재해들이 온갖 통신선과 전기선을 끊어버리는 것이다. 작년 통가 섬 근처 해저 화산 폭발로 해저 광케이블이 끊기는 바람에 통가는 세계에서 완전히 고립되었다. 그 어떤 방법으로도 통신이 되지 않았었다가 케이블이 복구되면서 통가와 세계는 연락을 주고 받을 수 있게 됐다.

그러면서 세계는 해저 케이블 문제에 대해 경각심을 갖기 시작했다. 대륙에서 대륙으로 이어지는 통신 트래픽의 95%가 해저 케이블을 통과한다는 사실을 새삼스럽게 깨닫게 되면서 해저 케이블을 안전하게 보호하는 방법에 대한 고민이 시작된 것이다. 하지만 아직까지 뚜렷한 대책은 마련되지 않고 있다. 그 해저 케이블들이 대다수 지진과 화산 지대에 위치해 있다는 것만 알고 있을 뿐이다.

사고 및 악성 공격
여태까지의 사건 사고 사례를 보면 한 가지 사실이 확실해짐을 알 수 있다. 우리가 구축한 전 세계적인 통신망은 매우 연약하여 깨지거나 부서지기 쉽다는 것이다. 이 점을 많은 국가들이 깨달았고, 악의를 가진 자들 역시 알아가는 중이다. 특정 국가에 대한 적개심이 강한 나라나 정부, 테러리스트 집단이 있다면, 슬쩍 잠수함을 띄우거나 해저 작전을 실시해 통신 케이블 몇 가닥 잘라내면 큰 혼란을 야기할 수 있다. 사고로 위장해도 그만이다.

하지만 아직은 이렇게까지 적대적 행위를 실시하는 정부나 조직은 등장하지 않고 있다. 문제는 바다 밑에서 일어나는 여러 가지 현상들이다. 커다란 물고기 등 해양 생물들이 케이블을 건드릴 때도 있고, 어선들이 닻을 내리다가 케이블을 훼손하기도 한다. 강력한 해류가 문제가 되는 경우들도 있다. 전 세계 통신망은 그 자체로 살얼음판이라고 해도 과언이 아니다.

클라우드 마비, 어떻게 대처해야 하는가
이러한 각종 사건들을 예방하기 위해 클라우드 업체들이 실시하는 방법들이 몇 가지 있다. 하지만 사용자들 편에서도 해야 할 일들이 존재한다. 사건의 유형들 중 불가항력적인 것들도 있기 때문에 모든 책임을 클라우드 업체로만 떠넘기는 게 불가능하기도 하다. 손해를 줄이는 게 어느 정도는 사용자의 몫일 수밖에 없는 것이다.

먼저 클라우드 업체들은 마비나 정전을 최대한 빠르게 탐지하고, 더 나아가 예측하기 위해 여러 가지 방안들을 마련하는 중이다. 라우터 추가 및 설정 작업을 진행해야 할 때의 표준 방법론을 결정해 수정하고 있고, 위에서 언급한 것처럼 케이블 매설 현황을 지도로 꼼꼼하게 표기해 공사 시 사고 발생 가능성을 낮추기도 한다. 그 외에도 여러 기술들을 도입해 클라우드 운영과 관련된 현황들을 빠르게 파악하려 노력하고 있다.

또한 데이터가 이동하는 각종 경로를 하나 이상, 여러 개 마련하려는 작업도 진행되고 있다. 그래서 한 가지 경로가 끊기더라도 다른 경로를 통해 데이터가 이동할 수 있도록 하고 있다. 최첨단 백업 장치들과 시설들을 마련함으로써 비상 상황 발생 시를 대비한다. 또한 전력 공급을 안정화시키기 위해 보다 튼튼한 전기선을 사용한다든지, 데이터센터 자체에 발전 엔진을 가져다 놓는 등의 조치를 취하고 있기도 하다.

그렇다면 사용자 기업들은 어떤 조치를 취해야 할까? 사실 클라우드 업체들처럼 적극적이고 능동적으로 정전 사태나 마지에 대비하기는 힘들다. 그럼에도 피해는 고스란히 사용자 기업으로 넘어가는 경우가 많기 때문에 할 수 있는 모든 일을 해야 한다. 가장 중요한 건 클라우드 서비스 제공 업체가 이런 상황에 대비하기 위해 무슨 일을 하고 있는지 확인하고 문의하는 일을 부지런히 하는 것이다. 그 외에 다음과 같은 전략이 있을 수 있다.

1) 멀티 클라우드 전략을 택한다. 즉 여러 클라우드 서비스를 사용해 동시에 모든 기능이 마비되는 것을 막는다.
2) 프리미엄 서비스에 가입해서라도 한 데이터센터에서 문제가 발생했을 때 다른 데이터센터로 워크로드가 자동으로 이동해 사업 연속성을 확보할 수 있어야 한다.
3) 클라우드 서비스가 갑자기 마비되었을 때 어떤 일이 일어날 것인지 확인하고 관찰할 수 있도록 해 주는 도구나 서비스를 이용해 현 상황을 항상 주시한다.

글 : 살바토어 살라몬(Salvatore Salamone), IT 칼럼니스트
[국제부 문정후 기자(globoan@boannews.com)]

헤드라인 뉴스

TOP 뉴스

Copyright thebn Co., Ltd. All Rights Reserved.

시큐리티월드

IP NEWS

회원가입

Passwordless 설정

PC버전