[인터뷰] 김근우 과학기술정보통신부 디지털재난대응TF팀 사무관
‘실시간 장애 예측 진단 시스템 인식 및 선택기준에 대한 설문조사’
[장애진단 대표 솔루션 분석] 엔시큐어, 리버베드, 맥데이타, 켄틱, 데이터독
[보안뉴스 김경애 기자] 대국민 메신저 카카오톡에서 지난 1월 17일 서비스 장애가 발생했다. 서비스 장애는 메시지 송수신 장애와 로그인 장애 등으로 약 9분 가량 이어졌다. 카카오는 지난 2022년 10월 15일에도 서비스 장애가 발생했다. 경기도 성남시 판교에 위치한 데이터센터 화재로 인해 대규모 서비스 장애가 일어난 것. 서비스 이용 차질에 이용자들의 불만은 커졌으며, 금전적 손실까지 발생해 카카오는 대국민 사과에 이어 피해 보상을 발표하는 등 사태가 일파만파 커졌다.
[이미지=utoimage]
대규모 서비스 장애에 대한 재발 방지를 위해 이른바 ‘카카오 먹통 방지법’도 개정됐다. 개정된 법은 ‘방송통신발전기본법(이하 방송통신발전법)’, ‘정보통신망 이용촉진 및 정보보호 등에 관한 법률(이하 정보통신망법)’, ‘전기통신사업법’의 일부가 개정됐으며, 2023년 7월 4일부터 시행된다.
이번 사건으로 인해 서비스 장애 대비와 재해복구의 중요성은 더욱 커지고 있다. 서비스 장애는 이용자들의 불편과 혼란은 물론 물리적, 금전적 손실로 막대한 피해를 입혔기 때문이다. 이는 비단 카카오뿐만이 아니다. 인터넷뱅킹, 결제 시스템 등 다양한 디지털 서비스 환경에서도 시스템 장애와 오류가 심심치 않게 일어나고 있다. 서비스 장애 대비와 재해복구의 중요성이 부각되는 이유다. 이를 위한 대응방안으로 실시간 장애진단 및 재해복구 솔루션에도 관심이 모아지고 있다.
이에 <보안뉴스>에서는 서비스 장애와 관련 있는 방송통신발전법, 정보통신망법, 전기통신사업법의 주요 개정안을 살펴보고, 과학기술정보통신부 디지털재난대응TF팀의 김근우 사무관과의 인터뷰를 통해 이번 카카오 먹통 사태의 사고원인과 조사결과, 안정성 확보조치를 위한 관련법의 주요 개정 내용 등에 대해 들어봤다. 이어 ‘실시간 장애 예측 진단 시스템 인식 및 선택기준에 대한 설문조사’결과와 보안기업의 인터뷰를 통해 기업에서 발생하는 서비스 장애와 재해복구관리의 문제점에 대해 들어봤다.
‘카카오 먹통 방지법’ 2023년 7월 4일부터 시행
방송통신발전법·정보통신망법·전기통신사업법 개정
이른바 ‘카카오 먹통 방지법’은 ‘방송통신발전법’, ‘정보통신망법’, ‘전기통신사업법’으로 일부 개정을 통해 2023년 7월 4일부터 시행된다. 개정된 주요 내용은 첫째 재난관리 대상사업자 지정 확대를 위해 방송통신발전법 제35조(방송통신재난관리기본계획의 수립) 1항과 디지털 재난 예방 및 복구 강화를 위해 2항이 개정됐다. 둘째, 주요 부가통신사업자와 데이터센터 사업자의 재난관리 심의 강화를 위해 통신재난관리심의위원회의 역할을 확대하도록 방송통신발전법 제35조의2(통신재난관리심의위원회)가 개정됐다. 셋째, 집적정보통신시설(데이터센터) 보호 강화를 위해 정보통신망법 제46조 1항이 개정됐고, 3~9항이 신설됐다. 넷째, 부가통신사업자의 서비스 안정성 확보를 위해 전기통신사업법 제22조의7 1항이 개정되고, 2~5항이 신설됐다. 마지막으로 과태료와 관련해 정보통신망법 제76조 1항과 3항, 전기통신사업법 제92조 1항(시정명령 등), 전기통신사업법 제104조 5항이 개정됐다.
대상 사업자 지정 확대를 위해 방송통신발전법 35조 1항 개정
방송통신재난관리기본계획의 수립
과학기술정보통신부장관과 방송통신위원회는 다음 각 호의 방송통신사업자(이하 ‘주요방송통신사업자’라 한다)의 방송통신서비스에 관해 ‘재난 및 안전관리기본법’에 따른 재난이나 ‘자연재해대책법’에 따른 재해 및 그 밖에 물리적·기능적 결함 등(이하 ‘방송통신재난’이라 한다)의 발생을 예방하고, 방송통신재난을 신속히 수습· 복구하기 위한 방송통신재난관리기본계획을 수립·시행해야 한다.<개정 2023. 1. 3.>
①‘전기통신사업법’ 제6조에 따라 기간통신사업 등록자 등을 한 자로서 대통령령으로 정하는 요건에 해당하는 자 ②‘방송법’ 제2조제3호가목에 따른 지상파방송사업자(‘방송법’ 제2조제1호가목에 따른 텔레비전방송을 하는 지상파방송사업자로 한정하되, ‘지역방송발전지원 특별법’ 제2조제1항제2호에 따른 지역방송사업자는 제외한다) ③‘방송법’ 제2조제3호 라목에 따른 방송채널사용사업자(종합편성 또는 보도에 관한 전문편성을 행하는 방송채널사용사업자에 한정한다) ④‘전기통신사업법’ 제22조제1항에 따라 부가통신사업의 신고를 한 자로서 이용자 수 또는 트래픽양 등이 대통령령으로 정하는 기준에 해당하는 자 ⑤‘정보통신망 이용촉진 및 정보보호 등에 관한 법률’ 제46조제1항에 따른 집적정보통신시설 사업자등으로서 시설 규모, 매출액 등이 대통령령으로 정하는 기준에 해당하는 자.
디지털 재난 예방 및 복구 강화를 위해 방송통신발전법 제35조 2항 개정
방송통신재난관리기본계획
방송통신 재난관리 기본계획에는 다음 각 호의 사항이 포함되어야 한다.<개정 2023. 1. 3.>
①방송통신재난이 발생할 위험이 높거나 방송통신재난의 예방을 위해 계속적으로 관리할 필요가 있는 방송통신설비와 그 설치 지역 등의 지정 및 관리에 관한 사항 ②국민의 생명과 재산 보호를 위한 신속한 재난방송 실시에 관한 사항 ③방송통신재난에 대비하기 위해 필요한 다음 각 목에 관한 사항 △가. 우회 방송통신 경로의 확보 △나. 방송통신설비의 연계 운용 및 방송통신서비스 긴급복구를 위한 정보체계의 구성 △다. 피해복구 물자의 확보 △라. 서버, 저장장치, 네트워크, 전력공급장치 등의 분산 및 다중화 등 물리적·기술적 보호조치 ④그 밖에 방송통신재난의 관리에 필요하다고 인정되는 사항이다
재난관리 심의 강화를 위해 방송통신발전법 제35조의2 개정
통신재난관리심의위원회
통신재난관리에 관한 다음 각 호의 사항을 심의하기 위해 과학기술정보통신부에 통신재난관리심의위원회(이하 ‘심의위원회’라 한다)를 둔다.<개정 2023. 1. 3.>
①제35조에 따른 방송통신재난관리기본계획 중 통신 분야에 관한 사항 ②제35조의3에 따른 통신시설의 등급 지정에 관한 사항 ③제35조제1항제1호, 제4호 및 제5호에 해당하는 사업자(이하 ‘주요통신사업자’라 한다)의 제36조의2에 따른 방송통신재난관리계획의 이행 여부에 대한 지도·점검에 관한 사항 ④제37조에 따른 방송통신설비(통신설비로 한정한다)의 통합 운용에 관한 사항 ⑤제37조의2에 따른 무선통신시설의 공동이용 등에 관한 사항 ⑥그 밖에 통신재난관리를 위해 필요한 사항이다.
정보통신망법 제46조 1항 개정
집적된 정보통신시설의 보호
다음 각 호의 어느 하나에 해당하는 정보통신서비스 제공자 중 정보통신시설의 규모 등이 대통령령으로 정하는 기준에 해당하는 자(이하 ‘집적정보통신시설 사업자 등’이라 한다)는 정보통신시설을 안정적으로 운영하기 위해 대통령령으로 정하는 바에 따른 보호조치를 해야 한다.<개정 2023. 1. 3.>
①타인의 정보통신서비스 제공을 위해 집적된 정보통신시설을 운영·관리하는 자(이하 ‘집적정보통신시설 사업자’라 한다) ②자신의 정보통신서비스 제공을 위해 직접 집적된 정보통신시설을 운영·관리하는 자.
정보통신망법 제46조 3항 신설
과학기술정보통신부장관은 정기적으로 제1항에 따른 보호조치의 이행 여부를 점검하고, 보완이 필요한 사항에 대해 집적정보통신시설 사업자 등에게 시정을 명할 수 있다. 다만, 집적정보통신시설 사업자 등에 대해 ‘방송통신발전 기본법’ 제36조의2제2항에 따른 점검을 실시한 사항의 경우에는 제1항에 따른 보호조치의 이행 여부 점검 사항에서 제외한다.<신설 2023. 1. 3.>
정보통신망법 제46조 4항 신설
과학기술정보통신부장관은 집적정보통신시설 사업자 등에 해당 하는지 여부의 확인 및 제3항에 따른 점검을 위해 제1항 각호의 어느 하나에 해당하는 정보통신서비스 제공자, 관계 중앙행정기관의 장, 지방자치단체의 장 및 ‘공공기관의 운영에 관한 법률’ 제4조에 따라 공공기관으로 지정된 기관의 장에게 자료의 제출을 요구할 수 있다. 이 경우 자료제출 요구를 받은 자는 정당한 사유가 없으면 그 요구에 따라야 하며, 자료제출 요구의 절차·방법 등에 관해서는 제64조제6항 및 제9항부터 제11항까지를 준용한다.<신설 2023. 1. 3.>
정보통신망법 제46조 5항 신설
제4항에 따라 제출받은 자료의 보호 및 폐기에 관해서는 제64조의2를 준용한다.<신설 2023. 1. 3.>
정보통신망법 제46조 6항 신설
집적정보통신시설 사업자 등은 재난이나 재해 및 그 밖의 물리적·기능적 결함 등으로 인해 대통령령으로 정하는 기간 동안 정보통신서비스 제공의 중단이 발생한 때에는 그 중단 현황, 발생원인, 응급조치 및 복구대책을 지체 없이 과학기술정보통신부장관에게 보고해야 한다. 이 경우 과학기술정보통신부장관은 집적된 정보통신시설의 복구 및 보호에 필요한 기술적 지원을 할 수 있다.<신설 2023. 1. 3.>
정보통신망법 제46조 7항 신설
집적정보통신시설 사업자가 제공하는 집적된 정보통신시설을 임차한 정보통신서비스 제공자는 집적정보통신시설 사업자의 제1항에 따른 보호조치의 이행 등에 적극 협조해야 하며, 제1항에 따른 보호조치에 필요한 설비를 직접 설치·운영하거나 출입 통제를 하는 등 임차시설을 배타적으로 운영·관리하는 경우에는 대통령령으로 정하는 바에 따라 보호조치의 이행, 재난 등으로 인한 서비스 중단 시 보고 등의 조치를 해야 한다.<신설 2023. 1. 3.>
정보통신망법 제46조 8항 신설
과학기술정보통신부장관은 제3항에 따른 점검과 제6항에 따른 기술적 지원에 관한 업무를 대통령령으로 정하는 전문기관에 위탁할 수 있다.<신설 2023. 1. 3.>
정보통신망법 제46조 9항 신설
제3항에 따른 점검의 주기 및 방법, 제6항에 따른 보고의 방법, 그 밖에 필요한 사항은 대통령령으로 정한다.<신설 2023. 1. 3.>
정보통신망법 제76조 1항 개정
과태료
다음 각 호의 어느 하나에 해당하는 자와 제7호부터 제11호까지의 경우에 해당하는 행위를 하도록 한 자에게는 3천만원 이하의 과태료를 부과한다. 6의4. 제46조제3항에 따른 시정명령을 이행하지 않은 자.
정보통신망법 제76조 3항 개정
다음 각 호의 어느 하나에 해당하는 자에게는 1천만원 이하의 과태료를 부과한다. 4의2. 제46조제4항에 따른 자료의 제출요구에 정당한 사유 없이 따르지 아니한 자. 다만, 관계 중앙행정기관(그 소속기관을 포함한다)의 장은 제외한다. 4의3. 제46조제6항을 위반해 보고하지 않거나 거짓으로 보고한 자.
전기통신사업법 제22조의7 1항 개정
부가통신사업자의 서비스 안정성 확보 등
이용자 수, 트래픽 양 등이 대통령령으로 정하는 기준에 해당하는 부가통신사업자(제22조제1항에 따라 부가통신사업을 신고한 자, 같은 조 제2항에 따라 부가통신사업을 등록한 자 또는 같은 조 제4항에 따라 부가통신사업을 신고한 것으로 보는 자를 말한다. 이하 같다)는 이용자에게 편리하고 안정적인 전기통신서비스를 제공하기 위해 서비스 안정수단의 확보, 이용자 요구사항 처리 등 대통령령으로 정하는 필요한 조치를 취해야 한다.<개정 2023. 1. 3.>
전기통신사업법 제22조의7 2항 신설
과학기술정보통신부장관은 부가통신사업자가 제1항에 따른 기준에 해당하는지 여부를 확인하기 위해 부가통신사업자 또는 관련 전기통신사업자에게 이용자 수, 트래픽 양 등의 현황을 요청할 수 있다.<신설 2023. 1. 3.>
전기통신사업법 제22조의7 3항 신설
제1항에 따른 부가통신사업자는 제1항에 따른 조치의 이행 현황 및 계획에 관한 자료를 작성해 과학기술정보통신부장관에게 매년 1월 말까지 제출해야 한다.<신설 2023. 1. 3.>
전기통신사업법 제22조의7 4항 신설
과학기술정보통신부장관은 전기통신서비스 전송 속도가 저하되는 등 전기통신서비스 제공에 장애가 발생하거나 전기통신서비스 제공이 중단되어 제1항에 따른 부가통신사업자가 제공하는 전기통신서비스의 안정성 확보에 저해가 되었다고 판단되는 경우 제1항에 따른 조치의 이행 현황을 확인하기 위해 제1항에 따른 부가통신사업자에게 관련 자료의 제출을 요청할 수 있다. 이 경우 요청을 받은 부가통신사업자는 정당한 사유가 없으면 그 요청에 따라야 한다.<신설 2023. 1. 3.>
전기통신사업법 제22조의7 5항 신설
제3항 및 제4항에 따라 제출받은 자료의 보호 및 폐기에 관해서는 ‘정보통신망 이용촉진 및 정보보호 등에 관한 법률’ 제64조의2를 준용한다.<신설 2023. 1. 3.>
전기통신사업법 제22조의8 1항 개정
국내 대리인의 지정
국내에 주소 또는 영업소가 없는 부가통신사업자로서 제22조의7제1항에서 정한 기준에 해당하는 자는 다음 각 호의 사항을 대리하는 자(이하 ‘국내 대리인’이라 한다)를 서면으로 지정해야 한다.<개정 2023. 1. 3.> ①제22조의7제1항에 따른 이용자 요구사항 처리를 위한 국내 연락 수단의 확보 ②제22조의7제3항 및 제4항에 따른 자료 제출 ③제32조제1항에 따른 이용자 보호 업무 ④제32조제2항 후단에 따른 자료제출 명령의 이행.
전기통신사업법 제22조의8 4항 신설
국내 대리인은 제1항에 따른 부가통신사업자와 유효한 연락수단을 확보해야 한다.<신설 2023. 1. 3.> 전기통신사업법 제92조 1항 개정 시정명령 등 과학기술정보통신부장관 또는 방송통신위원회는 각각 소관 업무에 따라 전기통신사업자 또는 시설관리기관이 다음 각 호의 어느 하나에 해당할 때에는 그 시정을 명할 수 있다. 이 경우 제22조의5를 위반한 행위에 대해 방송통신위원회가 시정을 명한 경우에는 ‘방송통신위원회의 설치 및 운영에 관한 법률’ 제18조에 따른 방송통신심의위원회에 그 사실을 통보한다.
1. 제3조, 제4조, 제4조의2, 제6조, 제9조부터 제11조까지, 제14조부터 제22조까지, 제22조의3부터 제22조의5까지, 제22조의7부터 제22조의9까지, 제23조, 제24조, 제26조부터 제28조까지, 제30조부터 제32조까지, 제32조의3, 제32조의4, 제32조의6, 제32조의7, 제32조의8, 제33조부터 제35조까지, 제35조의2, 제36조부터 제44조까지, 제47조부터 제49조까지, 제51조, 제56조부터 제60조까지, 제60조의2, 제60조의3, 제61조, 제62조, 제64조부터 제66조까지, 제69조, 제73조부터 제75조까지, 제79조 또는 제82조부터 제84조까지, 제84조의2, 제85조부터 제87조까지 및 제88조를 위반하거나 이들 규정에 따른 명령을 위반한 경우.
전기통신사업법 제104조 5항 개정
과태료
다음 각 호의 어느 하나에 해당하는 자에게는 1천만원 이하의 과태료를 부과한다. 다만, 제8호 또는 제17호에 해당하는 자가 제1항제5호 또는 제6호에 해당하는 자인 경우는 제외한다. 2의3. 제22조의7제3항에 따른 자료 제출을 하지 않거나 거짓으로 자료 제출을 한 자 2의4. 제22조의7제4항에 따른 자료의 제출 요청에 정당한 사유 없이 따르지 않거나 거짓으로 자료 제출을 한 자.
=====================================================================
[인터뷰] 김근우 과학기술정보통신부 디지털재난대응TF팀 사무관
정부에선 이번 카카오 먹통 사태에 대해 어떻게 조치하고 있을까. 본지는 과학기술정보통신부 디지털재난대응TF팀의 김근우 사무관과의 인터뷰를 통해 이번 카카오 먹통 사태의 사고원인 및 조사결과와 안정성 확보조치를 위한 관련법의 주요 개정 내용, 그리고 이번 사태와 관련해 디지털재난대응TF팀의 향후 계획에 대해 들어봤다.
▲카카오먹통방지법 개정안 주요 내용[이미지=보안뉴스]
카카오 사태와 관련해 기업 실태조사는 어디까지 진행됐으며, 어떤 문제점이 있나요
이번 판교 데이터센터 화재사고로 인해 주로 영향을 받았던 SK C&C, 카카오, 네이버를 대상으로 대응경과, 사고원인 등에 대해 조사했습니다.
SK C&C의 경우 ①배터리 모니터링 시스템에서 이상징후를 포착하지 못했습니다. ②리튬이온 배터리 화재에 적합한 소화설비가 없었어요. ③배터리와 다른 전기설비 간 물리적 공간 미분리로 인해 UPS 작동중지 및 전력선이 손상되었습니다. ④특정 구역 전원차단 스위치를 단시간 내 식별이 불가해 선별적 차단 조치를 수행하지 못했습니다. ⑤화재 대비 매뉴얼은 있었으나 실제 화재 상황을 반영한 세부 대응계획 및 모의훈련이 없었습니다.
카카오는 ①‘운영 및 관리도구’ 등 일부 서비스 구성요소의 이중화가 미흡했습니다. ②핵심기능이 판교 데이터센터에 집중되어 기능 분산이 미흡했습니다. ③장애 탐지·전파·복구 전반에 걸친 체계화 및 자동화가 미흡했고, ④대규모 재난 상황에 대한 모의훈련 등 대비가 부족했습니다.
네이버는 데이터센터 간 이중화 조치를 통해 서비스 중단은 없었으나, 타 데이터센터로 서비스 전환 과정 등에서 일부 기능에 오류가 발생했습니다.
기업에서 준비해야 할 안정성 확보 기준에 대해 설명해 주신다면
안전성 확보기준은 예방, 대비, 대응, 복구 등의 단계 기준에 맞춰 안전성을 확보해야 하는데요. 첫째, 예방단계에선 설비를 분산하고 다중화 하는 등 기술적·관리적 조치가 이뤄져야 합니다. 둘째, 대비단계에서 매뉴얼을 정비하고, 모의훈련을 실시해야 합니다. 셋째, 대응단계에선 상시적으로 대응조직을 구성하고, 신속하게 장애 고지를 할 수 있도록 체계를 구축해야 합니다. 넷째, 복구단계에서는 복구프로세스를 체계화하고 자동화해야 합니다. 이는 전주기에 걸친 재난관리 강화를 통해 재난·재해 등 사고가 발생하더라도 이용자에게 중단 없는 서비스를 제공해야 합니다.
기업에서 서비스 장애 및 복구를 위해 개선해야 할 점은 무엇인가요
사고원인 및 조사결과를 바탕으로, SK C&C, 카카오, 네이버 3사에 다음과 같은 시정조치를 요구했는데요. SK C&C는 ①배터리 모니터링 시스템 관리강화 방안 및 다양한 화재감지 시스템 구축 방안 수립 ②리튬이온 배터리 화재를 대비한 소화설비 등 구축 ③배터리와 다른 전기설비 간 물리적 공간 분리 및 배터리실 내 전력선을 재배치 ④재난 발생 구역의 전력을 개별·원격 차단하는 방안 수립 ⑤현실적 재난대응 시나리오 개발 및 모의훈련 실시 등 시스템 장애 및 복구 개선을 요구했습니다.
카카오는 ①복구 지연의 핵심 원인이었던 ‘운영 및 관리도구’에 대한 매우 높은 수준의 다중화 적용과 ②핵심기능에 대한 기존보다 높은 수준의 분산 및 다중화 방안 수립 ③최악의 상황을 대비한 훈련 계획 수립 및 모의훈련 실시 ④신속한 복구를 위한 상시 대응조직 구성 ⑤장애 탐지-전파-복구 전 단계의 복구체계의 자동화 등 개선방안 수립 ⑥장애 발생 시 신속한 이용자 고지 체계 구축 등을 요구했습니다.
네이버는 ①서비스별 복구를 목표로 장애 시나리오별 복구 방안 등의 재점검을 통한 개선방안 마련과 ②데이터센터 전소 등의 상황을 가정한 모의훈련 실시 등의 개선을 요구했습니다.
서비스 장애 및 복구와 관련해 현 법제도의 문제점과 개선해야 할 점은 무엇인가요
안정적인 디지털 서비스 제공을 위한 디지털 재난·안전관리 강화 필요성이 증대되고 있으나, 기업에는 주요 기간통신사업자에 대해서만 전주기적 재난관리 의무가 부과되고 있었습니다. 이번 사고 이후 국회 논의를 거쳐 ‘방송통신발전 기본법’, ‘정보통신망법’ 등을 개정해 주요 부가통신사업자 및 데이터센터 사업자도 전주기적 재난관리 의무대상에 포함되었습니다. 따라서 후속 조치로 ‘방송통신발전 기본법’, ‘정보통신망법’ 하위 법령·고시 개정 등을 통해 구체적인 사항을 규율할 예정입니다.
디지털재난대응TF팀에서 안정성 확보를 위해 준비하고 있는 점은 무엇인가요
SK C&C, 카카오, 네이버 3사에 요구한 시정조치 결과와 향후 추진계획을 바탕으로 1분기에 디지털 서비스 안정성 강화를 위한 종합적인 대책을 발표할 예정입니다. 특히 ‘방송통신발전 기본법’, ‘정보통신망법’을 원활하게 시행하기 위해, 하위 법령·고시를 상반기 중에 개정할 예정입니다.
안정성 확보를 위한 개정된 법의 주요 내용은 무엇인가요
이른바 ‘카카오 먹통 방지법’은 판교 데이터센터 화재사고 및 이에 따른 대규모 서비스 장애의 재발방지와 디지털 재난·안전관리 강화를 위한 ‘방송통신발전 기본법’, ‘정보통신망법(46조 1항-표현)을 개정하고’ 3~9항까지 신설, ‘전기통신사업법’의 개정안을 의미하며, 주요 내용은 다음과 같습니다.
판교 데이터센터 화재사고(2022년 10월 15일) 이후 디지털 서비스 재난·안전관리 강화를 위한 법률 개정안이 의원 발의되었습니다. 이후 국회 논의를 거쳐 본회의 의결(2022년 12월 8일) 및 공포(2023년 1월 3일)되었습니다. 현재 개정법률의 원활한 시행을 위한 하위 법령·고시 개정(2023년 상반기)을 추진하고 있으며 세부적인 내용은 아직 내부 논의중입니다.
‘방송통신발전 기본법’과 관련해서는, 주요방송통신사업자(부가통신 및 데이터센터 분야) 지정기준을 새롭게 설정하고, ‘정보통신망법’과 관련해서는 집적정보통신시설(데이터센터) 보호조치 세부내용을 개선하고, 이행점검·재난보고 절차 등을 규정할 예정입니다.
판교 IDC 센터 화재로 인한 카카오 서비스 장애와 관련해 정부가 사업자의 망 이원화 이행 여부 등을 제대로 점검했다면 피해 규모를 줄일 수 있었을 것이라는 지적이 있습니다. 이에 대해 어떤 준비를 하고 있나요
지금까진 기존 규정에 따라 기간통신사업자의 통신망 이원화 이행 여부에 대해서만 점검하고 있었습니다. 하지만 사고 이후 ‘방송통신발전 기본법’의 개정을 통해 부가통신사업자도 주요 방송통신사업자에 포함 시킬 수 있는 근거가 마련되었습니다. 현재 ‘방송통신발전 기본법 시행령’ 등 하위 법령·고시 개정 작업을 진행하고 있습니다. 개정이 완료되면 주요 부가통신사업자의 서버·저장장치의 분산 및 다중화 등을 포함해 ‘방송통신재난관리 기본계획’을 수립하고, 사업자의 이행 여부를 지도·점검할 예정입니다.
앞으로 시스템 마비 예방을 위한 디지털재난대응TF의 계획이 궁금합니다.
1분기에 디지털 서비스 안정성 강화를 위한 종합적인 대책을 발표하고, 상반기에 3개 개정법률의 하위 법령·고시를 개정해 하반기부터 개정법이 원활하게 시행될 수 있도록 할 예정입니다.
====================================================================
[설문조사] 기관·기업 56.7%, 시스템 장애 발생
기관·기업 39%, 장애 원인 추적 및 신속한 대응 불가
기업에선 여전히 시스템 장애가 잇따라 발생하며, 어려움을 호소하고 있다. 이에 본지가 2023년 1월 6일부터 13일까지 기관·기업의 보안담당자를 대상으로 ‘실시간 장애 예측 진단 시스템 인식 및 선택기준에 대한 설문조사’를 실시한 결과 ‘시스템 장애 발생 경험’에 대해 56.7%의 응답자가 시스템 장애 발생 경험이 ‘있다’고 밝혔다.
▲‘실시간 장애 예측 진단 시스템 인식 및 선택기준에 대한 설문조사’ 결과[이미지=보안뉴스]
시스템 장애 발생 주요 원인’으로는 ‘트래픽 통신 장애’가 35.6%로 가장 높았다. 다음으로는 ‘대규모 트래픽으로 인한 네트워크 장비 과부하’가 15.9%로 2위를 차지했고, ‘시스템 운영자의 실수’가 13%, ‘네트워크 설정 오류’와 ‘악성 해커의 고의적인 디도스 공격’이 동일하게 10.6%를 기록했다.
▲‘실시간 장애 예측 진단 시스템 인식 및 선택기준에 대한 설문조사’ 결과[이미지=보안뉴스]
‘시스템 장애 방지 업무에서 가장 어려운 점’으로는 ‘전문인력 부재 및 부족으로 장애 원인 추적 및 신속한 대응 불가’가 39%로 가장 높은 수치를 기록했다. 이어 ‘지속적인 업데이트 및 체계적인 관리의 어려움’ 20.2%, ‘예산확보의 어려움’ 14.9%, ‘과도한 업무로 관련 정보 및 인식 부족’ 12%, ‘전문 솔루션 및 재해복구 시스템 마련 미비’ 11.5% 순으로 집계됐다.
▲‘실시간 장애 예측 진단 시스템 인식 및 선택기준에 대한 설문조사’ 결과[이미지=보안뉴스]
‘시스템 장애 진단 솔루션 도입 필요성’에 대해 ‘필요하지만, 단기간 내 도입에 어려움이 있다’는 답변이 58.2%로 가장 높은 수치를 기록했다. 이어 ‘필요하다’ 28.4%로 필요성에 대해 무려 86.6%가 공감했다.
장애진단 및 재해복구, 기업의 주요 이슈 및 문제점
본지는 해당 이슈를 좀 더 자세히 알아보기 위해 장애진단 및 재해복구 솔루션 대표 기업인 데이터독(메가존클라우드), 리버베드(엑스퍼넷), 맥데이타, 엔시큐어, 켄틱(시엔스) 5곳과의 인터뷰를 통해 기업에서 발생하는 장애진단의 문제점에 대해 들어봤다.
데이터독(DATADOG), 실시간 모니터링 솔루션 중요성 인지 부족
실시간 모니터링 솔루션 도입 및 체계 구축의 중요성과 필요성에 대한 인지가 낮고, 충분한 투자가 이루어지지 않는 점이 가장 큰 이슈다. 재해나 장애 상황은 평상시에는 발생하지 않아 실시간 모니터링의 중요성을 간과하거나 제대로 투자하지 않는다. 데이터센터(DC)나 퍼블릭 클라우드(Public Cloud) 환경에서 재해 및 장애가 발생한 경우를 보면 피해 규모가 모니터링 체계 및 솔루션에 대한 투자비용을 상회한다. 기업이 운영하는 시스템·서비스의 인프라, 애플리케이션, 네트워크, 보안 등 각 영역에 대한 모니터링이 되지 않으면 작은 규모의 오류나 장애가 발생해도 RTO(Recovery Time Objective)를 줄이긴 쉽지 않다. RTO는 매출과도 직접적으로 연관돼 서비스의 작은 오류도 매출에 직접적인 영향을 끼친다. 재해나 장애 상황을 경험한 기업은 모니터링 체계 구축 및 솔루션 도입을 필수 요소로 관리하고 있다. 실시간 모니터링은 필수로 투자돼야 한다.
리버베드(riverbed), 기업에서 네트워크 운영 환경 파악 못해
리버베드 내부 조사에 따르면 사용자의 39%는 네트워크를 통해 업무를 처리하는 전체 사용자의 1/3 이상이 네트워크 운영 환경을 파악하기도 전에 네트워크 이슈에 봉착하게 된다고 한다. 운영 환경을 파악하지 못한 상황에서, 장애처리까지 진행해야 한다면 이슈 해결에 오랜 시간이 걸리는 것은 당연할 수밖에 없다. 문제의 원인을 파악하고, 재발 방지 대책을 세우고, 이를 현업에 적용하기까지 긴 시간이 필요한 건 당연하다. 때문에 이러한 상황에서 네트워크 성능 진단을 쉽고 빠르게 진행할 수 있다면, 명확한 원인 파악과 장애처리가 가능하다. 또한 더 나아가 정확한 재발 방지 대책을 수립할 수 있어 개인과 기업에 큰 이득으로 작용한다.
맥데이타(MagData), 장애 해결 골든타임 놓쳐
IT 비즈니스 구성 요소의 장애는 매우 다양하게 발생한다. 장애를 진단하기 위해 기업은 각각의 포인트 솔루션을 보유하고 있지만 정확한 장애 지점 파악에 상당한 시간을 소요한다. 장애 해결에 대한 골든타임을 놓쳐 보안 누출, 수익 감소, 고객 불만 등과 같은 문제가 발생하고 있다.
엔시큐어(eNsecure), 장애 원인 규명만 초점 시스템 네트워크 간의 상관관계 분석 미흡
기업에서의 가장 큰 문제점은 각각의 인프라 시스템에 대한 장애 원인 규명에만 초점을 맞춘다는 것이다. 서비스 지연이나 장애가 발생할 경우 장애 유발 인프라와 그 원인을 실시간으로 표출하고 상세 및 상관관계 분석을 진행할 수 있어야 한다. 실시간 장애진단 및 분석 솔루션을 적용해 실시간으로 장애에 대해 인지하고 그 원인에 대한 상관관계를 분석해 장애처리 절차에 빠르게 적용할 수 있도록 하는 것이 최근 서비스 모니터링의 핵심이다. 하지만 현재 대부분의 기업은 SMS(System Management Solution), NMS(Network Management Solution), DPM(Database Performance Monitor), APM(Application Performance Management) 등 IT 인프라 객체별 모니터링 시스템을 기반으로 각각의 장애 원인 규명에만 초점이 맞추어져 있어 시스템 네트워크 간의 상관관계 분석이 원활하게 이루어지지 않고 있다.
켄틱(Kentik), 네트워크 디테일 파악 못해
기업에서는 실시간 장애 탐지 및 재해복구에 필요한 필수적인 네트워크 디테일을 모두 파악하지 못하고 있다. 기존 대부분의 모니터링 서비스들은 Cloud-Native한 솔루션이 아니다. 따라서 현재의 마이크로서비스, 하이브리드·멀티클라우드화 된 복잡한 네트워크 환경 속에서 실시간 장애 탐지 및 재해복구는 아주 어려운 미션으로 부각되고 있다. 이러한 상황을 타개할 수 있도록 네트워크 운영 담당자에게 최적의 해답을 제시하는 플랫폼이 필요하다.
실시간 장애진단 및 재해복구, 기업의 애로사항
데이터독, 기업에서 모니터링 대상과 영역 등 어려워해
첫째, (What) 어떤 영역에 대해 실시간 모니터링을 해야 하는지를 어려워한다. 모니터링은 일반적으로 인프라, 네트워크, 애플리케이션, 보안 등의 영역으로 구분되는데, 모니터링을 시작하는 경우 어떤 영역을 모니터링 해야 유의미한지 이해하기 어려워 하는 기업이 많다. 특히 기업 내부에서 여러 솔루션을 사용하는 경우 어떤 지표를 모니터링해야 하는지 결정하기 어려워한다.
둘째, (How) 어떻게 모니터링을 해야 하는지 어려워한다. 기존에 모니터링을 해온 기업은 신규 영역에 모니터링 적용이 쉬운 반면, 모니터링이 처음인 기업은 어떤 영역에 대해, 어떻게 모니터링을 시작해야하는지 자체에 대한 어려움이 있다.
셋째, (Who) 모니터링을 어떤 조직이 수행해야 하는지이다. 모니터링 전담 조직을 신설하는 경우도 있지만 실질적으로 장애가 발생하면 해당 영역의 담당자가 이를 빠르게 인지하고 조치해야 한다. 따라서 영역 업무 담당자에게 모니터링과 대응 업무가 필수 업무라는 R&R(Role & Responsibility)을 인지시켜야 한다. 영역별 모니터링과 영역별 솔루션으로 모니터링할 경우 장애 발생 시 대응이나 팀간 사일로(Silo) 현상이 발생할 수 있다. 또한 목표로 하는 시간 내에 장애 복구가 불가능하고 원인 확인을 위한 팀간의 커뮤니케이션에 시간이 허비된다.
리버베드, 기업에서 인프라 복잡성과 환경 변화 어려워해
첫째, 근무환경의 변화다. 과거에는 데스크탑을 활용한 반면 현재는 모바일 기기, VDI, Laptop 등 다양한 디바이스를 업무에 활용하고 있다. SaaS 환경으로의 변화는 엔드 유저 디바이스를 다양화했다. 다양한 디바이스와 익숙하지 않은 새로운 환경으로 인한 이슈의 발생은 원인 파악과 장애처리에 어려움이 되고 있다.
둘째, 기업 인프라의 복잡성이다. 업무처리에 따른 네트워크 트래픽의 지속적인 증가와 보안 및 업무 효율을 위한 인프라 복잡성은 이슈 원인 분석에 어려움을 주고 있다. 모든 네트워크 운영자와 이용자에게 이슈 원인을 분석하는데 난해함과 어려움을 주고 있다. 늘어나는 중요 데이터를 안전하게 지켜야 하는 보안은, 나날이 심화되는 추세라 문제는 더욱 심화될 것이다.
셋째, 데이터센터의 클라우드 환경으로의 이전이다. 기존의 레거시 네트워크로부터 프라이빗·퍼블릭·하이브리드 클라우드 이전 등으로 인한 기존과 다른 환경 변화를 어려워한다. 환경 변화에 따른 이슈 발생과 불안감은 새로운 환경 변화 결심에 방해 요소로 작용한다. 이를 위한 대응방안으로 모니터링과 신속한 장애 대응을 할 수 있다면 새로운 환경 변화와 신기술을 활용할 수 있다. 또한 이슈 발생 시 원인 파악을 할 수 있다면 처리속도를 높이고, 이슈에 대한 재발 방지를 할 수 있다.
맥데이타, 기업에서 장애 구간 파악 어려워해
IT 인프라 장애 대응 프로세스는 장애 접수 - 장애 인정 - 장애 구간 파악 - 원인 규명 - 장애 해결이다. 특히 이 가운데 장애 인정과 장애 구간 파악을 기업에서 가장 어려워하고 있다. 이는 대다수의 기업이 각각의 포인트 솔루션을 보유하고 있는 반면, 전체를 바라보는 컨트롤타워가 없기 때문이다. 포인트 솔루션 담당자 관점에선 문제가 없다고 생각할 수 있기 때문에 장애 인정과 장애 구간 파악에 대한 어려움을 겪고 있다.
엔시큐어, 기업에서 명확한 장애 요소 찾는데 어려움 호소
기업에선 명확한 장애 요소를 찾아내는 걸 가장 어려워한다. 운영하는 수많은 시스템 중 장애가 발생한 구간을 어느 정도까지는 유추할 수 있어도 명확한 장애 요소와 지점을 찾는 건 한계가 있다. 때문에 해결하는 시간이 지체되어 서비스의 질이 하락하거나 비효율적인 인프라 투자를 야기할 수 있다.
▲‘엔젠오네스’ 대시보드[이미지=엔시큐어]
[장애진단 대표 솔루션 집중분석-1]
차세대 실시간 장애 예측·진단 솔루션 ‘엔젠오네스’
네트워크 및 서비스 장애의 선제 대응으로 운영의 안정성 확보
최근 장애 관리의 패러다임이 서비스의 성능을 임계치 기준으로 단순히 측정하는 수준에서 최종 사용자가 경험하는 실시간적인 품질과 가치 중심으로 변화하고 있다. 기업 또는 기관은 서비스 제공의 실시간성과 연속성을 보장하기 위해 전체적인 시각으로 어떤 인프라 시스템에서 문제가 발생했고 그 원인은 무엇인지 상관관계 분석을 통해 파악하고 신속하게 해결할 수 있어야 한다. 그러나 현재 기업들이 사용하는 SMS나 NMS, DPM, APM과 같은 단일 시스템 관리 솔루션은 각각의 장비에 대한 모니터링에 치중하고 있어 시스템 네트워크 간 문제가 발생했을 때 정확한 장애 포인트를 집어내는 것이 불가능하다. 이에 엔시큐어는 끊김없는 서비스를 제공하기 위해 실시간으로 모든 IT인프라의 네트워크 망을 하나의 솔루션을 통해 감시해 기업의 효율적인 인프라 투자를 도모하기 위해 ‘엔젠오네스(eNgenAUNES)’를 개발했다.
실시간 모니터링 기반 서비스 품질 및 장애 진단
‘엔젠오네스’는 기업이 관리하는 모든 IT인프라 서비스의 전 구간을 시각화해 장애 및 성능 저하를 유발하는 장애 지점과 요인을 감시, 진단, 분석해 발생 가능한 트래픽 장애나 접속 지연, 병목현상 등의 문제를 예측하고 대응하는 솔루션이다. 특히 점점 증가하는 네트워크 트래픽을 중단없이 분석하기 위해 특허받은 대용량 고속 패킷 처리 기술을 사용했으며 장애를 예측하는 자체 개발 알고리즘을 엔진에 탑재해 서비스의 실시간 안정성을 확보한다. ‘엔젠오네스’는 개발사인 엔시큐어의 자체 기술로 개발해 외산 솔루션에 비해 사용자 교육이나 업데이트, 기술지원, 커스터마이징 등의 강점이 있다. 또한 소규모 기업의 경우 구독형 서비스를 통해 인프라 시스템의 규모와 기능에 따라 3가지 옵션 중 선택해 1년 단위로 사용할 수 있으며 아마존 웹서비스(AWS)와 마이크로소프트 애저(MS Azure) 등 클라우드를 지원해 합리적인 비용으로 구축할 수 있다.
직관적이고 사용하기 쉬운 인터페이스
‘엔젠오네스’의 실시간 모니터링 기능은 네트워크 회선과 서비스를 구성하는 서버 및 웹, 애플리케이션, 데이터베이스 구간을 오가는 패킷의 흐름을 사용하기 편리한 UI를 통해 나타낸다. 운영 중인 시스템에 장애나 지연이 발생할 경우 경고 알림을 통해 즉각적인 대응이 가능하다. 쉽게 그릴 수 있는 토폴로지 서버 맵으로 서버의 운영 상황과 리스크 정보를 확인할 수 있으며 리플레이 기능을 통해 동 시간대의 장애 상황과 패턴을 분석할 수 있다. 또한 특별히 주의가 요구되는 서비스의 서버 장비만 정렬해 관리할 수 있다.
모든 인프라 시스템의 성능과 트래픽을 1초 단위로 감시해 장애를 유발하는 포인트를 정확하게 파악할 수 있다. 패킷 미러링 방식을 사용해 솔루션 사용 중 부하가 발생하지 않는다. 또한 특정 시점의 운영 및 서버 리스크 로그를 비교 분석해 장애나 성능 저하에 따른 상관관계를 분석할 수 있다.
네트워크 서비스를 제공하는 다양한 분야에 적용
‘엔젠오네스’는 대민 서비스를 제공하는 공공기관이나 금융사 관련 기업에서 도입하고 있으며 수요가 증가하고 있다. 최근 트래픽 장애가 증가하면서 서비스 지연 문제의 해소와 안정적인 서비스 제공이 서비스 관리 목표로 대두되고 있기 때문이다. 특히 국내 기업 중 해외에 지사 또는 거점을 둔 제조사의 문의가 늘어나 국내뿐만 아니라 해외로 시장을 확장할 계획이다.
▲리버베드, 실시간 장애 예측·진단 시스템 솔루션 ‘Alluvio Unified Observability’[이미지=리버베드]
[장애진단 대표 솔루션 집중분석-2]
리버베드, 실시간 장애 예측·진단 시스템 솔루션 ‘Alluvio Unified Observability’
다양한 IT 환경에 대한 모니터링 및 가시성 그 이상의 Observability 제공
클라우드, 비대면 원격 근무 등 다양한 비즈니스 환경의 확대로 IT 환경은 크게 바뀌고 있다. 점점 더 복잡해지는 환경과 데이터 과부하 문제로 IT를 담당하는 부서는 그 어느 때보다 더 많은 시간과 솔루션을 활용해 다양한 장소에서 일하는 임직원들을 매일 지원하며 보호하고 있다. 이에 임직원의 업무 효율을 유지하고 향상시키기 위해서는 통합 모니터링을 할 수 있는 시스템이 마련되어야 하고, 더 나아가 유의미한 데이터를 도출할 수 있어야 한다. 리버베드(Riverbed) ‘Alluvio Unified Observability(UO)’는 끊임없이 변화하는 오늘날의 IT 환경에 모니터링 및 가시성 그 이상의 가치를 제공하는 솔루션이다.
모든 IT에 대한 통합 데이터 수집으로 원인 분석 및 이슈 해결
대부분의 모니터링 솔루션은 샘플링된 데이터(트래픽양, 이벤트, 로그, 목적지 등)만 제공한다는 단점이 있다. 이러한 솔루션은 메트릭(Metric)에 대한 방대한 양의 알람만 제공하고, 문제 분석을 위한 사용 가능하고 정확한 인사이트를 제시하는 것에 대해 어려움이 있다. 이로 인해 기술 문제를 해결하는 데 너무 오랜 시간이 걸리게 되며, 전반적인 생산성이 저하되고 수익에 영향을 미친다.
리버베드의 ‘Alluvio Unified Observability(UO)’는 하이브리드 네트워크, 클라우드 네이티브, SaaS, CASB 및 SASE 아키텍처 등 분산된 환경에서 IT 성능 및 사용자 디지털 경험에 대한 모든 트랜잭션(애플리케이션, 네트워크 성능, 사용자 기반 응답시간 등)에 대해 데이터를 캡처해 모든 IT팀이 원활한 디지털 경험과 End To End 성능을 제공하고 분석할 수 있도록 도와준다. 또한 장애가 발생하거나 애플리케이션 성능 저하, 네트워크 속도 지연 등의 이슈가 발생했을 때 원활한 이슈 해결이 가능하며, 주요 이벤트를 놓치지 않고 IT 담당자가 무슨 일이 발생하고 있는지 보기 편하도록 완전한 리포트를 제공한다.
AI와 ML을 통한 수집 데이터 Intelligence 분석, 자동화
광범위하고 분산된 환경에서 모든 데이터를 수집한 UO는 AI와 ML을 적용해 상황에 따라 연관성을 분석하고, 실행 가능한 유의미한 인사이트를 제공한다. 전문가에게 의존하거나 사용자에게 즉시 경고를 보내는 대신 전문가의 워크플로우를 복제해 증거를 수집하고, 비슷한 문맥에 맞게 식별하고, 필터링해 우선순위를 지정하는 등 일련의 과정을 자동화 한다. UO는 IT팀이 문제의 범위와 심각성, 성능 저하의 원인을 파악하는 데 도움이 되는 통합 인사이트를 제공할 수 있도록 다양한 관련 메트릭을 수집하고 연계시키는 프로세스를 독자적 기술을 통해 타사 솔루션과 차별화했다.
Riverbed의 ‘Alluvio Unified Observability’를 통해 IT팀은 데이터 사일로(Data Silo), 리소스 집약적인 상황실, 경보 피로도를 제거할 수 있으며, 부서 간 의사결정을 가능하게 하고 전문 지식을 더 광범위하게 적용해 고객과 직원을 위한 디지털 서비스 품질을 지속적으로 개선할 수 있다.
▲맥데이타 ‘MAG-UX’[이미지=맥데이타]
[장애진단 대표 솔루션 집중분석-3]
5G와 IoT 시대, ‘맥데이타’ 성능·보안 모니터링 시장 선도
변화무쌍한 장애 위험에 IT 통합 장애 모니터링 기술 리더십 제시
5G와 IoT의 급속한 발전에 따라 더욱 복잡해진 네트워크와 대규모 장치들에 의한 다양한 트랜잭션들은 장애를 유발할 가능성을 극대화하고 있는 게 현실이다. 데이터 센터를 포함한 클라우드 센터, 홈 IoT, 스마트팩토리, 그리고 스마트 시티 등의 급속한 발전으로 장애를 감지해야 할 대상은 기하급수적으로 증가 추세이며, 모든 디지털 비즈니스 기업들은 정확한 장애 감지를 위한 기술적 방안을 반드시 수립해야 할 시점이다. 이러한 IT 환경의 변화와 증가하는 보안 위협에 대응하기 위해 맥데이타는 국제·국내 표준 X.1813(맥데이타 주도로 개발된 5G 보안 기술)을 적용했다. 이를 기반으로 5G 통신 시스템 및 5G 사설망(이음5G) 구축과 운영 시 IoT 단말 보안과 성능 진단에 대한 더욱 차별화된 모니터링 방안을 기업에게 제시하고 있다.
국제·국내 표준 X.1813 기반 5G·IoT 실시간 장애 진단
맥데이타의 ‘MAG-UX’는 자체 개발한 고성능 심층 패킷 분석 기술을 이용해 네트워크 수준에서의 성능 및 보안적 측면의 장애 감지 기능을 제공하고, IT 장애(성능·보안)에 대한 선제 대응 체계를 제공해 효과적인 대응이 가능하다.
또한, 국제·국내 표준 X.1813 ‘초고신뢰 초저지연 통신을 지원하는 IMT-2020 기반 버티컬 서비스 보안 및 관제 요구사항’을 적용해, 5G 통신 시스템 전반적인 부분 및 5G 사설망(이음5G)의 융합 서비스 환경에서 보안 관련 주요 구성요소 및 아키텍처를 정의하고 이에 대한 보안 위협 및 보안 기능을 제공한다.
5G와 IoT 모니터링 시장, 지속적인 선도 사업 참여
맥데이타는 발전해가는 5G와 IoT 환경에 대한 효과적인 모니터링을 지원하기 위해서 지속적으로 연구·개발 및 다양한 사업에 참여하고 있다. 맥데이타의 ‘MAG-UX’는 5G 국가망 사업(과기부·세종시·코레일), 5G 융합서비스 공공부문 이음5G 선도사업(부산시EDC 스마트빌리지), 이음5G 기반 디지털트윈 스마트공장 실증 사업(부산테크노파크), 국가재난망 기반 IoT 플랫폼 사업(안양시), 안전영상CCTV 사업(화성시)에 적용되었다. 축적된 모니터링 노하우를 기반으로 보안과 성능 진단에 대한 글로벌 시장 요구사항을 충족시키는데 핵심 역할을 할 것으로 기대한다.
▲네트워크 옵저버빌리티 전문 솔루션 kentik[이미지=켄틱]
[장애진단 대표 솔루션 집중분석-4]
네트워크 옵저버빌리티 전문 솔루션 kentik, 데이터센터부터 클라우드까지 신속한 진단
네트워크 구성, 서비스에 영향 없이 네트워크 트래픽 분석하는 SaaS 플랫폼
오늘날 많은 네트워크 담당자들은 네트워크에 대한 충분한 맥락과 디테일을 파악하는데 어려움을 겪고 있다. 최근 많은 기업에서는 최고의 서비스를 제공하기 위해 인프라를 클라우드로 이관하고 마이크로서비스 아키텍처를 도입하는 등 아주 복잡하고 한 눈에 파악하기 어려운 네트워크 환경 속으로 뛰어들고 있는 게 현실이다. 하지만 복잡한 네트워크를 한 눈에 파악하고 관리할 수 있는 솔루션이 없는 경우, 불필요한 인력과 시간을 소요하게 되며 재해복구 및 실시간 장애 탐지 역시 비효율적인 프로세스를 따라야 한다. 이러한 환경에서 기업이 적극적으로 도입을 고려할만한 솔루션 하나가 있다. 바로 켄틱(kentik)이다.
온프레미스 데이터센터, 클라우드, 인터넷까지 모든 구간 네트워크 분석
kentik의 네트워크 옵저버빌리티(Observability)는 네트워크 구성이나 서비스에 영향 없이 기업 네트워크 트래픽을 분석해 최종 고객에게 서비스되는 과정을 한 눈에 이해할 수 있는 SaaS 플랫폼을 제공한다. 대부분의 기업 네트워크에서는 인터넷·클라우드 사업자의 PoP(Point of Presence)·AZ(Available Zone)에서 장애가 발생할 시 서비스 장애 지점을 특정하기 매우 어렵다.
그러나 kentik은 기업의 온프레미스 데이터센터에서부터 인터넷과 클라우드, 나아가 마이크로서비스 아키텍처가 구현된 쿠버네티스 환경까지 완벽하게 지원하기 때문에 장애 구간에 상관없이 장애 지점을 특정할 수 있다. 나아가 인터넷·클라우드 구간에서 장애가 발생했다면 기업이 어떤 지역에서 어떤 서비스 트래픽을 어떤 백업 회선으로 옮겨야 할지 대안을 세울 수 있는 데이터와 보고서를 제공한다. 또한 SaaS 플랫폼이기 때문에 네트워크 리소스를 요구하지 않으면서도 무한한 확장성과 꾸준한 SLA(Service Level Agreement)를 제공할 수 있는 것이 타 솔루션과 비교되는 강점이다.
누적된 네트워크 트래픽, AI·ML 기술로 분석해 선제적 네트워크 이상 파악
최근 포털 데이터센터 화재로 인한 대형 서비스 장애와 같은 상황을 미연에 방지하거나 사후 대처하는 데에도 kentik은 충분한 역할을 해낼 수 있다. kentik은 누적된 네트워크 트래픽과 네트워크 성능을 AI·ML 기술로 분석해 네트워크의 이상 증세를 선제적으로 파악한 뒤 담당자에게 알려 장애를 선제적으로 탐지하고 대처할 수 있게 지원한다. 이는 단순 평균값을 임계치로 설정하는 것이 아니라 각 기업 네트워크 트래픽의 다양한 특성을 kentik에서 학습해 이뤄지게 된다. 따라서 Netflix와 같은 비디오 트래픽이 평일 저녁 대비 금요일 저녁에 급상승한다고 해서 운영자에게 알림이 가는 일은 일어나지 않는 것이 쉬운 예가 될 수 있다. 다만, 금요일 저녁의 비디오 트래픽이 평일 저녁보다 느린 속도로 시청자에게 전달되는 조짐이 보인다면, 그 즉시 네트워크 운영자에게 알림이 가게 된다.
미국에 본사를 두고 있는 kentik은 한국의 네트워크 솔루션 총판인 시엔스와 함께 2022년부터 본격적으로 한국 시장에 영향력을 키워 나가고 있다. 국내에서도 클라우드와 네트워크에 대한 인사이트가 있는 전문가들로부터 많은 관심을 받고 있는 솔루션이다. 그 어느때보다 실시간 장애 예측과 보안에 대한 요구가 높아지는 환경 속에서 kentik은 네트워크 담당자라면 누구나 네트워크 트래픽의 맥락을 이해할 수 있도록 직관적이고 정확한 분석을 제공한다.
▲데이터독 소개[이미지=데이터독]
[장애진단 대표 솔루션 집중분석-5]
클라우드 산업에 필수적인 애플리케이션 모니터링 솔루션 ‘데이터독’
데이터독, 2022년 가트너 매직 쿼드런트 APM 및 옵저버빌리티 분야 리더 선정
데이터독(DATADOG)은 글로벌 클라우드 모니터링 서비스 기업으로 클라우드와 온프레미스 환경이 혼재하는 IT 환경에 대한 통합 모니터링 및 분석 플랫폼을 지원한다. 인프라, 애플리케이션, 로그뿐만 아니라 네트워크 및 보안 영역에 대한 모니터링과, 하이브리드 환경에서 장애와 운영 리스크를 최소화하는 End To End 모니터링 플랫폼을 제공한다.
클라우드 산업에 필수적인 모니터링 및 시큐리티 플랫폼 ‘데이터독’
IT 모니터링 및 시큐리티 플랫폼을 제공하는 기업인 데이터독은 2010년 설립해 2019년 9월 상장했다. 온프레미스 환경 뿐 아니라 AWS, GCP, Azure 등 하이브리드 클라우드 환경의 다양한 자원들에 대한 통합 모니터링을 지원한다.
데이터독 플랫폼은 인프라 모니터링으로 시작해 APM, Log, UI/UX, 보안 모니터링으로 확장해 나갔고, 프론트 엔드와 백엔드 전체를 아우르는 통합 모니터링이 가능하다. 데이터독은 단순하고 직관적인 플랫폼에, 모든 클라우드 방식과 연계 가능하다는 강점이 있다. 2022년 3분기 실적 발표에 따르면 삼성그룹, 딜로이트, 드림웍스 등 전 세계 22,200개 이상의 고객사를 두고 있다.
데이터독은 역동적으로 변화하는 클라우드 환경 및 마이크로 서비스 아키텍쳐에서 연계 분석을 통한 통찰력 제공 및 문제 해결을 강조한다. 메트릭스(Metrics), 트레이스(Trace), 로그(Log)의 통합 분석을 통해 빠르게 장애를 탐지하고 분석 시간 최소화를 꾀해 운영비를 절감할 수 있다. 또 AI 기반의 Watchdog이 내장되어 있어 이상 징후를 감지(Anomaly Detection)해 알림을 제공, 예상치 못한 공격을 사전에 대응할 수 있다.
클라우드 환경에 최적화된 실시간 통합 모니터링 환경을 제공
데이터독 플랫폼은 통합모니터링 환경제공을 통한 IT 인프라 운영 및 모니터링 효율을 증가시키고, 클라우드 환경에서의 조직 목표에 맞춰 보안과 운영 사이의 사일로(Silo)를 줄이고 가시성을 제공한다. 600개 이상의 내장된 인터그레이션(Built-in Integration) 지원을 통해 다양한 기술 스택에 대한 사전개발·연동을 통한 개발, 유지보수비 감소가 특장점으로 실시간 분석 및 인프라, 애플리케이션, 로그에 대한 Correlation 분석(상관관계 분석) 기능을 제공한다. 이를 통해 팀간 협업과 빠르게 원인분석 및 이슈를 찾아 장애를 파악 하는데 도움을 주고 있다. 최근 화두가 되고 있는 ML(머신러닝), AIOPS(AI기반 이상 탐지 및 예측 솔루션) 기반의 다양한 알람기능과 협업 기능을 통해 사전대응을 통한 장애 발생 서비스 다운 위험요소를 선제적으로 감소시키는 것이 특징이다.
한편 데이터독은 2022년 가트너 매직 쿼드런트 APM(Application Performance Management) 및 옵저버빌리티(Observability) 분야에서 리더로 자리매김하고 있으며, 메가존클라우드는 국내 주요 커머셜 전문 기업을 포함해 100여 곳의 고객사를 대상으로 데이터독 서비스를 제공하며 국내 기업들의 디지털 전환을 성공적으로 지원하고 있다.
메가존클라우드는 ‘지난해 데이터독 보이스 오브 파트너’로 선정돼 미국 뉴욕에서 열리는 데이터독 글로벌 행사 ‘대시(Dash)’에서 세션 발표를 진행했다. 글로벌 3개의 리전(APAC, EMEA, US)에서 각 1곳의 파트너사를 발표자로 선정하며 메가존클라우드는 APAC에서 유일하게 선정돼 이목을 끌었다.
메가존클라우드 측은 지난 2년간의 괄목할만한 데이터독 비즈니스 성장률을 두고 메가존클라우드가 선도적인 클라우드 구축 및 운영기술 서비스 역량을 증명한 것으로 평가한다고 밝혔다.
메가존클라우드는 선도적인 클라우드 관리 전문기업(MSP)으로서 국내외 주요 클라우드 사업자 및 100여 곳의 SaaS 기업과의 파트너십을 기반으로 5000여 기업고객들의 클라우드 구축 및 운영을 지원하며 글로벌 수준의 기술 역량을 갖춘 기업으로 평가받고 있다.
[김경애 기자(boan3@boannews.com)]
<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>