장애진단·모니터링·복구 솔루션에 대한 사용도 선호도 조사
[인터뷰] 행정안전부 김회수 디지털정부정책국장
장애진단·모니터링·복구 솔루션: 엔시큐어, 넷스카우트, 소울시스템즈
[보안뉴스 원병철 기자] 2023년 11월 17일 오전 9시경, 국가 행정전산망에 장애가 발생해 ‘정부24’ 포털 서비스를 비롯해 ‘시·도 새올 행정시스템’과 공직자통합메일·공무원 전용 메신저 등 다양한 정부 서비스가 중단되는 사건이 발생했다. 이번 사건으로 주민센터 등 공공기관에서의 민원서류 발급이 중단돼 국민들이 큰 불편을 겪었으며, 3일 만에 정상화됐다. 이에 정부는 행정전산망 장애를 예방하고 정보 시스템 장애 발생시 신속·체계적인 대응·복구를 지원하기 위한 ‘전자정부법’ 개정안을 마련, 2024년 12월 국회 본회의를 통과해 오는 7월 시행을 앞두고 있다. 특히 이번 개정안은 행정·공공기관에서 운영하는 모든 정보시스템의 등급부터 관리까지 모두 포함하고 있어 장애진단·모니터링·복구 솔루션 업계에도 큰 영향을 끼칠 것으로 보인다.

[자료: gettyimagesbank]
공공망 장애도 재난상황.. 대책마련 위해 예산부터 전문가까지 대거 투입
2023년 11월 17일, 대한민국 행정전산망에 장애가 일어나며 정부 서비스가 중단되는 초유의 사태가 발생했다. 이 사건으로 약 46시간 동안 행정전산망이 마비되어 시민은 물론 공무원까지 피해를 보았으며, 원인을 제때 찾지 못하고 우왕좌왕하는 모습을 보이는 등 국가 행정망 관리에 허점까지 보였다.
당시 사건의 타임라인(Timeline)을 살펴보면, 2021년 11월 17일 오전 지방자치단체 행정망 ‘새올’에서 장애가 발생했다. 공무원 전용 전산망인 ‘새올 행정시스템’의 사용자 인증 과정에 장애가 생기며 공무원 접속이 중단된 것이다. 11월 17일 오후, 정부 온라인 민원 서비스인 ‘정부24’도 중단되며 온·오프라인 민원 서비스가 모두 마비됐다. 11월 18일 오전 4시경, 새로운 L4 스위치로 교체하고 오전 9시경 ‘정부24’ 서비스를 재개했다. 다만 일부 국가정보시스템 서비스는 여전히 마비 중이었다. 11월 19일 오전 7시경, 대전-광주센터를 연결하는 라우터 포트에서 문제를 발견하고 문제 포트를 전환함으로써 장애를 최종 해결했다. 11월 19일 오후, 행정안전부는 ‘새올 시스템’의 복구를 완료하고, 지방행정 전산 서비스가 모두 정상화되었다고 발표했다.
행정안전부, 디지털 행정 서비스 강화를 위한 단계적 조치 추진
정부는 2024년 1월 31일 ‘디지털행정서비스 장애재발 방지와 재도약 기반 마련’을 약속하며 대책을 마련해 발표했다. 이 종합대책은 2023년 장애 대처 과정에서 신속한 인지·복구가 이루어지지 못했고, 민원·행정처리를 포함한 적절한 대응·조치가 부족했던 점을 개선하는 데 중점을 두는 한편, 과거 30년간 디지털정부가 발전하는 과정에서 행정·공공기관의 정보시스템이 급격히 증가하며 누적된 복잡성에 대한 대응력을 확보하고, 노후화 및 구조적 제약을 근본적으로 해소하는 방안을 포함했다.
이어 2024년 7월 17일 시행된 ‘재난안전법 시행령’에 ‘행정·공공 정보시스템 장애로 인해 발생하는 대규모 피해’를 사회재난의 유형으로 신설하고, 해당 정보시스템의 구축·운영에 관한 사무를 관장하는 중앙행정기관을 ‘재난관리주관기관’으로 명시했다, 예를 들면, ‘정부24’ 장애시 행정안전부가 재난관리주관기관이 되며, ‘복지로’ 장애시 보건복지부 주관기관으로 대응한다. 재난관리주관기관은 위기관리 표준 메뉴얼을 작성하고, 중앙사고수습본부를 설치·운영해 상황을 수습하게 된다.
국가정보자원관리원은 2024년 9월 8일 범정부 정보자원의 효율적인 구축과 안정적인 운영·관리를 위해 2025년 예산안에 5,559억원이 반영됐다고 밝혔다. 특히 오래돼 장애 발생 위험도가 높은 노후 장비 교체 예산으로 1,096억원을 반영하고, 국민생활과 밀접한 1등급 대국민 행정서비스를 중심으로 사용 연한이 지나 장애 발생 비율이 높은 서버, 스토리지, 네트워크 장비 교체에 981억원을 반영했다.
또한 장애 발생 시 모든 행정·공공기관에 영향이 있거나 다수의 대국민 행정서비스 마비로 이어질 수 있는 국가정보통신망 네트워크 장비 등 공통 장비 교체에 115억원을 편성해 시스템 안정성을 강화한다. 아울러 디지털행정서비스 국민신뢰 제고 대책에 따라 국가정보자원관리원의 범정부 장애관리 컨트롤타워 기능 강화에 60억원이 반영됐다. 이를 통해 행정·공공기관의 주요 정보시스템 장애 통합 모니터링 확대, 통합관제시스템 고도화 등 디지털안전상황실 인프라 보강을 통해 범정부 차원 장애 위험 징후의 상시 감시체계를 강화한다.
행정안전부는 2024년 9월 26일, 분야별 민간 IT 전문가 105명을 ‘디지털 행정서비스 장애대응 민간전문가’로 위촉하고, 디지털 행정서비스에 고난이도나 복합·반복적 장애 등이 발생하면 서비스 소관 기관 요청에 따라 활동하게 했다. 서버, 스토리지, 소프트웨어, 보안, 네트워크 등 9개 분야 전문가로 구성된 민간 전문가는 장애조치, 원인분석, 재발방지 대책 마련 등을 지원할 예정이다.
장애예방·대응·복구 등 범정부 장애관리체계를 위한 ‘전자정부법 개정안’ 시행
행정망 마비 이후 1년, 드디어 장애예방과 대응, 복구 등 장애관리를 위한 체계를 법제화한 전자정부법 개정안이 국회 본회의를 통과했다. 이 개정안은 오는 7월 8일 시행된다. 이번 개정안에는 크게 4가지 방안이 담겼다. 첫 번째는 범정부적 장애관리체계 구축이다. 그동안 표준화된 기준과 지침이 없어 기관별로 관리했는데, 이번 개정안에 따라 행정안전부가 정보시스템 장애예방 및 대응과 복구 등 전반에 걸쳐 장애관리에 필요한 지침을 마련한다. 두 번째는 1만 6,000여개의 행정정보시스템을 1~4등급으로 나눠 체계적이고 효율적으로 관리하기 위한 정보시스템 등급제가 법제화돼 적용된다. 이미 행정안전부는 행정정보시스템의 등급을 모두 나눴고, 통보한 후 이의신청 등 후속 조치를 진행하고 있다. 세 번째는 장애 사전 예방을 위한 안정성 점검 체계 마련이다.
행정안전부가 정보시스템과 운영시설의 안정성을 진단해 개선이 필요한 사항을 각 기관에 권고하고, 각 기관은 조치계획과 결과를 행안부에 통보해야 한다. 마지막 네 번째는 장애 사후관리 체계 근거 마련이다. 앞으로 정보시스템 장애가 발생하면 원인을 파악해 그에 따른 근본적인 해결 방안을 마련하고, 범정부 차원에서 유사한 장애 발생시 해결 방안을 공유해 대응·복구 역량을 강화하게 된다.

▲범정부 정보시스템 예방점검체계[정리: 보안뉴스]
정보시스템 등급제와 범정부 정보시스템 예방점검체계
주목할 것은 정보시스템 등급제와 범정부 정보시스템 예방점검체계다. 정보시스템 등급제는 1만 6,000여개 행정정보시스템을 1~4등급으로 나눠 관리하겠다는 것인데, 이 중 1등급은 250여개, 2등급은 550여개로 알려졌다. 이 1~2등급에 대한 관리가 강화되는데, 그에 맞춰 투자도 강화될 것이라고 행안부에서 설명했다. 즉, 장비 도입, 노후장비 교체, 재해복구 시스템 구축, 유지보수 등 정보시스템 운영·관리 비용이 이 등급에 맞춰 차등적으로 적용된다는 설명이다. 아울러 1~2등급의 경우 장애 발생시 소관 기관은 범정부 장애상황 총괄인 디지털안전상황실로 즉시 보고해야 하며, 특히 1등급의 장애가 장기화할 경우 재난상황으로 간주하고 관리하게 된다.
장애의 예방을 위해서는 체계적인 예방점검 기준의 마련과 이행이 중요하다. 때문에 안정적인 정보시스템 운영을 위해 예방점검 항목과 기준을 마련하고, 공공부문 이행체계를 강화할 필요가 있다.
이에 행안부는 정보시스템 예방점검 기준 마련을 위한 공공·민간 전문가 협의를 진행했다. 여기서 민간 전문가는 앞서 설명한 디지털 행정서비스 장애대응 민간전문가 105명이다. 또한 관계기관과 관련 업계의 의견을 수렴하고 예방점검 항목을 보완해 진행한다.
점검항목은 크게 3개 분야(일상점검, 특별점검, 구조진단) 8개 점검항목으로 나뉘어져 있다. 점검항목은 △일상점검 ①상태 점검(CPU/메모리/디스크 상태 등 이상 유무 점검) ②서비스 점검(메인 화면 접속여부 및 접속시간 점검) ③유효성 점검(인증서 유효기간, 도메인 종료일 등 점검) △특별점검 ④오프라인 점검(의도적 시스템 정지·재가동으로 이상유무 점검) ⑤이중화 점검(이중화된 장비·부품의 정상 동작 여부 점검) ⑥성능 점검(부하 테스트 등으로 설정값 최적화 등 성능저하 요인 점검) ⑦업무집중기간 점검(서비스 집중 기간 중 사용량 증가에 따른 서비스 지연·중지 대비 사전 점검 및 집중 모니터링) △구조진단 ⑧구조진단 및 개선(하드웨어, 시스템 SW, 응용 프로그램, 데이터베이스, 네트워크 등 전체 정보시스템 구조에 대한 진단 및 개선점 도출) 등이다.
▲장애진단·모니터링·복구 솔루션 영역별 맵[자료: 비오더블테크놀로지 송재훈 차장]
네트워크 장애진단을 위해 발전한 장애진단·모니터링·복구 솔루션
2023년 11월 행정전산망 마비 이후 장애진단·모니터링·복구 솔루션 업계는 기대감과 불안감을 동시에 표출하고 있다. 이번 전자정부법 개정안에 따라 장애진단·모니터링·복구 솔루션 업계에 큰변화가 예견됐기 때문이다.
장애진단·모니터링·복구 솔루션은 IT 인프라와 서비스 환경에서 발생할 수 있는 장애를 실시간 감지하고 예측해 문제 발생 시 신속하게 장애와의 상관관계를 파악해 대응할 수 있도록 지원하는 시스템을 말한다. 이 솔루션은 네트워크, 서버, 애플리케이션, 데이터베이스 등 다양한 구성요소의 상태를 실시간으로 모니터링하며, 장애 발생 전후의 문제를 파악해 서비스 지연 및 중단 시간을 최소화하는 것이 목적이다.
넷스카우트를 공급하는 비오더블테크놀로지는 “운영 중인 IT 서비스에 대한 문제의 감지, 분석, 해결을 위한 일련의 프로세스이며, 워크플로를 정의해 발생한 문제를 빠르게 해결하는 방안”이라면서, “모든 모니터링 솔루션은 수집한 데이터의 임계치, 문제 감지를 위한 지표 체계의 구성, 상호연관 관계의 분석을 통해 전체 프로세스를 구성한다”고 설명했다. “서비스의 복잡도와 분산 서비스 환경으로 인해 단순한 단위 모니터링 도구로의 한계가 발생하고 있어서 통합 모니터링을 구성하는 방식으로 진화 중입니다. 또한 여러 모니터링 도구에서의 데이터 수집과 조직, 서비스에 맞는 Custom 지표의 생성, 통합 데이터 분석, 머신러닝 등을 통해 문제 해결을 가속하는 Observability, AIOps로 확대 발전을 꾀하고 있습니다.”
장애진단·모니터링·복구 솔루션은 네트워크 트래픽과 시스템 자원 사용량을 실시간으로 감시하는 모니터링 기술, 패턴 및 이벤트 상관분석을 통한 이상징후 탐지 기술, 직관적인 통합 대시보드를 통한 시각화 기술, 그리고 SMS, NMS, APM 등 사일로 별 장애 분석이 아닌 장애 및 서비스 지연을 최상단에서 상관관계 분석을 통해 통합 관리할 수 있는 기술을 기반으로 한다.
장애진단·모니터링·복구를 위한 기법은 다양하다. 첫 번째로 모니터링 대상 데이터의 수집을 위해서는 패시브 모니터링(Passive Monitoring)과 액티브 모니터링(Active Monitoring)으로 구분이 가능하다. 패시브 모니터링은 실제 서비스에서 데이터를 수집한다. 즉 APM, NPM, NMS, SMS, UEM 등 각각의 모니터링 대상 구성요소에서 실제 사용자나 시스템에 활용될 때 사용하는 데이터를 수집한다.
이와 달리 액티브 모니터링은 모니터링 대상 데이터를 별도의 소프트웨어나 하드웨어에서 수집한다. 예를 들어 특정한 네트워크 스위치 모니터링 또는 장애 진단을 위해서 지속적으로 Ping Check를 해서 해당 네트워크 스위치의 특정 포트의 응답 정보를 수집해 모니터링하는 데, Ping이 5회 이상 빠지면 해당 네트워크 스위치의 포트 불량이나 장애로 진단하는 식이다. 또는 Synthetic Test 기법을 활용하기도 한다.
다른 구분은 에이전트(Agent)와 에이전트리스(Agentless) 방식이 있다. 에이전트 방식은 모니터링 대상 데이터를 수집할 때, 에이전트를 서비스 수행하는 서버나 네트워크 장비, OS 등에 설치해 데이터를 수집한다. 모든 APM은 에이전트 방식으로 에이전트 설치 대상 플랫폼을 정의해 대상 정보를 수집한다. 최근 모바일 앱 분석을 위해 코드를 직접 삽입해 모니터링하는 방식도 넓은 의미에서는 Agent 방식으로 볼 수 있다.
에이전트리스는 NPM처럼 네트워크에서 트래픽을 수집해 서비스 수행 OS, 장비, 서버, 네트워크 장비에 영향이 없이 데이터를 수집해 분석하는 방식이다.
에이전트 방식과 에이전트리스 방식은 대상 데이터의 수집 방식으로 각각의 장단점이 있다. 에이전트 방식은 장비 내부에서 데이터를 수집해 정확하고 상세한 정보를 얻을 수 있으며, 실시간으로 데이터를 수집하고 전송하기 때문에 장애 발생시 빠르게 대응할 수 있다. 다만 에이전트 설치와 유지보수에 추가적인 비용과 시간이 소요되며, 장비의 자원을 사용하므로 오버헤드(Overhead, 네트워크 성능 저하를 일으키는 부하)가 발생할 수 있다.
에이전트리스 방식은 내부 장비에 에이전트를 설치하지 않고 외부에서 데이터를 수집해 장애를 진단하는 방법이다. 때문에 설치와 유지보수가 쉽고, 자원을 절약할 수 있다. 또한 에이전트 설치로 인해 발생할 수 있는 문제로부터 자유롭다. 다만 에이전트 방식보다 정확도가 떨어질 수 있으며, 실시간 대응이 어려울 수 있다.

▲국내외 대표 장애진단·모니터링·복구 솔루션[자료: 보안뉴스]
업계에서 바라보는 장애진단·모니터링 솔루션 시장은 약 1,500억원 규모
장애진단·모니터링·복구 솔루션은 크게 △시스템 리소스 모니터링(SMS) △네트워크 장비 모니터링(NMS) △서버 모니터링(SMS) △응용 프로그램 모니터링(APM) △클라우드 모니터링 △AIOPs 등 영역별로 구분된다.
시스템 리소스 모니터링(SMS)은 컴퓨터 시스템의 성능과 자원을 실시간으로 감시하고 분석한다. CPU, 메모리, 디스크, 네트워크 대역폭 등 자원 사용현황을 모니터링해 시스템이 원활하게 작동하는지 확인하고 문제를 조기에 발견할 수 있게 도와준다.
네트워크 장비 모니터링(NMS)은 네트워크의 성능과 가용성을 모니터링해 네트워크 문제를 사전에 감지하고 해결하는 데 도움을 준다. 실시간으로 네트워크 데이터를 수집하고 분석해 네트워크의 품질을 최적화한다. 주로 트래픽 모니터링과 성능 지표를 측정해 네트워크 성능을 평가한다.
서버 모니터링(SMS)은 네트워크와 서버의 성능을 실시간으로 감시하고, 문제가 발생할 때 신속하게 알림을 준다. 서버의 상태, 트래픽, 메모리 사용량 등을 모니터링해 시스템이 원활하게 작동하도록 돕는다.
응용 프로그램 모니터링(APM)은 애플리케이션의 성능을 모니터링해 성능 문제를 신속하게 감지하고 해결한다. 주로 애플리케이션의 응답 시간, 처리 속도 등을 측정해 개선하며, 사용자 경험(UX)을 최적화하고 문제를 신속하게 해결하는 데 도움을 준다. 애플리케이션의 각 요청 트랜잭션을 추적하고 분석하며, 애플리케이션의 로그를 분석해 문제를 찾고, 개선점을 제안한다.
클라우드 모니터링은 클라우드 환경에서 운영되는 서버와 애플리케이션을 모니터링해 성능, 가용성, 보안 등을 실시간으로 감시하는 도구다. 클라우드 서비스 제공자나 기업의 IT팀이 클라우드 리소스의 상태를 항상 파악할 수 있게 도와준다.
AIOps는 ‘Artificial Intelligence for IT Operations’의 약자로, IT 운영을 위한 인공지능 기술을 의미한다. AIOps는 빅데이터, 머신러닝, 자연어 처리(NLP) 등의 AI 기술을 활용해 IT 운영을 자동화하고 최적화하는 것이 목표다. AIOps는 현재 장애진단·모니터링·복구 솔루션의 트렌드 중 하나로 향후 여러 가시성 도구의 데이터를 통합해 모니터링하는 데 꼭 필요한 기술로 알려졌다.
시장 규모와 관련해서는 솔루션 영역이 너무 넓은 데다 클라우드와 오픈소스 시장이 합쳐지면서 규모 산정이 어렵다고 알려졌다. 또한 클라우드와 SaaS 기반으로 운영되는 일도 있어 더 파악하기 어렵다고 알려졌다.
엔시큐어는 “국내 장애진단 및 모니터링 솔루션 시장은 공공, 금융, 대기업을 중심으로 약 1,500억 원 규모로 추산되며, 전자정부법 개정과 같은 정책 변화로 시장은 지속적인 성장세를 보일 것으로 예상된다”면서, “해외 시장의 경우, 클라우드 전환과 디지털 전환이 가속화되면서 연평균 10% 이상의 성장률을 기록하고 있으며, 글로벌 시장 규모는 약 10조원에 달할 것으로 전망된다”고 설명했다.
또한 비오더블테크놀로지는 “전체 시장은 다 파악하기 어렵지만, NPM 솔루션 규모는 약 200~250억원, APM 솔루션 규모는 약 500억원대로 파악하고 있다”면서, “다만 현재 Observability 및 AIOps 시장 규모가 확대되고 있으며, 앞으로 단위 솔루션의 데이터를 통합 관리, 분석해 통찰력을 제공하는 Observability가 많이 확대될 것으로 보인다”고 예측했다.
▲장애진단·모니터링·복구 솔루션에 대한 사용자 선호도 조사[자료: 보안뉴스]
장애진단·모니터링·복구 솔루션에 대한 사용자 선호도 조사
그렇다면 실제 사용자들의 장애진단·모니터링·복구 솔루션에 대한 생각은 어떨까? <시큐리티월드>와 <보안뉴스>는 사용자들의 의견을 알아보기 위해 2025년 2월 13일부터 19일까지 1주일간 약 10만여명의 보안 담당자에게 ‘장애진단·모니터링·복구 솔루션 인식 및 선호도 조사’를 실시했다. 이번 설문조사에서는 공공(20.1%)과 민간(79.9%)의 보안담당자 1,493명이 응답했다.
먼저 설문 응답자들에게 장애진단·모니터링·복구 솔루션을 사용하고 있는지를 물어봤다. 응답자의 60.4%가 사용하고 있다고 답했고, 27.5%는 사용하지 않는다고 답했다. 특히 12.1%는 2025년 내 도입을 검토 중이라고 답했다.
이어 장애사고를 겪은 적이 있는지를 물어봤다. 과반수 이상인 71.1%가 사고를 겪었다고 답했으며, 28.9%는 없다고 답했다. 그렇다면 장애가 발생한 이유는 무엇인지 물어봤다. 가장 많은 답변은 장비 고장 등 하드웨어 문제(33.6%)였다. 전력 장애나 인터넷 장애, 화재와 같은 천재지변 등 외부요인(15.4%)과 디도스나 랜섬웨어 같은 사이버 공격(14.8%)이 뒤를 이었다. 이어 디비 오류(13.4%)와 앱 오류(11.4%) 같은 소프트웨어 문제와 잘못된 네트워크 구성(11.4%)을 선택했다.
그렇다면, 가장 많이 사용하는 장애진단·모니터링·복구 솔루션은 무엇일까? 솔루션마다 기능이 다르기에 복수로 선택할 수 있게 한 이번 질문에서 NMS(Network Management System)가 41.6%로 가장 많은 선택을 받았다. 이어 EMS(Enterprise Management System)를 선택한 응답자가 33.6%였고, APM(Application Performance Monitoring)을 선택한 응답자가 20.8%였다. NPM(Network Performance Monitoring)는 13.4%가 선택했으며, AIOps(AI Operations)는 9.4%가 선택했다. FDS(Fault Detection System)를 사용한 응답자는 6.7%였다.
사용 중인 장애진단·모니터링·복구 솔루션의 만족도에 대해서도 물어봤다. 보통이라고 답한 사용자가 56.4%로 가장 많았으며, 만족한다는 답변도 30.9%가 나왔다. 또한 매우 만족한다는 답변도 8.7%에 달해 대다수의 사용자가 장애진단·모니터링·복구 솔루션에 만족하는 것으로 나타났다.
그렇다면 만족하는 이유는 무엇일까? 이에 대해 35.6%는 모니터링으로 장애 요인을 사전에 진단할 수 있어서라고 답변했고, 23.5%는 빠른 진단과 분석 때문이라고 답했다. 또한 장애요인 분석(20.8%)과 장애요인 복구(18.8%)도 많이 선택했다.

[자료: gettyimagesbank]
장애진단·모니터링·복구 솔루션 구축사례
선호도 조사에서 나온 결과처럼 장애진단·모니터링·복구 솔루션은 보안 솔루션 못지않게 이미 오래전부터 구축되고 사용됐다. 대표적인 구축사례를 통해 사용자들은 어떤 이유로 이러한 솔루션들을 필요로 했으며, 실제 구축 이후 어떤 성과를 거뒀는지 알아봤다.
공공기관 네트워크 지연 문제 해결
한 중앙행정기관은 전국 여러 지점에서 데이터센터(IDC) 내 서버에 접속할 때 지속적인 네트워크 지연을 겪고 있었다. 이로인해 업무 사용자들의 불만(VoC)이 증가했고, 장애가 발생할 때마다 해결까지 시간이 오래 걸려 MTTR(Mean Time to Repair) 단축이 절실한 상황이었다.
기존에는 NMS(Network Management System) 솔루션을 활용해 네트워크 상태를 모니터링하고 있었으나, 지연 원인을 정확히 파악하는 데 한계가 있었다. 네트워크, 애플리케이션, 서버 중 어느 요소가 주된 원인인지 명확히 구분할 수 없어 문제 해결까지 오랜 시간이 소요되었다.
이후 넷스카우트의 nGeniusONE을 도입해 모든 지점의 서비스 성능을 실시간으로 모니터링하는 대시보드를 구축했다. 기존 ICMP Ping 방식 대신 실제 사용자 트래픽을 기반으로 성능을 측정해 더욱 정밀한 데이터를 확보할 수 있었다.
특히, nGeniusONE의 분석 기능을 활용해 네트워크 지연 발생 시 Application Response Time(ART)과 TCP Round Trip Time(RTT)을 구분해 측정함으로써, 네트워크 지연과 서버 지연을 명확히 분리할 수 있었다. 이를 통해 네트워크 병목 문제인지, 애플리케이션의 응답 속도 문제인지 빠르게 진단할 수 있었다. 또한, 자동 학습 기반 알람 기능을 활용해 지점별 평균 응답 시간을 학습하고, 특정 임계치를 벗어나면 자동 알람을 발생시키도록 설정했다. 이를 통해 기존에 고정된 임계값 기반 모니터링보다 더욱 정밀한 이상 탐지가 가능해졌다.
한 지점에서 메일 서버 접속 시간이 급격히 증가하는 현상이 발생했다. 기존 모니터링 체계에서는 원인 분석이 어려웠으나, nGeniusONE의 트래픽 분석 결과 특정 사용자가 대용량 첨부파일을 반복적으로 업로드하면서 전용망 대역폭을 과도하게 점유하고 있었음이 확인되었다. 이 문제를 발견한 후 5분 이내에 조치해, 전체 사용자의 서비스 응답 속도를 정상 수준으로 복구할 수 있었다.
반도체 기업의 생산 공정 네트워크 장애 해결
한 반도체 제조업체는 생산 공정에서 PLC(Programmable Logic Controller) 시스템과 EES(Equipment Engineering System) 관리 서버 간의 통신 장애로 인해 생산 지연 문제가 지속해서 발생했다. 해당장애는 간헐적으로 발생했으며, 기존 TCP Dump 기반 패킷 분석 방식으로는 원인을 파악하기 어려운 상황이었다.
이 제조업체는 넷스카우트의 nGeniusONE을 도입해 PLC 시스템과 EES 서버 간 트래픽을 실시간으로 모니터링할 수 있는 환경을 구축했다. 특히, Health Check 패킷의 흐름을 지속적으로 분석할 수 있도록 전용 대시보드를 구성해, 특정 프로토콜의 이상 징후를 즉각적으로 감지할 수 있도록 했다.
문제 발생 시 PLC 시스템에서 지속적으로 TCP Server Reset 패킷이 발생하는 것을 확인했다. 이를 통해 네트워크 문제가 아니라 PLC 시스템의 오작동으로 인해 세션이 강제 종료되고 있음을 신속히 파악할 수 있었다.
또한, TCP Reset, TCP Handshake Count 등의 주요 네트워크 메트릭을 실시간으로 분석해 문제 발생 패턴을 시각적으로 식별하고, 장애 세션을 .pcap 파일로 저장해 PLC 시스템 담당자에게 증적 자료로 제공할 수 있었다.
이러한 개선을 통해, 반도체 공장의 생산 공정이 더욱 안정적으로 운영될 수 있었으며, 예기치 않은 네트워크 장애로 인한 생산 차질을 최소화할 수 있었다.
대기업의 신규 애플리케이션 서비스 장애 해결
한 대기업의 IT 부서는 신규 애플리케이션 서비스 오픈 이후 지속적으로 사용자 불만(VoC)이 증가하는 문제를 겪고 있었다. 기존 운영 중이던 SNMP 기반 네트워크 모니터링 솔루션으로는 회선 사용량, 네트워크 장비 상태, 서버 상태 등을 모니터링할 수 있었지만, 장애의 근본 원인을 분석하는 데 한계가 있었다.
해당 문제를 해결하기 위해 nGeniusONE을 도입해 네트워크 구간, AP(Application) 서버 및 DB(Database) 서버 간 트래픽을 실시간으로 모니터링할 수 있도록 구성했다. 이를 통해 애플리케이션 서비스의 지연 시점을 정확히 파악하고, 네트워크 및 애플리케이션 계층에서의 트랜잭션 흐름을 상세히 분석할 수 있었다.
분석 결과, 특정 시간대에 신규 세션 접속 수가 평소보다 6배 이상 급증하면서 네트워크 응답 시간이 함께 증가하는 것을 확인했다. 이후 세션 관점에서 추가 분석한 결과, TCP3-way Handshake 과정에서 AP 서버가 Syn/Ack 패킷에 대한 Ack를 반환하지 않아 재전송이 증가하는 현상이 발견됐다.
또한, AP 서버에서 FIN ACK 패킷 미전송 문제가 지속적으로 발생한 것도 확인됐다.
이를 통해 문제의 원인이 네트워크 과부하가 아닌, AP 서버 애플리케이션의 특정 오류로 인해 세션이 정상적으로 종료되지 않는 것임을 밝혀냈으며, 이후 애플리케이션 패치를 진행한 이후, 동일한 장애가 재발하지 않음을 확인할 수 있었다.
금융기관 콜센터 서비스 장애 이슈
한 금융기관의 사내 콜센터에서 통화시에 간헐적으로 음성이 잘 안 들리고 잡음이 많이 발생하는 현상이 있다는 불만을 접수하고 이를 해결하기 위해 기존 보유 중인 관제 솔루션을 통해 해결하고자 했다. 하지만 수시로 발생하는 문제가 아니어서 관련 정보를 정확하게 수집하기도 힘들었고, 관련 연관 데이터를 입수하더라고 판단하기가 모호한 상황으로 인해 이를 해결할 수 없었다.
이후 VoIP 콜 분석 솔루션인 nGeniusOne 장비로 교환기 하단과 콜센터 연결 구간에서 미러링을 통한 음성 데이터를 수집하고, 장애 신고가 들어오면 해당 시점의 데이터를 분석했다. 해당 시점의 콜센터 직원과 사용자 간의 통화를 확인해 보니 교환기에서 인입되는 음성에서만 음성이 일그러지는 현상이 발생하고 전송되는 음성 패킷의 손실은 발생하지 않는 것을 바로 확인할 수 있었다. 이를 통해 교환기를 통해 전달되는 음성에 문제를 발견하고 교환기 장비 오류를 확인 할 수 있었다.

▲행정안전부 김회수 디지털정부정책국장[자료: 보안뉴스]
Interview 행정안전부 김회수 디지털정부정책국장
“지난 디지털 행정서비스 장애를 반면교사 삼아 안정성 측면에서 다시 도약할 것”
2023년 11월 17일, 국가행정망의 전산이 마비되는 초유의 일이 발생했다. 행정 포털을 비롯해 공직자통합메일, 공무원 전용 메신저 등이 멈췄으며, 이로 인해 △전자증명서 발급 △보조금24 나의 혜택 조회 △나의 생활정보 조회 △원스톱 서비스 △온라인 여권 재발급 신청 △건축물대장, 전입신고 등 일부 민원 서비스가 중단됐다. 아울러 이번 사건으로 인해 정부는 디지털행정서비스 장애재발 방지와 재도약 기반을 마련하겠다고 밝혔고, 이를 위한 전자정부법 개정안이 발의돼 국회를 통과했다. 이에 이번 대책 마련의 중심에 선 행정안전부 디지털정부정책국의 김회수 국장을 만나 이야기를 들어봤다.
2023년 11월 7일 발생한 사건으로 많은 것을 느끼셨을 것 같습니다
민원 현장 공무원들이 사용하는 행정전산망에 장애가 발생해 읍면동 주민센터의 민원 발급 서비스가 안 되는 상황이 발생했고, 곧이어 온라인 민원 서비스인 ‘정부24’도 중단돼 국민들이 큰 불편을 겪게 되었습니다. 당시 장애 대응 과정에서 장애 원인이 정확히 밝혀지지 않았고, 대국민 안내도 늦었으며, 디지털 서비스가 안 될 경우 수기접수 같은 행정서비스를 어떻게 할 것인지 등 많은 문제가 노출됐습니다.
지난 30년간 디지털정부가 발전하는 과정에서 정부가 새로운 서비스 개발에 많은 초점을 두었는데, 이제는 그러한 서비스를 안정적으로 제공하는 것이 무엇보다도 중요하다는 것을 느꼈습니다.
지난 12월 행정전산망 장애를 예방하고, 장애 발생시 신속·체계적인 복구를 지원하기 위한 전자정부법 개정안이 국회를 통과했습니다. 이번 개정안은 어떤 내용을 담았는지 설명을 부탁드립니다
이번 전자정부법 개정의 가장 큰 의미는 장애에 대한 범정부적인 거버넌스가 마련됐다는 것입니다. 공공분야 보안은 20년 전부터 국정원이 주관해 범정부적인 콘트롤타워 체계가 마련돼 있었던 반면, 지금까지 장애는 각 부처가 자체 관리하는 체계로 되어 있었습니다. 전자정부법에도 각 부처가 관리토록 선언적인 규정만 있었고 하위 규정도 미흡했습니다. 그러나 재작년 전산망 장애 이후 정부는 장애에 대한 범정부적 거버넌스의 필요성을 인식하고 관련 규정을 법제화했습니다.
먼저, 각 정보시스템의 장애관리계획 수립 지침을 행안부 장관이 정하도록 했고, 정보시스템 등급제 근거도 마련했습니다. 또한, 정보시스템과 그 정보시스템을 운영하는 시설에 대해 주기적으로 안정성을 점검하고, 개선이 필요한 사항을 각 기관에 권고하도록 했습니다.
마지막으로 장애 재발방지를 위한 사후관리 체계 근거도 마련했습니다. 이에 따라 정보시스템 장애가 발생하면 원인을 파악해 근본적인 해결방안을 마련하고 이를 유관기관들과 공유할 수 있도록 했습니다.
개정안에는 정보시스템 장애와 대응·복구 등 전반에 걸쳐 장애관리에 필요한 지침을 마련한다고 했습니다
장애관리에 대한 범정부적 거버넌스를 만들려고 하다 보니, 정부가 지켜야 할 많은 지침과 기준이 필요하다는 것을 인식했습니다. 이에 2023년부터 세부 기준들을 하나씩 만들어가기 시작했고, 올해 중에는 필요한 기준들의 제정을 완료할 계획입니다.
먼저 정보시스템 등급과 장애등급 기준을 신설했습니다. 또한 정보시스템 장애로 인한 대규모 피해를 사회재난의 유형으로 명시토록 재난안전법 시행령을 개정하고, 시행령 개정에 따라 1등급 정보시스템 보유기관에 공통적으로 적용되는 위기관리 표준 매뉴얼을 마련했습니다. 아울러 정보시스템 예방점검과 표준운영절차 기준을 마련해, 정보시스템 운영기관의 체계적 운영 토대를 제공했습니다.
2025년에는 안정적인 정보시스템 운영을 위해 정보시스템 등급에 따른 장애조치 최대 허용시간, 제재 부과 기준 등 서비스 수준협약(SLA)에 대한 기준을 마련하고, 응용 프로그램 운영·유지관리 과정에서 안정성을 강화하기 위한 응용 프로그램 표준운영절차도 마련할 예정입니다. 또한, 주요 장애에 대해 장애의 원인, 장애 대응 과정의 문제점 등에 대한 범정부적 관리체계도 마련할 예정입니다.
행정정보 시스템 관리를 위한 정보시스템 등급제는 어떻게 진행되고 있나요?
이전에는 정보시스템 등급이 없어 중요한 시스템도 예산이 없어 소홀히 운영하는가 하면, 예산을 잘 따는 경우 사소한 시스템도 과도하게 투자되는 경우가 있었습니다. 그러나 등급 체계가 마련됨으로써 모든 행정·공공기관의 정보시스템이 중요도에 따라 체계적으로 관리·투자되고 장애 시 체계적 대응을 할 수 있는 계기가 마련되었습니다.
현재 행정·공공기관에서 운영하는 모든 정보시스템을 중요도에 따라 1~4등급으로 분류해 관리하고 있습니다. 1·2등급 장애 발생 시 소관 기관에서 범정부 장애 상황을 총괄 관리하는 디지털안전상황실로 즉시 보고해야 하며, 서비스가 정상화될 때까지 중점 관리를 하게 됩니다. 특히 1등급 장애가 장기화될 경우, 관심·주의·경계·심각 등의 위기경보 단계별 기준에 맞는 재난상황으로 관리하게 되어 있습니다. 뿐만 아니라 장애 모니터링 고도화, 전산장비 이중화, 노후장비 교체, 재해복구 시스템 구축, 업무 연속성 관리, 유지보수 요율 적용 등 대다수 정보시스템 운영·관리 업무가 정보시스템 등급을 기준으로 차등 적용될 예정입니다.
장애 사전 예방을 위한 안전성 점검 체계는 어떻게 운영되나요?
장애 사전 예방을 위한 안정성 점검 체계는 전기, 공조 등 운영시설 분야와 HW, SW 등 정보시스템 분야로 나눌 수 있습니다. 운영시설 분야는 건축·전기·소방·방재 등 7개 분야 67개 항목에 대한 안정성 기준을 마련해 시행 중이며, 정보시스템 분야는 최근 개정된 ‘전자정부법’을 근거로 예방점검, 표준운영절차 등 운영·관리에 필수적인 항목에 대한 안정성 기준을 마련 중입니다.
앞으로 공공부문 정보시스템을 운영·관리하고 있는 행정·공공기관 및 민간 클라우드에서는 정보시스템 및 운영시설 안정성 기준에 따라 주기적인 자체 점검과 개선을 수행하고, 행정안전부에서는 이행 여부에 대한 현장점검과 미흡 사항에 대한 각 기관에 개선 권고 등의 체계적인 관리가 이뤄질 예정입니다. 아울러 행안부의 안정성 점검은 기술적 능력을 갖춘 외부 전문업체와 용역계약을 통해 수행될 예정입니다.
하위법령과 관련 지침 마련 등 앞으로의 계획에 대해 말씀해 주십시오
전자정부법 개정·시행(2025년 7월 8일)에 맞춰 전자정부법 시행령을 개정·시행할 수 있도록 준비하고 있으며, 후속 조치로 ‘행정·공공기관 정보시스템 안정성 고시’도 연말까지 제정해 각 기관에 통보할 수 있도록 할 계획입니다. 정보시스템 안정성 고시에는 앞서 말씀드렸던, 예방점검, HW와 응용 프로그램의 표준운영절차, 서비스 수준협약 등 정보시스템의 안정적 운영을 위해 필요한 규정들이 포함될 예정입니다.
이번 행정전산망 장애 예방 및 신속·체계적인 복구 지원과 관련해 관련 업계에 당부하고 싶은 것이 있다면
재작년 행정전산망 장애를 겪으면서 이제 디지털 행정서비스가 국민 생활에 없어서는 안 되는 필수재가 되었다는 것을 느꼈습니다. 정부는 새로운 디지털 행정서비스의 창출뿐만 아니라, 기존의 행정서비스가 장애로 인해 국민들이 불편을 겪지 않도록 안정성 강화에 많은 노력과 투자를 할 예정입니다.
안정적인 디지털 행정서비스는 행정·공공기관 종사자들의 노력만으로는 달성할 수 없으며, 이를 기술적으로 지원해 줄 수 있는 IT 업체의 역할이 무엇보다 중요합니다. 신속한 장애 확인·복구를 위한 장애 모니터링 툴과 장애원인 분석 도구의 개발·보급, 구조진단 컨설팅, 정보시스템 운영·유지관리 수행, 재해복구 시스템 구축·운영 등과 관련한 제품 개발과 기술지원이 지속적으로 이뤄져야 할 것입니다. 아울러 이러한 기업의 노력은 장애관리 SW라는 신규 시장을 창출할 수 있을 것이라고 생각합니다.
마지막으로 국민과 지자체 담당자에게 하고 싶은 말씀이 있다면 말씀해 주세요
행정전산망 장애와 연이은 디지털 행정서비스의 장애로, 이제 디지털 행정서비스의 장애가 정부에 대한 대국민 신뢰와 직결된다는 점을 실감했습니다. 지난 장애들을 반면교사로 삼아 안정성이라는 측면에서 정부가 다시 한번 도약할 것이라는 점을 약속드립니다.
정부는 디지털 행정서비스가 중단되지 않도록 최선을 다할 예정이나, 만에 하나 그러한 일이 발생하더라도 정부의 행정서비스는 이어져야 합니다. 그러한 측면에서 지자체의 현업창구에 계신 분들의 역할이 중요합니다. 대체 창구안내, 수기접수, 처리기한 연장 등 개별 행정서비스마다 업무 연속성 계획을 숙지하시고, 비상시에는 이 계획에 따라 업무를 추진함으로써 국민의 혼선을 최소화할 수 있도록 협조해 주시기를 당부드립니다.

▲실시간 서비스 장애 진단 및 예측 솔루션 오네스[자료=엔시큐어]
[장애진단·모니터링·복구 솔루션 집중분석-1]
사전 예방 중심의 장애 대응으로 안정적인 IT 인프라 환경 구축
IT 인프라 운영의 혁신, 실시간 장애 진단 및 예측 솔루션 AUNES
디지털 전환이 가속화되면서 기업과 공공기관의 IT 인프라는 더욱 복잡해지고 있다. 기존의 장애 대응 방식은 문제가 발생한 후 원인을 분석하고 복구하는 형태가 일반적이었으나, 이러한 사후 대응 방식으로는 치명적인 서비스 중단을 막기 어렵다. 따라서 장애를 사전에 감지하고 예방하는 기술이 점점 더 중요해지고 있다.
보안 및 IT 전문 기업 엔시큐어는 이러한 필요에 부응하여 AUNES(이하 오네스) 제품군을 개발했다. 특히 AUNES for Service(이하 오네스 포 서비스)는 네트워크, 서버, 애플리케이션, 웹, 데이터베이스 등의 IT 인프라를 실시간으로 모니터링하고 장애를 사전에 감지할 수 있도록 지원하는 솔루션이다. 이를 통해 조직은 더욱 안정적인 서비스 운영 환경을 구축할 수 있다.
실시간 모니터링과 장애 예측 기능 강화
오네스 포 서비스는 네트워크 및 서비스 성능을 실시간으로 분석해 이상징후를 감지하고 문제 발생 가능성을 조기에 인지할 수 있도록 도움을 준다. 특히 대량의 패킷 데이터를 고속으로 처리하는 특허 기술을 적용해 트래픽 변화와 시스템 이벤트를 종합적으로 분석할 수 있도록 설계되었다. 현재 AI 기반의 분석 기술을 접목할 예정으로 향후 이를 활용하여 장애 예측 정확도를 더욱 발전시킬 계획이다.
기존의 SMS, NMS, APM 등 개별 솔루션이 제공하는 기능을 통합적으로 관리할 수 있는 것도 오네스 포 서비스의 강점이다. 실시간 대시보드를 통해 트래픽 상태, 서비스 응답 시간, 시스템 부하 등 주요 지표를 한눈에 확인할 수 있어 장애 진단 및 대응 시간이 획기적으로 단축된다. 이를 통해 IT 운영자들은 더 직관적으로 문제를 분석하고, 신속한 대응이 가능하다. 또한, 오네스 포 서비스는 장애 대응뿐만 아니라 서비스 성능 최적화까지 지원하여 IT 인프라 운영의 전반적인 효율성을 향상시킬 수 있다. 조직은 이를 통해 예상치 못한 서비스 중단을 예방하고 운영 비용 절감 효과도 얻을 수 있다.
다양한 산업 분야에서 활용 가능
오네스는 금융, 공공, 제조, 의료 등 다양한 산업 분야에서 활용될 수 있다. 금융권에서는 실시간 트랜잭션 모니터링을 통해 서비스 지연 문제를 해결하고, 제조업에서는 생산설비의 네트워크 장애를 예방해 가동률을 최적화할 수 있다. 또한 공공기관에서는 대국민 서비스를 안정적으로 운영하는 데 도움을 줄 수 있으며, 클라우드 환경에서도 원활하게 작동하여 하이브리드 IT 인프라에서도 높은 효율성을 발휘한다.
특히 지난해 관련 솔루션의 업그레이드 버전이 한국정보통신기술협회(TTA) 소프트웨어 시험인증연구소로부터 굿소프트웨어(GS) 인증 1등급을 획득하면서 오네스 포 서비스가 신뢰할 수 있는 IT 운영 관리 솔루션임을 입증하는 중요한 지표가 되고 있다.
CCTV 시스템의 운영 안정성을 위한 AUNES for CCTV
오네스 제품군의 또 다른 솔루션인 AUNES for CCTV(이하 오네스 포 씨씨티비)는 영상 정보와 네트워크 성능을 통합 모니터링해 CCTV 시스템의 영상 서비스 장애 구간을 실시간으로 감지하고 분석하는 역할을 한다. 이를 통해 영상 저장 및 전송 과정에서 발생할 수 있는 문제를 예방하고, 운영자 중심의 개별 관리에서 전문화된 장애 분석 도구를 통한 장애 상관관계 분석 등의 자동화된 관리로 획기적인 운영 안정성을 확보할 수 있다.
특히, 대규모 CCTV 시스템을 운영하는 공공기관과 기업에서는 카메라 장애, 영상 끊김, 저장 오류 등의 문제를 신속하게 감지하고 대응할 수 있어 운영 효율과 안정성이 향상된다. 이처럼 오네스 제품군은 IT 인프라뿐만 아니라 영상 운영 감시 시스템까지 포함하는 종합적인 모니터링 솔루션으로서의 입지를 넓혀가고 있다.
▲보안과 성능을 동시에 모니터링하는 통합 플랫폼[자료: 넷스카우트]
[장애진단·모니터링·복구 솔루션 집중분석-2]
사용자, 네트워크, 서비스 - 통합 모니터링 구성으로 예방적 대응 시스템 구성
넷스카우트, 가시성과 통찰력 통해 빠른 디지털 서비스 회복력 보장
클라우드 도입, 소프트웨어 기반 데이터센터와 네트워크 경계 확장, 모바일 앱 생태계 등 오늘날 디지털 생태계는 매우 빠르게 변화하고 있다. 클라우드, 외부 연계 등 분산된 서비스 환경은 문제 감지와 해결에 복잡도를 가속화하고 있다.
이러한 복잡한 서비스 운영과 폭발적인 네트워크 및 서비스 연결 접점의 증대는 사용자에게 발생하는 문제에 대한 빠른 감지와 해결을 더욱 어렵게 만들고 있으며, 서비스와 보안 관점 가시성의 통찰력을 통한 빠른 회복력에 대한 중요성이 점점 더 필수적인 기능으로 요구되고 있다.
넷스카우트는 서비스 운영에 있어서 통합 모니터링과 발생한 문제의 빠른 감지와 진단, 신속한 디지털 서비스 회복력을 제공하는 구체적인 방안을 제공하고, 또한 성능 저하와 보안 이슈 등 다양한 관점의 문제에 대응하는 예방적인 모니터링과 명확한 장애, 성능, 보안 세부 문제 해결 플랫폼을 고객에게 공급하고 있다.
넷스카우트의 Platform은 기업에 네트워크 전반의 보안 위협 관리와 동시에 운영하고 있는 서비스 안정성을 향상시키는 Observability, AIOps 체계 구축의 중요한 토대이다.
문제 감지와 분석, 해결의 통합 플랫폼 그리고 예방적 서비스 모니터링까지
분산된 환경과 사용자 환경, 네트워크 연속성 등을 한 번에 그리고 한눈에 확인할 방안을 수립해야만 한다. 넷스카우트는 빠른 서비스 회복력, 복원력을 보장, 손쉬운 서비스 통합 모니터링을 구성, 나아가 Observability 및 AIOps의 기반이 될 수 있는 통합 가시성 플랫폼인 nGenius Observability를 제공하고 있다.
한눈에 통찰력을 제공해 구간, 환경, 아키텍처 등 기술에 구애받지 않는 서비스 장애 진단, 분석, 해결 워크플로우를 통해 신속하고 빠른 서비스 문제 해결, 실 사용자 환경에서 로봇 테스트 자동화를 통한 예방적 모니터링, 선제적 문제 해결 방안을 지원하고 있다.
포괄적인 네트워크 가시성을 통해 성능과 보안 운영의 편의성을 도모하고, 사각지대 제거, 경계 모니터링, 명확한 서비스 데이터 제공 등 AIOps의 한 축을 넷스카우트가 담당한다.
다차원 위협 탐지(Multidimensional Threat Detection)를 통한 문제 해결
넷스카우트는 보안 가시성 확보까지 하나의 플랫폼에서 제공하고 있다. 네트워크 기반 기술과 다차원 보안 위협 탐지를 접목해 사이버 공격 감지 전반에 대한 문제를 쉽게, 그리고 조기에 식별하고 침해 위협에 대한 네트워크 대응 시간의 단축, 사전 예방적인 접근 방식의 보안 강화, 패킷 포렌식을 통한 재발 방지를 위한 데이터 분석도 지원하고 있다.
마지막으로, 네트워크 진단/모니터링 전문기업으로 지속 성장해 온 NETSCOUT 한국총판 비오더블테크놀로지는 국가정보자원관리원, 한국지역정보개발원, 외교부, 경기도청 및 지자체 등 다양한 구축 사례를 보유하고 있으며 제품 상담 및 컨설팅 서비스를 지원하고 있다.

▲램파드 대시보드[자료: 소울시스템즈]
[장애진단·모니터링·복구 솔루션 집중분석-3]
자체 개발 네트워크 패킷 분석엔진으로 모든 패킷 수집·정밀 분석
지능형(AI) 네트워크 성능 장애 관리 솔루션 램파드(LAMPAD)
네트워크 환경의 다양화에 따라 지능형(AI) 네트워크 성능·장애 관리 솔루션 ‘램파드(LAMPAD)’가 주목받고 있다. 램파드는 IT 인프라 운영 관리 시스템의 패러다임을 완전히 바꾼 신개념의 솔루션이다.
그동안 네트워크 관리 솔루션 시장은 네트워크 하드웨어 중심의 가시화(네트워크 장비 및 회선 상태, 트래픽 등)에 머물렀다. 하지만 램파드는 한 걸음 더 나아가 네트워크 내에서 일어나는 일련의 모든 행위를 진단·분석하며 가시화해, 네트워크 서비스 장애를 예방할 수 있도록 높은 인사이트를 제공하고 있다. 또한 램파드는 서비스 장애 발생시, 장애(성능 저하 등)를 초래한 근본 원인과 해결책을 한 번의 클릭으로 제공한다. 이는 장애 복구시간(MTTR)을 최소화할 뿐 아니라 이해관계자 간 의사소통을 최소화할 수 있다.
실제 사례로 모 기관은 네트워크 인프라 재구축 후 수개월간 지속적인 장애 발생으로 업무처리에 불편을 겪고 있었다. 네트워크 재구축 사업자와 관련 수많은 전문 인력이 투입되고 많은 솔루션을 동원해 장애 해결을 시도했으나 장애는 여전히 발생하고 있는 상황에서, 사업자 요청으로 램파드를 활용한 결과 단시간 내에 고질적인 장애를 진단 분석할 수 있었다.
램파드, 뛰어난 성능은 물론 운영의 편리성까지 갖춰
램파드(LAMPAD)가 이러한 네트워크 장애를 해결할 수 있었던 이유는 여타 솔루션과 달리 네트워크 내 송·수신되는 모든 패킷을 수집하고 정밀 분석해, 장애 원인을 신속하게 찾을 수 있도록 설계됐기 때문이다. 자체 개발한 네트워크 패킷 분석 엔진을 갖추고 있다.
또한 램파드에서 빼놓을 수 없는 장점 중의 하나는 네트워크 패킷 미러링 기술이다. 성능·장애 정보를 수집하기 위해 에이전트를 설치하거나 네트워크 트래픽에 별도의 부하를 전혀 주지 않는다. 이는 초기 설치가 쉬울 뿐만 아니라 네트워크 인프라 변경에도 영향을 받지 않아 운영의 편리성도 갖추고 있고 램파드 자체 장애가 네트워크 운영에 전혀 영향을 미치지 않는 안정적인 솔루션이기 때문이다.
이를 바탕으로 램파드는 중소기업기술정보진흥원으로부터 ‘우수연구개발 혁신제품’으로 지정됐다. ‘우수연구개발 혁신제품’은 중소벤처기업부의 기술개발 지원을 받아 성공한 제품 중 공공성이 뛰어난 혁신제품에 대해 공공기관과의 수의계약을 허용하는 제도다. 중소벤처기업부는 해당 중소기업이 수요기관을 찾아 혁신제품을 공급할 수 있도록 홍보와 연결을 지원하고 있다. 최근에는 ‘중소기업 제품 구매촉진 및 판로 지원에 관한 법률’에 의해 시범구매 제품에 선정됐다. 이에 따라 더욱 적극적으로 공공시장에 진출하게 되었다.
소울시스템즈 김신규 대표는 “외산 제품 경우 전문가 수준의 네트워크 엔지니어가 장시간의 전문교육을 받아야 겨우 이용할 수 있는 반면에, 램파드는 직관적인 UI와 기능 구현으로 누구나 쉽게 네트워크 서비스 전체 상황과 장애에 대한 증상, 원인, 해결책을 확인할 수 있다”고 말했다.
한편, 오는 3월 19일부터 21일까지 일산 킨텍스에서 개최되는 ‘제24회 세계 보안 엑스포&전자정부 정보보호 솔루션 페어(SECON&GISEC 2025)’에서 장애진단·모니터링·복구 솔루션의 최신 이슈와 솔루션을 한눈에 파악할 수 있는 ‘디지털 행정서비스 장애 진단·복구 전시 및 세미나’가 개최된다. 이번 세미나에서는 행정안전부와 국가정보자원관리원, 교육부의 공공분야 장애상황 통합관리 발표는 물론, 엔시큐어, 비오더블테크놀로지, 소울시스템즈, 파일링클라우드 등 주요 기업의 최신기술 소개를 들을 수 있다. 아울러 3일간 개최되는 전시에서는 국내외 대표 장애진단·모니터링·복구 솔루션을 만나볼 수 있다.
[원병철 기자(boanone@boannews.com)]
<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>