2일차, 문서형 파일 위협 인자 데이터 처리와 AI 기반 탐지 모델 생성 실습
[보안뉴스 박은주 기자] 전통적인 방법만으로 변화무쌍한 최신 악성코드를 탐지하고 분석하기엔 한계가 존재한다. 새로운 변종 바이러스 대응이 어렵고, 분석 환경을 구축하는 데 시간 소모가 크다는 문제가 따르기 때문이다. 이를 극복할 방안으로 ‘AI 기반 탐지 기술’이 제시된다.
[이미지=gettyimagesbank]
전통적 탐지 방식의 한계와 AI의 필요성
문서형 악성코드와 AI 기반 탐지 및 분석을 주제로 10월 15~17일 3일간 진행되는 ISEC Training Course 둘째 날에는 ‘AI 기반 문서형 악성코드 탐지 모델 생성 기술’이 중점적으로 다뤄진다. 인공지능(AI)과 머신러닝(ML)을 활용해 악성코드를 탐지하는 기술을 실습을 통해 익히게 된다. AI 기술을 통해 보안 담당자는 기존 탐지 능력의 한계를 넘어선 한층 더 효율적인 방법으로 악성코드를 분석할 수 있는 능력을 함양할 수 있는 셈이다.
오전에는 악성코드 탐지 방법론과 함께 통계적 분석 방법도 짚어본다. 데이터를 분석하는 통계적 기법인 베이즈 정리(Bayes’ Theorem)와 몬테카를로 기법(Monte Carlo Method)에 대해 알아보고 데이터 처리 능력을 높이는 법을 배운다.
이후 파이썬의 대표적인 데이터 처리 라이브러리인 Numpy(넘파이)와 Pandas(팬더스)를 활용해 악성코드 데이터를 처리하고 시각화하는 방법을 실습한다. 넘파이는 대규모 수치 데이터를 효율적으로 처리하고 빠른 연산을 진행할 수 있다. 데이터 구조 종류를 파악하고 기초 모듈을 구성하는 실습을 진행하게 된다. 팬더스는 데이터 프레임을 사용해 데이터를 시각화하거나 분석하는 데 최적화됐다. 데이더 결측치 처리 및 데이터를 결합하는 실습을 진행할 예정이다.
문서형 악성코드 탐지 솔루션 실습
오후에는 문서형 파일 위협 인자 데이터를 본격적으로 처리하는 시간을 가진다. 데이터를 시각화하고 이미지를 통한 데이터 전처리 과정을 밟는다. 이후 KAIST 사이버보안연구센터에서 자체 개발한 DocScanner Parser를 통해 PDF 파일의 구조를 분석한다. 문서형 파일에 숨겨진 악성 인자를 추출하는 방식으로 악성코드를 탐지하는 방법을 배우게 된다.
AI 탐지 모델 생성과 성능 평가
이후 진행되는 세션에서는 AI 기반 탐지 모델을 직접 생성하는 실습이 이어진다. 500개 PDF 데이터를 활용한 악성코드 탐지 모델을 생성한다. 이때 머신러닝 알고리즘 ‘XGBoost’를 사용해 악성코드 탐지 모델을 만든다. XGBoost는 여러 개의 의사결정 나무를 합쳐 높은 예측 성능을 자랑하는 앙상블 모델이다.
모델 성능은 △Accuracy(정확도) △Precision(정밀도) △Recall(재현율) △F1-Score와 같은 지표로 평가된다. Accuracy는 모델이 전체 데이터 중 얼마나 정확하게 예측했는지를 나타내고, Precision은 악성코드로 예측된 파일 중 실제 악성코드 비율을 뜻한다. Recall은 실제 악성코드 중 모델이 탐지한 비율, F1-Score는 Precision과 Recall의 조화 평균을 의미한다.
이외에도 Recall과 Precision 사이의 균형을 찾는 △Trade-off 분석과 △ROC(AUC)를 통해 모델의 성능을 면밀히 평가해 본다. ROC(AUC)는 모델의 분류 능력을 시각화하는 그래프다. 보안 실무자는 이를 통해 탐지 모델의 성능을 더욱 명확하게 이해하고, 실무에 적용할 수 있는 악성코드 분석 능력을 기를 수 있게 된다.
XAI를 통한 투명한 탐지 모델 해석
AI 모델 성능만큼 중요한 것이 투명성이다. 실무에서 악성코드 탐지 결과를 신뢰하려면 AI가 어떤 과정을 통해 결론을 도출했는지를 알아야 한다. 이를 위해 XAI(eXplainable AI) 기술이 활용되는 것이다. XAI는 AI 모델의 의사결정 과정을 설명하며, 특정 파일이 왜 악성코드로 판정됐는지에 대한 투명한 설명을 제공한다.
트레이닝 코스 둘째 날 마지막 세션에서는 XAI를 통해 악성코드 탐지 모델의 의사결정을 해석하는 방법을 배운다. 이를 통해 보안 실무자들은 탐지 결과를 보다 신뢰할 수 있고, 실무에 적용할 수 있는 역량을 강화할 수 있다.
이론 3, 교육 7의 ‘실습 중심’ 교육... 목표는 ‘보안 실무자 역량 강화’
ISEC Training Course의 가장 큰 특징은 실습 위주 교육을 통해 실무자들의 보안 역량을 강화하는 것이다. 오전에는 이론을 배우고, 오후에는 실습이 주가 되는 교육이 진행된다. 참가자는 개인 노트북에 분석 환경을 구축해 데이터 분석, 악성인자 추출, AI 기반 탐지 모델 생성 등을 배우게 된다.
이번 ISEC Training Course를 담당하는 카이스트 사이버보안연구센터 측은 “참가자마다 교육을 이해하는 수준이 다를 것을 고려해 10점 만점에 6점 수준으로 교육이 진행될 예정”이라며 “어렵지 않게 기본적인 구조와 틀을 잡아 놓은 스켈레톤 코드로 제공하고, 현장 상황에 맞춰 난도를 조절할 것”이라고 설명했다. 이어 “변화하는 사이버 위협에 보안 담당자들이 신속히 대응할 능력을 기를 수 있도록 돕겠다”고 밝혔다.
교육에 필요한 파이썬(Python), 아나콘다(Anaconda) 등의 프로그램과 Docsanner Parser 일부, 인공지능 학습을 위한 코드와 자료는 현장에서 USB를 통해 제공될 예정이다.
[박은주 기자(boan5@boannews.com)]
<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>