카이스트 사이버보안연구센터, AI 위협 탐지 모델 생성·활용 극대화 ‘T9 프로젝트’ 본격 스타트

카이스트 CSRC, 장기 과제로 추진 중인 ‘T9 Project’ 소개
T9 Project...위협 시나리오 기반 프레임워크 및 공격도구, DB, 데이터 공유의 총칭
AI 위협 탐지 모델 생성에 있어 활용 극대화하는 것이 T9 Project의 궁극적 목표

[보안뉴스 김영명 기자] 최근 ICT 기술이 비약적으로 발전하면서 이를 활용한 새로운 응용 기술 및 서비스들이 수없이 쏟아져 나오고 있다. 하지만 새로운 기술과 서비스들은 사이버 위협 관점에서는 또 다른 공격의 대상과도 같다. 이를 방증하듯 MITRE에서 실제 공개한 정보를 살펴보면, CVE(Common Vulnerabilities and Exposures)의 수가 2020년 1만 8,375개에서 2023년 2만 9,065개로 최근 4년간 매년 꾸준히 증가하고 있다. 시간의 흐름에 따라 늘어난 폭이 커지는 양상을 보면 우리가 얼마나 많이 사이버 위협에 노출됐는지 알 수 있다.

[이미지=gettyimagesbank]

지속적으로 증가하고 있는 다양한 사이버 위협에 효과적으로 대응하기 위해 전통적으로 보안업계는 큰 범주에서 네트워크 공격 탐지를 수행하는 NIDS(Network-based Intrusion System)와 호스트 공격 탐지를 수행하는 HIDS(Host-based Intrusion System) 기반의 정보보호 솔루션을 구축하고 있다. 이러한 대응방법의 탐지 방식은 크게 ‘규칙 기반 침입탐지’ 방식과 ‘행위 기반 침입탐지’ 방식으로 나눌 수 있다.

규칙 기반 침입탐지 방식은 발생 가능한 공격을 사전에 시그니처나 룰 등 탐지 패턴을 등록하는 방식으로 탐지의 정확도가 높지만, 새로운 공격이나 탐지 패턴을 속이는 기법에는 탐지의 한계점이 존재한다. 반면 행위 기반 침입탐지 방식은 새로운 공격에 효과적이지만 탐지 정확도가 상대적으로 낮고, 분석 리소스와 시간이 상대적으로 많이 소요된다. 최근에는 두 방식을 효율적으로 병행하며 공격 데이터의 분석과 탐지에서 AI 기술을 적용하는데 노력하고 있다.

▲연도별 CVE 등록 수[자료=CVE 홈페이지]

AI 기술을 이용해 사이버 위협 탐지 모델을 생성할 때 고품질의 대용량 학습 데이터셋을 확보하는 것이 무엇보다 중요하다. 실질적인 공격 행위를 통해 수집된 데이터셋이 사이버 위협 탐지 모델의 성능을 좌지우지하기 때문이다. 무엇보다 공격 데이터셋만큼 중요한 것은 정상 데이터셋이다.

현재까지 사이버 위협, 특히 네트워크 공격의 탐지 모델 생성을 위한 대표적인 데이터셋은 KDD99, NSL-KDD, CICIDS-2017 등이 있는데, 이 데이터셋에는 몇 가지 문제점이 있다. 첫째는 오래 전에 구축돼 최신 공격 트렌드를 반영하지 못한다. 둘째는 공격 기술의 편향성에 따른 데이터셋 품질의 문제가 있다. 세 번째는 최근 암호화 프로토콜을 이용하는 사이버 공격이 늘어나고 있지만 이에 대한 데이터가 상당히 미흡하다. 하지만 아직까지 이를 대체해 사용할 수 있는 오픈 데이터셋은 존재하지 않는다.

따라서 연구기관이나 기업에서는 사이버 위협 탐지 모델을 생성하기 위해 오픈 데이터셋을 사용하되, 내부적으로 공격 데이터셋을 별도로 구축하기 위한 많은 시간과 리소스를 투입하다. 이 과정을 자체적으로 수행하거나 여의치 않은 경우 상당히 큰 예산을 들여 전문적으로 공격을 수행하는 기업에 의뢰하기도 하는 번거로움이 있다.

이에 카이스트 사이버보안연구센터(CSRC) 연구팀은 이러한 번거로움을 효과적으로 해결할 수 있도록 가상환경 기술을 이용해 Attacker(공격자)의 환경과 Victim(피해자)의 환경을 자동으로 구축하고, 다양한 공격을 프로그매틱한 방법으로 수행하면서 대량의 공격 데이터셋을 자동으로 수집 가능한 프레임워크를 연구하고 있다.

T9 Project...공격 프레임워크, 공격도구, 데이터셋의 총집합
‘T9’이라는 이름의 의미를 살펴보면 알파벳 ‘T’는 그리스 신화에 나오는 바다의 신 포세이돈의 상징인 Trident(삼지창)의 첫 글자를 의미하며, 숫자 ‘9’는 삼지창의 개수로 삼지창 한 개가 하나의 도구·코드·시나리오·단위 등 사이버 공격을 의미한다.

T9 Project는 위협 시나리오 기반의 공격 및 수집 환경 자동화 생성 프레임워크인 ‘T9 Framework’, 9개의 공격 시나리오에 대한 공격 도구의 묶음인 ‘T9’, T9이 빌딩 형태로 쌓여 데이터베이스화된 ‘T9 Data’, T9에 대한 공격 정보 및 공격 데이터셋이 공유되는 웹사이트 및 깃허브, 카이스트 CSRC 블로그 등 ‘공유 미디어’를 총칭하는 용어다.

▲T9 Project 기술적 구성도[자료=카이스트 CSRC]

먼저 ‘T9 Framework’에서 단일 공격 시나리오를 설명하자면 프롬프트 창에서 구축하고자 하는 사이버 공격(T9 Data의 하나)을 선택하면, 가상환경(Docker 또는 VM)으로 Attacker의 환경과 Victim의 환경이 구축된다. 각 Victim의 환경에는 공격 행위를 수집할 수 있는 로깅 시스템이 설치됐다. 이때 수집되는 데이터는 패킷 캡처 파일(PCAP), 메모리(Memory), 네트워크(Network), 프로세스(Process), 레지스트리(Registry) 등이다.

‘T9 Data’는 마이터어택 TTPs 기반 9개 공격의 시나리오로 일정한 규칙을 기반으로 코드명이 정해진다. 매년 정기적으로 상반기와 하반기 두 번 공개돼 지속해서 쌓이는 공격 시나리오의 전체 세트를 의미한다. ‘T9-23-01-S-N-A’에서 ‘23’은 연도를, ‘01’은 1~3의 번호로 2023년도에 첫 번째 공개되는 데이터의 경우 1의 값을 갖게 된다. ‘S’는 단일공격(Single), M은 복합공격(Multi)을 나타낸다. ‘N은 ’NDR’ 영역을 나타내며 상황에 따라 ‘E’(EDR), ‘NE(NDR/EDR)’로 교체될 수 있다. ‘A’는 마이터어택 내 14개의 Tactic의 첫 번째인 Reconnaissance가 A를 기준으로 마지막 Impact가 N이 부여된다.

▲T9 Framework의 단일 공격 생성 흐름의 예[자료=카이스트 CSRC]

‘공유 미디어’를 분석해 보면 T9 Data에 대한 정보와 T9 Framework에서 생성된 공격 데이터셋은 올해 7월 17일에 오픈 예정인 T9 웹사이트와 깃허브에 공개된다. 사용자는 제공 받은 환경을 통해 Attacker의 환경에 접속, 준비돼 있는 공격 도구를 실행하면 원하는 공격 및 공격 수행 결과의 데이터셋을 자동으로 수집할 수 있다.

위의 예시에서 ‘T9-23-01-S-N-A’가 Path Traversal 공격이라고 했을 때 Attacker의 환경에는 Path Traversal 공격을 수행할 수 있는 공격 도구가 준비돼 있고, Victim의 환경에는 Path Traversal 공격이 수행될 수 있는 웹 서버와 공격 로그의 수집이 가능한 시스템이 구축된다. 이렇게 T9 Framework가 사이버 공격 환경을 자동으로 구축하고, 사용자는 공격 도구를 간단히 실행하면 공격 데이터셋을 보다 쉽게 수집할 수 있을 뿐만 아니라 이를 기반으로 AI 위협 탐지 모델 생성에 있어 활용을 극대화하는 것이 T9 Project의 궁극적인 목표다.

T9 Project는 △위협 탐지 솔루션(NDR/EDR) 개발 △위협 탐지 솔루션(NDR/EDR) 성능 평가 및 검증 △위협 탐지 인공지능 모델 개발 △연구 목적의 학습 공격 데이터 세트 △위협 대응 학습을 위한 교육 도구 등 다양한 활용성 및 기대효과를 가지고 연구를 진행하고 있다.

카이스트 CSRC 연구팀은 “T9 Project는 7월 17일 이후 매년 두 차례에 걸쳐 연간 총 18개의 공격 환경에서 수집된 공격 데이터셋이 깃허브, 웹사이트에 공개될 예정”이라고 밝혔다.
[김영명 기자(boan@boannews.com)]

헤드라인 뉴스

TOP 뉴스

Copyright thebn Co., Ltd. All Rights Reserved.

시큐리티월드

회원가입

Passwordless 설정

PC버전