T9 프로젝트 홈페이지 소개...내년에 정상 데이터셋 및 사이버 공격 탐지 AI 모델 공개 예정
[보안뉴스 김영명 기자] 카이스트 사이버보안연구센터(CSRC)에서 올해 초부터 야심차게 시작한 ‘T9 Project(T9 프로젝트)’가 T9 Data의 첫 공개를 진행했다. 첫 공개에서는 T9 Project의 배경과 목적을 간략히 소개하고, T9 프로젝트의 대표 홈페이지와 공개되는 공격·데이터의 선정 이유 및 환경 구축 방법을 소개하고자 한다.
[이미지=gettyimagesbank]
카이스트 사이버보안연구센터연구팀이 진행하고 있는 T9 프로젝트의 연구 배경은 크게 세 가지다. 첫째는 사이버 공격 탐지 인공지능 모델(이하 보안 AI 모델)에 활용할 고품질의 학습데이터 셋이 부족하고, 둘째는 기존에 연구된 학습데이터 셋이 최신 사이버 공격 트렌드를 반영하지 못하는 문제가 있다. 마지막으로 사이버 공격 학습 데이터셋을 구축하기 위해서는 많은 시간과 노력이 필요하다는 것이다. 이러한 한계점과 문제점을 개선하기 위해 주기적으로 최신 사이버 공격을 모사해 환경을 구축하고 보안 AI 모델에 활용할 수 있는 최적의 학습데이터 셋을 자동으로 수집하는 데 있다.
▲올해 1월을 기준으로 한 ‘T9 Project’ 2024년도 공격 목록[자료=카이스트 CSRC]
선정된 올해 T9 프로젝트 공격 목록은 공격으로 인해 사회적 혼란이 크게 야기됐거나, 최근 2년 이내에 발생한 최신 공격을 대상으로 했다. 아파치 로그4셸(Apache Log4Shell)과 SMB고스트(SMBGhost)와 같은 경우에는 다소 오래됐지만, 사회적 이슈와 공격 결과의 파장을 고려해 선정했다.
T9 프로젝트 공격 목록에서의 공격 영역은 해당 공격을 어디서 탐지할 수 있는지에 따라 구분했다. 즉, 네트워크는 네트워크 패킷을 분석해 탐지할 수 있는 공격을 의미하며, 엔드포인트는 호스트에서 수집된 시스템 로그를 이용해 탐지할 수 있는 공격을 의미한다. 물론 해당 공격들이 무를 자르듯 네트워크와 호스트 각각의 영역의 정보만으로 공격을 탐지할 수는 없다. 예를 들어 아파치 로그4셸 공격의 경우 명령어가 실행되는 호스트에서도 탐지할 수 있지만, 네트워크 패킷 데이터를 이용하면 더욱 효과적으로 탐지할 수 있어 이를 바탕으로 공격 영역을 나누었다.
T9 프로젝트, 공격 로그 자동 수집 방법은
지금부터 T9 프로젝트에서 가장 중요한 부분인 공격 로그 자동 수집 방법에 대해 살펴보도록 한다. 공격 로그 수집 방법은 공격 환경 구축에 따라 달라지는데, 네트워크 공격의 경우 기본적으로 도커(Docker)를 사용해 공격 환경을 구성했고, 엔드포인트나 복합 공격(단일 공격은 T9 공격 하나를 의미, 복합 공격의 경우 단일 공격이 2개 이상으로 조합된 것을 의미)의 경우 버추얼박스(Virtualbox)를 사용해 구축했다. 또한 로그 수집의 경우는 네트워크 공격의 경우 패킷 덤프 응용프로그램인 tcpdump, pktmon을 이용해 패킷을 수집했으며, 엔드포인트의 경우는 마이크로소프트에서 제공되는 시스몬(Sysmon)을 사용해 시스템 로그를 수집했다.
▲T9 프로젝트 공격 데이터 수집 예시[자료=카이스트 CSRC]
T9 프로젝트에서 공격 데이터를 수집하는 개념도를 표현한 그림을 보면 구축 환경에 따라 차이는 있지만 전반적인 흐름은 크게 다르지 않다. 공격을 수행하기 위해 ‘run.py’를 실행하면 첫 번째로 가상환경이 실행되고 로그 수집기가 동작하며, 공격 수행 후 로그 수집을 멈추고 로그를 호스트로 전송하는 순서로 동작한다. T9 프로젝트 2024년도 공격 목록에서의 각 공격과 환경이 어떻게 구성돼 있는지, 어떻게 로그가 수집되는지는 T9 프로젝트 홈페이지에 상세히 설명돼 있고, 최소로 수집된 공격 로우 데이터도 다운로드할 수 있다.
▲T9 Project의 홈페이지 메인 화면 구성[자료=카이스트 CSRC]
T9 프로젝트의 대표 홈페이지를 간단히 소개하면 홈페이지는 크게 ‘Home’, ‘Attack’, ‘Dataset’, ‘Contact Us’ 등 4가지의 메뉴가 존재한다. 먼저 Home에는 T9 프로젝트에 대한 배경과 목적 그리고 전체적인 연구에 대한 소개가 기술돼 있다.
Attack 메뉴는 각 공격에 대한 상세 설명, 환경을 구축하고 실행하는 방법, 마이터어택 Tactic 관계성, 패킷이나 로그 등 수집 공격 데이터에 대한 설명이 기술돼 있다.
▲Attack 메뉴 화면 구성[자료=카이스트 CSRC]
Dataset 메뉴에는 공격 데이터를 다운로드할 수 있도록 목록화돼 있다. 특히 각 파일 확장자는 네트워크 로그의 경우 pcap의 형태로 제공되고, 엔드포인트 로그의 경우 evtx, log 형태로 제공할 수 있도록 목록화돼 있다. 그 다음으로 Contact Us 메뉴를 통해 구축 환경 및 공격 소스 등 제공을 요청할 수 있도록 대표 이메일 주소가 안내돼 있다.
▲Dataset 메뉴 화면 구성[자료=카이스트 CSRC]
카이스트 CSRC 관계자는 “카이스트 CSRC가 진행하고 있는 T9 프로젝트의 구현 및 수집 로그를 간략하고 설명하고 T9 프로젝트의 T9 Data를 제공받을 수 있는 대표 홈페이지를 소개했다”고 말했다. 이어 “앞으로도 지속해서 최신 사이버 공격을 분석해 T9 Data를 주기적으로 업데이트할 예정”이라며 “내년에는 실질적으로 보안 AI 모델에 활용할 수 있도록 정상 데이터 셋과 이를 이용해 생성한 사이버 공격 탐지 AI 모델을 공개하도록 하겠다”고 밝혔다.
한편, T9 Data 2024-02는 올해 12월 17일에 업데이트될 예정이다.
[김영명 기자(boan@boannews.com)]
<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>