기존 분석 도구의 한계 극복... 코드·광고·인프라 유사성 분석해 운영 조직 식별
AI와 LLM 활용해 취약점 분석 및 수사 지원 인텔리전스 자동 생성 목표
[보안뉴스=카이스트 사이버보안연구센터 최규현 연구원] 최근 청소년 도박과 불법 스트리밍 사이트가 심각한 사회 문제로 대두되고 있다. 하지만 이들 유해사이트는 차단되면 주소를 바꾸거나 대체 사이트를 즉시 개설하는 방식으로 끈질기게 생존한다. 이는 유해사이트가 개별적으로 존재하는 것이 아니라 거대한 ‘범죄 생태계’ 안에서 유기적으로 연결되어 있기 때문이다.

▲서로 다른 불법도박사이트의 유사성 [출처: 카이스트 사이버보안연구센터]
유해사이트는 왜 사라지지 않는가: 연결된 범죄 생태계
최근 청소년 및 군 장병의 도박 문제로 심각한 불법 도박사이트와 누○티비·뉴○끼와 같은 콘텐츠 불법복제 및 배포 사이트 등 다양한 유해사이트들이 기승을 부리고 있다. 이들은 단순한 불법 운영을 넘어 경제적 손실, 사회적 혼란, 개인의 삶에 중대한 중독·범죄 피해를 야기하는 문제로 자리 잡았다.
유해사이트들은 단일 사이트로 존재하기보다 서로 연결된 네트워크 형태로 결합해 운영되고, 하나의 운영 조직이 여러 유형의 유해사이트를 병렬적으로 관리하는 구조를 보인다. 이들은 공통적으로 취약계층을 표적으로 삼고, 불법 수익을 창출하며, 차단을 우회하는 방식으로 생존력을 극대화하고 있다. 이는 더 이상 개별 사건이나 단속의 문제가 아니며, 서로 연결되고 형태를 바꾸며 사이버 생태계 전반에 ‘질병’처럼 확산되는 구조적 위협으로서 사이버 범죄 문제의 심각성을 보여준다.
이러한 위협에 효과적으로 대응하기 위해 우리 연구팀은 유해사이트의 특징을 반영한 AI 기반 선제 탐지 체계를 구축하고 있다. 특징을 분석해 동일 운영 조직에 의해 관리되는 사이트 그룹과 그 연관 관계를 AI로 추론·시각화함으로써 범죄 네트워크 구조를 파악한다.
나아가 유해사이트의 기술적 취약점을 자동 분석하여 LLM 기반 분석 보고서를 생성, 사이버 범죄 수사를 지원하는 인텔리전스로 활용할 수 있는 ‘CCT(Cyber Crime Tracker)’ 프레임워크를 연구하고 있다.
우리가 남이가? 친구 따라 강남 가는 유해사이트들
유해사이트는 개별적으로 운영되는 웹페이지가 아니라, 서로 유기적으로 연결된 네트워크로 작동한다. 이들은 SNS·문자메시지 등 ‘공통된 외부 유입 채널’을 통해 다수의 사이트 주소를 동시에 유포하고, 배너 광고와 추천 링크로 사이트 간 이동을 유도하며 트래픽과 수익을 공유한다.
또 유사한 구조의 사이트를 묶음 단위로 운영하고 해외 클라우드 인프라를 공동 활용해 특정 사이트가 차단되더라도 다른 사이트로 이용자를 전환하거나 신속히 대체 사이트를 개설해 전체 네트워크를 유지한다. 이러한 구조는 개별 사이트 대응만으로는 유해사이트 생태계를 차단하기 어렵다는 점을 보여주는 단적인 용례다.

▲다른 이름의 유해사이트가 같은 구조와 같은 HTML 코드로 구성되어 있는 사례 [출처: 카이스트 사이버보안연구센터]
단일 사이트를 넘어선 유해사이트의 연결 관계
앞서 설명한 특징들 때문에 유해사이트는 단일한 점(Point)이 아니라, 서로 연결된 엣지(연결 관계)와 노드(유해사이트)로 이루어진 복잡한 거미줄 형태의 네트워크 구조라고 정의할 수 있다. 따라서 사이트 간 관계성과 운영 조직 단위의 구조를 함께 분석하는 접근이 필요하다.
직관적 분석을 위해 바이러스토탈(VirusTotal), 쇼단(SHODAN), 크리미널 IP(Criminal IP)와 같은 도구들을 활용하는 것이 효과적일 수 있다. 이 도구들은 특정 도메인이나 IP에 대한 후이즈(Whois) 분석, 악성 스크립트 분석, 피싱 도메인 탐지 등을 빠르게 확인할 수 있는 유용한 수단이다.
이러한 도구들은 개별 사이트 단위의 분석에는 강점을 가지지만, 유해사이트 생태계 전반의 연결 구조와 운영 조직의 관계성을 파악하고, 더 나아가 유해사이트 특징을 고려한 콘텐츠 기반의 분석에 있어서는 분명한 한계가 존재한다.
실제 유해사이트를 분석해보면, △사이트 간 배너 광고 연결 △동일한 코드 및 템플릿 구조 △가입코드의 공유 등 유해사이트 간 연관성이 명확히 드러나는 특징들이 확인된다. 이러한 요소들을 수동으로 분석한 결과, 개별 사이트가 아닌 서로 연결된 다수의 유해사이트가 하나의 네트워크를 형성하고 있음을 확인할 수 있다.

▲같은 가입 코드를 사용하는 서로 다른 도박사이트 예시 [출처: 카이스트 사이버보안연구센터]
예를 들어, 콘텐츠 불법 공유 사이트 A에서 광고하는 도박사이트 B는 가입코드 “NEW”를 사용하고 있으며, 동일하게 A에서 광고되는 또 다른 도박사이트 C 역시 같은 가입코드 “NEW”를 사용하고 있다. B와 C는 서로 다른 이름의 사이트이지만, 실제 접속 시 이미지 배너 경로, 메뉴 구성, 아이콘 이미지, 웹 구조, HTML 및 JavaScript 코드 등 핵심 요소가 동일하게 확인된다.
이러한 분석 결과를 통해 B와 C는 서로 다른 사이트처럼 보이지만 동일한 운영 조직에 의해 관리되는 사이트로 판단할 수 있다. 더 나아가, A 사이트에 동일한 가입 코드가 부여된 점을 고려할 때, A 역시 동일 조직에 의해 운영되거나, 최소한 운영 측면에서 긴밀하게 연관된 조직 간 협력 관계에 있는 것으로 추론할 수 있다.
이러한 유해사이트의 운영 형태 및 구조적 특징 때문에 기존 분석 도구를 보완하기 위해서는 HTML·JavaScript·리소스 경로 등을 비교·분석하는 ‘코드 및 템플릿 분석’, 배너 광고·외부 링크·전환 경로를 기반으로 한 ‘사이트 간 연관성 및 광고 네트워크 분석’, 동일 계정이나 패턴을 공유하는 ‘SNS 홍보 채널 및 ID 분석’, 그리고 가입코드·운영 정책 등 운영 요소를 종합하는 ‘행위 기반 연관성 분석’이 단계적으로 수행되어야 한다.
이러한 분석 결과를 통합함으로써 개별 사이트를 넘어 동일 운영 조직과 그 확장 구조를 식별할 수 있는 사이버 범죄 인텔리전스를 구축하는 접근이 필요하다.
CCT가 추적하는 사이버 범죄 생태계
사이버 범죄 생태계를 새로운 분석 관점에서 바라본다면 대응 방식 역시 달라져야 한다. 이러한 문제의식에서 출발한 CCT는 단순한 사후 차단을 넘어 선제적으로 탐지하고 구조적으로 분석하며, 범죄 조직을 추적할 수 있는 정보로 활용할 수 있는 인텔리전스 구축을 궁극적인 목표로 한다.
첫째, CCT는 유해사이트의 특징에 기반한 URL 수집과 AI 기반 선제 탐지 체계를 구축하고자 한다. 수집된 웹사이트에 대해 유해 여부를 자동으로 판단함으로써, 이미 확산된 유해사이트를 추적하는 데 그치지 않고 ‘새롭게 생성되는 유해사이트를 조기에 식별’하는 것을 목표로 한다. 이를 통해 사후 대응 중심의 기존 방식에서 벗어나 보다 능동적인 탐지 체계를 제공한다.
둘째, CCT는 유해사이트를 개별 사이트가 아닌 운영 조직 단위로 분석한다. 하나의 운영 조직이 다수의 사이트를 병렬적으로 관리하며, 이들 사이트는 배너 광고, 웹사이트 구조, 소스코드 유사성 등 다양한 요소를 통해 서로 연결된 형태로 존재한다. 이번 연구는 이러한 정보를 종합적으로 분석하여 AI 기반으로 웹사이트 운영 그룹을 추론하고, 사이트 간 연관 관계를 시각화한 범죄 네트워크 지도를 생성한다. 이를 통해 동일한 조직에 의해 운영되는 사이트 집단과 범죄 생태계가 어떠한 구조로 확장되고 있는지를 보다 명확하게 파악할 수 있도록 지원한다.
마지막으로, CCT는 유해사이트에 내재된 기술적 취약점에 주목하여 자동화된 취약점 분석 결과를 축적한다. 구조화된 사이버 범죄 대응 인텔리전스를 구축하고, 더 나아가 LLM을 활용하여 사이트별 취약점 분석 보고서를 자동 생성함으로써 향후 차세대 사이버 범죄 수사를 지원하는 실질적인 의사결정 인텔리전스로 활용될 수 있도록 지원하고자 한다.

▲CCT 프레임워크 상세 [출처: 카이스트 사이버보안연구센터]
[글_최규현 카이스트 사이버보안연구센터 연구원]
<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>








.jpg)





