머신 러닝의 사용법 : 자동화, 학습 능력, 인간과의 상호보완
[보안뉴스 문가용] 정보보안 업계의 새로운 기대주라고 하면 머신 러닝(Machine Learning, ML)을 꼽는 사람이 많을 것이다. 그러나 이는 기술적으로 풀었을 때 상당히 어렵고 복잡한 내용을 담고 있어 개념 몇 줄 읽고 뚝딱 이해할 수 있는 성질의 것이 아니다. 그래서 생산자나 판매자마다 나름의 ‘정의’를 들고 나와 ‘이게 바로 ML이다’라고 설명하는데, 여기서 혼란이 더욱 가중된다.

▲ 발렌타인도 입장에 따라 시각차가 생기듯이...
하지만 ML을 이해하기 위해 반드시 ‘기술적인’ 직선 노선만 잡으라는 법은 없다. 오히려 ML을 둘러싼 여러 주변관계들을 살피며 천천히 돌아보는 것도 또 다른 이해의 장을 넓혀줄 수 있다. 즉 ML을 가지고 사업을 하는 사람, ML이 실제 적용되는 곳, ML의 사용자의 시각에서 ML을 바라보자는 것이다.
1. 생산 및 개발자
사실 시장에서 물건을 팔아야 하는 사람들이 ML을 언급할 때는 대부분 위협 첩보를 생성해주는 툴을 지칭할 때가 많다. 그러하다면 ML이란 소비자가 직접 손에 쥘 수 있는 게 아니라 생산자들의 연구소에 있는 존재라는 걸 반드시 이해해야 한다.
전형적인 예 : 백신 생산 및 URL 필터링을 전문으로 하는 업체들이 특히 ML을 자신들의 연구소 안에서만 사용한다. 이런 업체들은 고객들에게 위협 첩보를 꾸준히 제공하는데, 신선한 첩보를 발굴하는 데에 ML을 사용하는 예가 많다. 하루에도 수십만에서 수백만 건 쏟아지는 멀웨어 및 공격 소식에서 쓸모있는 걸 가려내려면 자동화 과정이 필수적인데 여기에 ML이 사용된다. 이런 업체가 제공하는 제품 및 서비스가 ML 기반이라는 게 틀린 말은 아니지만 사용자가 직접 ML을 접할 기회는 거의 없다고 봐야 한다.
전형적인 제품 및 서비스 : 백신, 샌드박싱, 안티봇, 화이트리스팅, 규칙 기반 사건 상관관계
좋은 점 : 자동화가 결국 본질이므로, 일정 수준의 품질이 꾸준히 유지된다. 안정성 면에서는 큰 장점을 보인다.
나쁜 점 : 일정한 규칙 내에서만 작동하므로 새로운 위협이나 공격 패턴에 대해서는 눈이 멀어버린다. 전형적인 백신 제품들이 새롭게 등장한 멀웨어를 탐지하지 못하는 것과 똑같다.
2. 제품 및 서비스
어떤 제품 및 서비스의 경우 기능 자체에 ML이 사용되기도 한다. 이 경우 제품 스스로가 환경에 대해서 학습할 수 있다. 그래서 새로운 정보를 바탕으로 탐지 기능을 조절한다. 가장 좋은 예는 사용자 행동 패턴 분석 관련 제품들이다. 사용자의 행동 패턴을 ‘학습’해서 정보를 쌓아놓고 있다가, 그에 어긋나는 행동 패턴이 입력되었을 때 이상 경보를 발생하는 걸 생각해보면 이해가 쉬울 것이다.
그렇다면 ‘행동 패턴 분석’이 곧 ML 아니냐, 라는 의문이 들 수도 있다. 하지만 아니다. 둘은 절대로 다른 개념이다. 실제로 행동 패턴 분석 툴에 규칙을 미리 입력해놓도록 요구하는 제품들이 아직은 훨씬 많다. 샌드박스 툴들이 좋은 예다. 이런 제품들은 ML 개념을 전혀 차용하지 않은 것이다. ML은 알고리즘이 스스로 학습하고 정보를 비축할 수 있는 능력을 갖추고 있다.
행동 패턴 분석 외에 최근에는 ML을 공격자들의 보안 우회 방법을 분석하는 데에 사용하고 있다. 멀웨어를 분석하는 데에 ML이 반드시 필요한 건 아니지만 인간적인 요소가 들어가는 데에 ML을 사용하면 분석 및 탐지 효과가 좋다는 게 증명되고 있는 분위기이기도 하다.
전형적인 제품 및 서비스 : 사기 탐지, 이상 행동 탐지, 공격 탐지, 행동 분석. 위에서 말한 백신 류 제품들의 필수요소가 자동화였다면 이 항목에 속한 제품 및 서비스의 필수요소는 스스로 학습하는 능력이다.
좋은 점 : 실시간으로 정보를 축적해가며 학습하는 알고리즘의 가장 큰 장점이라고 하면 엄청난 탐지율이다. 고로 잘못된 경보가 울리는 일도 현저하게 줄어든다. 스스로 학습하고 적응할 수 있으니 새로운 공격 수법에 대해서도 유연하게 대처할 수 있는 편이다. 또한 해커 입장에서 우회하는 것도 쉽지 않다.
나쁜 점 : 스스로 학습하고, 또 환경적인 여러 변수 및 요소들에 따라 성능 자체가 달라지므로 사용자 입장에서 ‘예측’이 불가능하다. 즉 안정성이 떨어질 수 있다는 의미로, 위협 첩보와 같이 매일 꾸준히 해야 하는 작업에 적절하지 않다.
3. 최종 사용자
ML이라는 것을 사용자가 직접 다루는 경우라고 볼 수 있다. 가장 간단하게는 위 1번 카테고리에 나오는 실험실 내의 데이터 과학자들을 예로 들 수 있다. 비슷하게, 일반인이더라도 데이터 종류, 상호관계, 처분까지 환경설정을 하도록 하는 제품을 사용하고 있다면 어느 정도는 데이터 과학자의 역할을 하고 있다고 해석해도 된다. 즉 사용자 편의성이 많이 떨어지긴 해도, 사용자의 직접적인 결정력이 많이 반영되는 툴들의 경우에도 ML이 각광받고 있다.
전형적인 제품 및 서비스 : 업무 관리 제품들, 수학 및 통계 분석 툴킷, 분석 기능이 포함된 SIEM 제품들
좋은 점 : 사용자가 굉장히 유연하게 데이터를 분석하고 정리할 수 있다. 아직 불완전한 단계인 ML을 인간이라는 요소로 충실히 보완할 수 있다.
나쁜 점 : 결국 사용자의 전문성에 많은 부분을 기대게 된다. 이 말은 팀 내에 전문가 수준으로 데이터를 다룰 줄 아는 사람이 있어야 한다는 뜻이다. 뭔가 일이 잘못되면 툴이 아니라 그 전문가에게 책임이 돌아가기도 한다. 또한 별도의 수집 공간(스토리지)과 분석 툴을 따로 구매해야 할 필요가 종종 생긴다.
Copyrighted 2015. UBM-Tech. 117153:0515BC
[국제부 문가용 기자(globoan@boannews.com)]
<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>