머신 러닝, 너무 어렵게만 접근할 필요 없다

2016-07-21 11:16
  • 카카오톡
  • 네이버 블로그
  • url
물리학 관련 공식 알아야만 로켓의 진로 방향 예측할 수 있는 것 아냐
통계학적인 멀웨어 탐지 및 복구, 머신 러닝으로 속도와 정확도 높여


[보안뉴스 문가용] 머신 러닝 혹은 딥 러닝이 사이버 보안 전체에 주는 희망이란, 여태까지 등장한 멀웨어들을 학습한 기계가 아무도 발견하지 못한 멀웨어를 정확하게 발견해 알려줄 수 있다는 것이다. 인빈시아(Invincea)의 수석 엔지니어인 콘스탄틴 벌린(Konstantin Berlin)은 이 개념을 기반으로 그저 ‘나쁘다’, ‘수상하다’ 이상의 결과를 도출해내고자 노력 중에 있다. 뭐가 나쁜지, 왜 수상한지, 더 많은 정보를 머신 러닝으로부터 얻어내고자 함이다.


▲ 같은 풍경, 다른 시각, 예술인들만의 즐거움일 필요가 없다

벌린은 “보안 전문가들에게 필요한 건 ‘이 코드는 악성코드다’라는 것 이상”이라며 “어떤 패밀리에 속한 것인지만 추가로 알아내도 방어 전략 및 복구 계획을 세우는 데에 큰 도움이 된다”고 설명한다. 벌린은 자신이 개발한 방법으로 이런 추가적인 정보를 보안 담당자들에게 제공하는 것이 가능하다며, “기존 멀웨어 샘플들과 비교해 가장 비슷한 것을 찾아내면 복구뿐 아니라 공격자까지도 유력하게 짐작할 수 있다”고 말한다.

벌린이 바라보는 ‘머신 러닝’과 기존의 시그니처 기반 보안의 가장 큰 차이점은 다음과 같다. “로켓을 쏘아 올렸을 때, 그 가는 방향을 기계가 예측하도록 하려면 어떤 정보가 필요할까요? 추진과 관련된 온갖 물리 요소? 복잡한 물리학 공식? 머신 러닝은 말 그대로 기계가 학습하는 겁니다. 기계의 예측이 정확해질 때까지 여태까지 축적해온 로켓 발사 사례들을 주입하면 됩니다. 기계가 공식을 도출해낼 수도 있고, 아닐 수도 있지만 문제의 핵심은 로켓이 어느 방향으로 갈 것인가, 이죠. 그것만 맞으면 됩니다.”

이 말을 해석해보자면, ‘왜 악성인지, 무엇에 근거하여 악성이라는 판단을 내릴 수 있는지’를 기계에 가르칠 필요가 없다는 것이다. 그저 악성이라는 것만 예측할 수 있다면, 머신 러닝으로서는 그 값어치를 발휘한다는 뜻으로, “자꾸 ‘왜’를 가르치려다보니 머신 러닝이 어렵게만 느껴지고 다가가기 힘든 기술이라고 느껴진다”는 것이다.

하지만 앞서 말했든 ‘악성 여부 판별’로는 충분치 못하다. “어떤 바이너리가 또 어떤 바이너리와 유사한지 판별까지 해주면 패밀리와 공격자에 대한 추측도 꽤나 정확하게 할 수 있습니다.” 물론 벌린만 이런 생각을 하는 건 아니다. 필요를 느끼는건 다수였고, 당연히 이를 충족시키기 위한 방법론들이 개발되고 있다.

“그런데 이게 쉽지 않아요. 왜냐하면 기업이나 조직마다 멀웨어 안에서 찾아내고자 하는 바이너리가 다르고, 멀웨어의 어떤 기능이 치명적으로 작용하느냐 하는 것도 기업의 특성마다 달라지죠. 그러다보니 같은 멀웨어라고 하더라도 대처하는 방식이 다르고, 복구 과정도 다릅니다. 상황과 환경이 다 다르다보니 대처법이 다 다른 건데, 이 대처법이 다 올바르다고 볼 수도 없고, 다 틀리지도 않은 상태죠. 비용이 올라가고 노력은 쓸데없이 낭비되며, 그러다보니 멀웨어 발전 속도를 쫓아갈 수 없습니다.”

이 상황에서 벌린이 바라보는 ‘발전의 핵심’은 멀웨어 판별 및 정보 전달의 정확도를 높이면서 비용을 낮추는 것이다. “그러려면 멀웨어 샘플에서 중요치 않은 기능들을 빠르게 제거해야 합니다. 동시에 핵심이 되는 부분을 빠르게 간파해 기존 샘플들과의 유사성을 계산해내는 겁니다. 물론 이 유사성 계산은 일률적으로 이루어지지는 않죠. 각 기업의 보안팀들이 무엇이 중요한지, 가장 치명적인 요소가 무엇인지 파악해 이 계산에 반영해야 합니다.”

쉽게 말하자면 배후 세력이 누구인지, 멀웨어가 표적으로 삼고 있는 산업체는 무엇인지, 어떤 방식으로 공격을 감행하는지 등 멀웨어를 둘러싼 정보들의 가치를 환경에 따라 순차적으로 매겨, 점수를 낼 수 있다는 것. “결국 멀웨어가 목표하고 있는 것이 무엇인지, 그 일을 얼마나 명확하게 실행하는지를 정량화해서 계산해야 한다는 겁니다.”

이는 시그니처에 관한 신기술을 필요로 하지 않는다. 다만 멀웨어 특성들에 레이블링을 하고, 그 데이터베이스를 축적, 활용하는 기술은 반드시 필요하다. 벌린은 기존에 사용되고 있는 MS 데이터베이스 관련 프로그램을 사용한다. “하지만 기업이라면 좀 더 데이터베이스에 투자해도 되겠죠. 그리고 이 데이터베이스를 기계에 학습시킬 수 있습니다. 기계를 사용한다고 해서 굉장히 고차원적인 일을 단번에 해내리라는 목표를 가질 필요가 없습니다. 가장 과학적이고 신비한 방법이 단번에 나오지도 않습니다.”

벌린은 자기가 개발 중에 있는 방법은 “결국 통계학적인 접근으로 멀웨어들을 잡아내고, 빠르게 방어한다는 거라고 볼 수 있다”고 설명한다. “덜 과학적이고, 따라서 좀 더 원시적인 방법이라고도 볼 수 있습니다. 하지만 머신 러닝으로 속도를 극대화시키고, 보다 높은 정확도를 보장했죠. 비교적 간단한 기술을 사용하는 거라 전력 소모량도 훨씬 줄고, 시스템 자체가 굉장히 가볍기도 합니다. 지금 나오는 기술들로 이미 지난 학문에 응용해, 현대의 문제를 풀어나가는 것도 문제 해결의 한 방법이 아닐는지요.”
Copyrighted 2015. UBM-Tech. 117153:0515BC
[국제부 문가용 기자(globoan@boannews.com)]

<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>

연관 뉴스

헤드라인 뉴스

TOP 뉴스

이전 스크랩하기


과월호 eBook List 정기구독 신청하기

    • 아마노코리아

    • 인콘

    • 엔텍디바이스코리아

    • 핀텔

    • KCL

    • 아이디스

    • 씨프로

    • 웹게이트

    • 씨게이트

    • 하이크비전

    • 한화비전

    • ZKTeco

    • 비엔에스테크

    • 엔토스정보통신

    • 원우이엔지

    • 지인테크

    • 홍석

    • 이화트론

    • 다누시스

    • 테크스피어

    • 경인씨엔에스

    • 슈프리마

    • 인텔리빅스

    • 시큐인포

    • 미래정보기술(주)

    • 비전정보통신

    • 지오멕스소프트

    • 트루엔

    • 인터엠

    • 세연테크

    • 성현시스템

    • 한국아이티에스

    • 케비스전자

    • 아이원코리아

    • 다후아테크놀로지코리아

    • 한결피아이에프

    • 스피어AX

    • 동양유니텍

    • 투윈스컴

    • TVT코리아

    • 프로브디지털

    • 위트콘

    • 포엠아이텍

    • 넥스트림

    • 페스카로

    • 아우토크립트

    • 신우테크
      팬틸드 / 하우징

    • 에프에스네트워크

    • 네티마시스템

    • 케이제이테크

    • 알에프코리아

    • (주)일산정밀

    • 아이엔아이

    • 미래시그널

    • 새눈

    • 창성에이스산업

    • 유투에스알

    • 제네텍

    • 이스트컨트롤

    • 현대틸스
      팬틸트 / 카메라

    • 지에스티엔지니어링
      게이트 / 스피드게이트

    • 주식회사 에스카

    • 에이앤티글로벌

    • 모스타

    • 한국씨텍

    • 넥스텝

    • 레이어스

    • 구네보코리아주식회사

    • 에이티앤넷

    • 티에스아이솔루션

    • 엘림광통신

    • 보문테크닉스

    • 포커스에이아이

    • 메트로게이트
      시큐리티 게이트

    • 휴젠

    • 신화시스템

    • 글로넥스

    • 이엘피케이뉴

    • 세환엠에스(주)

    • 유진시스템코리아

    • 카티스

    • 유니온바이오메트릭스

Copyright thebn Co., Ltd. All Rights Reserved.

MENU

회원가입

Passwordless 설정

PC버전

닫기