학습에 사용되는 데이터 품질을 제대로 고려해야
[보안뉴스 문가용 기자] 머신 러닝 기술은 시험 기간 동안 어떤 데이터를 먹이로 주느냐에 따라 성능이 현격히 갈린다. 현재 보안 현장에서 사용되는 머신 러닝에 대한 반응은 대체적으로 ‘멀웨어 탐지율도 높아지지만 오탐률도 높아진다’는 것이다. 하지만 조사를 해보면 머신 러닝 알고리즘에 공급한 정보의 출처가 의심스럽다는 걸 알 수 있다.

[이미지 = iclickart]
머신 러닝 기술은 빠르게 발전하고 있는 게 사실이다. 그러나 보안 분야에서 충분하게 활용되고 있는 건 아니다. 그러나 네트워크 보안 전문업체인 소포스(Sophos)의 데이터 과학자인 힐러리 샌더스(Hillary Sanders)에 의하면 “각종 멀웨어들의 생성과 확산 속도가 무시무시하기 때문에 머신 러닝이 활발히 도입될 시기가 머지 않았다”고 예측한다.
샌더스는 “아직도 가장 널리 사용되는 멀웨어 탐지 기법은 ‘정적 시그니처 분석’인데, 이는 시그니처를 자주 업데이트 해야만 효과를 발휘한다는 치명적인 약점이 있다”고 설명한다. 머신 러닝과 딥 러닝은 자동으로 패턴을 생성하기 때문에 업데이트를 자주 받을 필요가 없고, 그러므로 악성 콘텐츠를 훨씬 더 높은 확률로 탐지해내는 장점을 가지고 있다.
“머신 러닝은 기존의 시그니처 기반 탐지 방식을 진정으로 탈피할 수 있도록 해줄 것이라고 봅니다. 보안 업계는 오랫동안 시그니처 기반의 탐지 기법이 가진 문제점을 논의해왔고, 벗어나야 한다고 주장해왔지만 사용자들은 기존의 것만을 구매해서 사용했죠. 멀웨어의 상용화가 된다면, 드디어 향상된 탐지 기법을 사용할 수 있을 것으로 예상하고 있습니다.”
샌더스가 말한 ‘상용화’가 현재 머신 러닝 도입의 문제인데, 신기술의 상용화 및 가격 안정화는 보통 시간이 해결해준다. 진짜 문제는 현재 머신 러닝에 공급하는 데이터로 ‘바라는 결과’를 얻을 수 있겠느냐는 것이다. “더 정확히 말하면 학습을 위한 데이터의 질과 적합성을 어떻게 보장할 수 있느냐는 것이죠. 실험을 위해 데이터를 주입한 머신 러닝이 실제 기업 네트워크 내에서 제대로 작동할 수 있을까요? 아무도 확신할 수 없죠.”
현재의 머신 러닝 연구에 있어서 정확성 평가에는 ‘미래 데이터 처리 방법’에 대한 개념은 들어가 있지 않다. 샌더스는 “게다가 현대에 발행되는 데이터들에는 감도 분석(sensitivity analysis)과 감쇠 시간 분석(time decay analysis)이 포함되어 있지 않아 데이터 신뢰도에 문제가 생길 수도 있다”고 설명한다. “무슨 말이냐면, 머신 러닝에 주입되는 데이터가 항상 완벽하게 생성된다고 보장할 수 있는 체제가 아니라는 겁니다. 감도와 감쇠 시간에 데이터를 신경 써서 포함시키지 않는다면, 머신 러닝 알고리즘의 학습이 완전치 않게 된다는 것이죠.”
말이 어려워 추가 설명을 요구했을 때 샌더스는 “감쇠 시간 분석이란 데이터의 정확도가 시간이 지남에 따라 떨어질 수 있다는 걸 나타내는 것”이라며 “지금 머신 러닝이 학습해야 할 데이터가 1월에 생성된 것이라고 예를 들면, 그 학습을 바탕으로 한 결과의 정확도가 7월 즈음부터는 급격히 떨어질 수 있다는 것”이라고 설명한다.
“감도 분석은 입력되는 값과 결과 값의 관계를 분석하는 것으로 ‘머신 러닝의 학습용 데이터 품질에 따른 결과의 가치’를 조정할 수 있도록 합니다. 즉 쓰레기 같은 데이터가 들어가 쓰레기 같은 결과가 나오지 않도록 하는 거라고 볼 수 있습니다.” 샌더스는 이런 데이터 공급 문제에 대해 올해 열리는 블랙햇에서 강연할 예정이다.
“보안 전문가가 머신 러닝을 사용하고 싶어 하는 건 딱 한 가지 이유 때문입니다. 바로 멀웨어를 방지하기 위한 것이죠. 하지만 현장의 실제 데이터를 제대로 주입시키지 않는다면 머신 러닝도 큰 도움이 되지는 못할 겁니다. 머신 러닝의 기술 발전도 그렇지만, 어떤 데이터를 학습시킬 것인가에 대한 고민도 해야 합니다.”
[국제부 문가용 기자(globoan@boannews.com)]
Copyrighted 2015. UBM-Tech. 117153:0515BC
<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>