장기적인 관점으로 무궁한 잠재력 탐구할 생각해야
.jpg)
[보안뉴스 문가용 기자] 학습하는 기계에 대한 개념이 등장한 건 이미 수십 년 전이다. 스스로 학습을 하고, 학습한 내용을 통해 문제를 해결하는 기계, 이것을 우리는 머신 러닝이라고 부른다. 수많은 데이터를 처리함으로써 그 안에서 겉으로 드러나지 않은 현상이나 맥락, 진실을 발견해야만 하는 기관이나 산업에서는 이미 머신 러닝 기술을 적극 사용하고 있다.
투자의 성공 확률을 예측하고 사기를 잡아내는 데에도 머신 러닝 기술이 적용 가능하기 때문에 금융기관들에서도 머신 러닝은 빠르게 도입되고 있다. 공익사업을 하는 업체들은 효율성을 높이고 비용을 절감하기 위해 센서 데이터를 분석하는 데에 머신 러닝을 사용한다. 진료 및 치료 행위의 큰 유행을 파악하기 위해 머신 러닝이 활용되기도 한다.
당연히 수없이 많은 데이터를 수집하고 분석해야 하는 정보보안 업계에서도 머신 러닝 기술에 대한 기대치가 높다. 기계적으로 처리해야 하는 데이터들을 일단 머신 러닝을 통해 걸러내면, 그 결과물을 보안 전문가가 검토해 더 올바른 결론에 더 빠르게 도달할 수 있다는 것이다. 게다가 클라우드의 도입으로 분석해야 할 데이터가 대량으로 수집되고 있다. 이 때문에 머신 러닝은 선택이 아닌 필수가 되고 있는 분위기다. 하지만 결국 어떤 부분에 어떤 식으로 활용하느냐가 관건. 이에 보안 전문가가 반드시 알아야 하는 머신 러닝의 특징을 몇 가지 정리해 보았다.
1. 쓰레기를 넣으면 쓰레기가 나온다
머신 러닝 분야에서 이미 격언처럼 굳어진 표현으로 “garbage in, garbage out”이라는 것이 있다. 보안 전문업체인 사일런스(Cylance)의 맷 울프(Matt Wolff)는 “이 말을 머신 러닝에 적용해보면 ‘사용할 곳에 사용해야 한다’는 뜻이 된다”고 풀이한다. “양질의 데이터가 있는 곳에 머신 러닝이 적용되어야지, 애초에 분석할 데이터가 별로 없거나, 데이터 자체가 신뢰도가 떨어지는 경우라면 머신 러닝을 해봐야 아무런 이득을 거두지 못합니다.”
보안 전략 업체인 IDC의 부회장인 피트 린스트롬(Pete Lindstrom)은 “보통 머신 러닝 도입을 계획하는 업체는 공격이 발생했을 때 빠르게 대응하려는 목적을 가지고 있다”며 “이런 때 잠깐 지갑을 닫고 차분해져야 한다”고 설명한다. “머신 러닝을 회사에 가져왔을 때, 그 기계에 어떤 정보들을 집어넣어 줄 수 있는지부터 파악해야 합니다. 마치 애완동물을 기르고자 할 때 혹은 결혼을 하기 전에 내가 부양할 능력이 되는지 고민하는 것과 마찬가지입니다.”
네트워크 패킷 활동, 시스템 요청 내역, 데이터에 대한 사용자 행동 패턴, 메타 데이터 등 조직과 기업에 따라 머신 러닝에 공급할 수 있는 정보는 가지각색이다. “그러니 내가 충분한 데이터를 줄 수 있는가? 줄 수 있다면 어떤 정보를 주기적으로 줄 수 있는가? 내가 사려는 머신 러닝은 어떻게 알고리즘을 파악하고, 어떤 조치들을 취하는가,를 다 생각하고 알아봐야 합니다.”
2. 머신 러닝의 잠재력은 무궁무진하다
아직까지 보안 업계에서 머신 러닝이란, 수많은 데이터에서 일정한 패턴이나 규칙을 찾아내는 기능이라는 인식이 있다. 맷 울프는 “그런데 패턴만 발견하자고 머신 러닝을 구매하는 건 돈 아까운 일”이라고 못 박는다. 머신 러닝의 알고리즘으로 할 수 있는 일은 그것보다 훨씬 많기 때문이다.
맷 울프는 “보안 전문가들이 원하는 건 아예 공격을 처음부터 당하지 않는 것 혹은 공격을 당하지 않은 것처럼 재빨리 방어하는 것”이라고 말하며 “하지만 사람은 원래 판단하는 데에 긴 시간을 보낸다”고 설명한다. 머신 러닝은 이 부분, 즉 판단 시간에 있어서 큰 차이를 만들 수 있다는 것이다. “머신 러닝은 사람이 아니라서 판단하는 데에 시간이 따로 들지 않거든요. 순간적으로 결정을 내리고 행동을 취하죠.” 즉 기계가 자동으로 막을 수 있는 공격들은 사전 방지 수준으로 방어해내는 게 가능하다는 것이다.
이는 머신 러닝을 도입할 때 좀 더 장기적인 시각이 필요하다는 말이다. 단순히 현재에 강력함을 발휘하는 기능만을 위하여 머신 러닝을 구입하는 게 아니라 수백만, 수천만에 이르는 정보들을 학습한 후, 그 인공지능이 뭘 할 수 있을지까지도 알아보고 예측해서 구매를 결정해야 한다. “머신 러닝은 정말 짧은 시간에 대단히 많은 경험을 쌓습니다. 사람이라면 놓칠 수 있는 걸 하나도 놓치지 않기도 하고요.”
3. 머신 러닝은 컴퓨팅 파워 잡아먹는 괴물이다
질 좋은 데이터를 주기적으로 끊임없이 제공해야 제 기능을 발휘하는 머신 러닝의 특성상 컴퓨팅 파워도 높아야 한다. “솔직히 일반 랩탑에서는 머신 러닝을 이상적으로 돌리기가 힘듭니다. 컴퓨터 수십 대를 연결해야 제대로 구동되죠.” 그러므로 머신 러닝을 구매하려고 한다면 컴퓨터 ‘클러스터’도 갖추고 있어야 한다. 여기에 클라우드가 대동되기도 한다. 울프에 의하면 사일런스는 머신 러닝의 훈련을 위해 100대 이상의 컴퓨터를 활용하고 있다고 한다. “하지만 좋은 소식은 학습을 거듭하면 할수록 특정 업무를 해내는 데 있어 CPU 소모량이 줄어든다는 겁니다.”
4. 학습은 사람이 감독하나? 안 하나?
기계의 학습이란 현재 사람이 감독하느냐 안 하느냐로 나뉜다. 아직 정답은 없다. 어떤 분야에서 어떤 목적을 가지고 도입이 되느냐에 따라 갈린다. 보안 전문업체인 다크트레이스(Darktrace)의 사이버 첩보 책임자인 저스틴 피어(Justin Fier)는 “사람의 몸이 다 다르고 기업의 네트워크가 다 다르듯, 머신 러닝이 적응해야 할 장소도 다 다르다”고 설명한다.
피어는 “예를 들어 비정상 상태를 자동으로 파악하려면, 정상 상태가 무엇인지 알아야 하는데, 이를 위해 다크트레이스에서는 머신 러닝이 사람의 감독 없이 자동으로 네트워크 상태를 끊임없이 학습하도록 한다”고 말을 이었다. “뭔가 우리의 의도를 개입시키지 않고 기계가 학습하도록 놔두는 것이죠. 이 부분은 아직 누구도 정확히 판단해 줄 수 없습니다. 최대한 많은 전문가들을 만나 상담을 받고 자문을 구해서 결정을 내려야 합니다.”
5. 머신 러닝은 멀웨어를 미리 막아낼 수 있다
멀웨어를 막아내는 건 보안 업계의 오래된 존재목적이다. 그래서 시그니처 기반의 탐지 기술과 샌드박싱 등이 나온 것이고, 머신 러닝도 그런 맥락에서 편입된 기술이다. 머신 러닝을 사용해 멀웨어를 막아낸다는 보안 업체인 크라우드스트라이크(CrowdStrike)는 시그니처에 의존하지 않고 멀웨어 침투를 미리 방지할 수 있다는 측면에서 머신 러닝의 가능성을 크게 보고 있다. “즉 미리 알려진 공격만 기계가 막을 수 있었다면, 이제는 미리 알려지지 않은 새로운 공격도 머신 러닝으로 막아낼 수 있다는 겁니다. 그렇다면 탐지도 획기적으로 빨라질 수 있다는 것이죠.”
그렇기에 무엇보다 머신 러닝을 도입하면 APT 공격에 대한 면역력이 크게 올라간다는 장점이 생긴다. “APT는 기본적으로 ‘오래 머물며’ ‘데이터를 훔쳐내는’ 데에 그 목적이 있습니다. 네트워크를 파괴하거나 손상시키는 것과는 거리가 멀죠. 그렇기에 방지와 탐지가 재빨리 이루어진다면 APT 공격을 무산시킬 수 있습니다. 이는 즉, 데이터 도난 사고 발생 시 타격을 크게 입는 조직일수록 머신 러닝을 고려해봄직 하다는 것이죠.”
하지만 이것이 곧바로 전체적인 보안 방어력이 올라가는 뜻은 아니라고 크라우드스트라이크는 경고한다. “요즘 공격은 멀웨어를 대동하지 않는 경우가 많습니다. 멀웨어를 사용하는 공격은 전체 사이버 공격 기법 중 극히 일부일 뿐이죠. 시스템이 가동될 때에만 메모리에 침투해 주요 정보를 빼오는 방법이 오히려 더 많이 사용되죠. 그러니 머신 러닝을 도입하려고 할 때 너무나 큰 기대치를 갖는 것도 금물입니다.”
Copyrighted 2015. UBM-Tech. 117153:0515BC
[국제부 문가용 기자(globoan@boannews.com)]
<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>