데이터 분석의 궁극적인 목표는 의미의 도출
[보안뉴스 문가용] 기대치가 현실에 그대로 이루어지는 경우는 거의 없다. 사람들의 예상이라는 건 말 그대로 예상일뿐 예언이 될 수는 없는 게 보통이다. ‘빅 데이터’가 바로 그런 좋은 예다. 빅 데이터라는 말에 사람들이 떠올리는 이미지와 현실은 정말로 다르다. 빅 데이터의 필수 요소는 데이터 분석인데, 훌륭한 데이터 분석은 일반인들의 눈에 마법처럼 보인다. 바로 이게 문제다. 매번 마법과 같은 결과물을 기대하는 것 말이다.
실제 ‘데이터’를 다루는 전문가들이 받아들이는 ‘빅 데이터’라는 말과 다른 분야의 전문가들이 이해하고 있는 ‘빅 데이터’라는 말에도 차이가 있다. 그 차이의 종류도 너무 많아 일일이 열거할 수는 없지만 결국에는 빅 데이터를 최종 목표로 보는 데에 오류가 있다고 정리할 수 있다. 무슨 말인지 조금 더 상세히 풀어보고자 한다.
빅 데이터나 스몰 데이터나
‘빅 데이터 분석’이라는 말이 주는 전문성 높고 우아한 느낌은 사실 많이 과장된 것이다. 어쩌면 그다지 악의적이지 않은 거짓말일 수도 있다. 빅 데이터를 분석할 때 가장 먼저 하는 일은 큰 데이터를 잘게 부수는 것이다. 그렇게 하지 않더라도 빅 데이터에서 샘플을 꺼내 그 일부만을 분석하는 게 대부분이다. 즉 실제 작업이라는 측면에서 빅 데이터를 가지고 하는 일은 사실 스몰 데이터를 가지고 하는 일인 경우가 많다.
예를 들어 수천 개의 시스템으로부터 전송된 로그 데이터를 분석한다고 치자. 어떻게 하겠는가? 분석가들은 각 로그에서 소스 카운트나 로그인 정보 등 자기가 필요한 정보가 들어있는 부분만을 빼낸다. 물론 그렇다고 해서 일이 엄청나게 쉬워지거나 데이터 양이 줄어드는 건 아니다. 다만 흔히들 생각하는 것처럼 산더미 같은 데이터에 눌려 컴퓨터 수십 대에 해당하는 메모리가 소요되는 건 아니라는 거다.
그렇다고 해서 ‘빅 데이터라는 게 실상은 별거 아니다’라는 뜻이 되는 건 아니다. 작은 데이터라도 그 수가 어마어마해지는 경우가 현대 네트워크 환경에서는 부지기수이기 때문이다. 예를 들어 서버에 존재하는 모든 애플리케이션을 분석해야 한다면, 요즘 같이 무제한의 애플리케이션이 사용되는 때에 이는 상상도 못할 양의 작업이 될 수밖에 없다.
빅 데이터 = 자신감?
빅 데이터 관련 종사자들이 조금 발끈할 지도 모를 내용을 앞에 언급했다. 다시 한 번 강조하고 싶은 건, 빅 데이터 분석이 결국 기존의 (작은) 데이터 분석과 다를 바가 없다는 뜻으로 한 말이 아니라는 것이다. 빅 데이터가 빅 데이터라는 이름을 갖게 된 것에는 분명한 이유가 존재한다. 일단 분석을 위해 채집하는 샘플의 양에 분명한 차이가 있다. 기존에는 기껏해야 백 단위의 샘플을 분석했다면 빅 데이터에서는 적어도 수천이다.
다행히 필요가 발명의 어머니라고, 이런 분석능력의 필요 때문에 기술도 상당히 발전한 것이 사실이다. 그래서 약간의 차이도 발견할 수 있고 아주 사소한 패턴도 찾아낼 수 있다. 사실 위에서 말한 ‘마법’ 효과가 대부분 이런 발전에 기인한다고 볼 수 있다. 분명히 현대에 이르러 우리는 더 많은 데이터를 수용해 분석하고, 더 많은 결과물을 얻어내긴 한다.
하지만 얻은 게 있으면 잃는 것도 있는 법. 여기엔 부작용이 존재한다. 기존 통계학에서 중요하게 다뤘던 p값은 샘플이 커지면 커질수록 통계적 가치가 떨어진다. 또한 예전엔 사소하게 넘어갔거나 눈에 띄지도 않던 것들이 기술의 발달로 인해 발견되기 시작하면서 ‘작은 사안’이 ‘큰 문제’로서 받아들여지기 시작했다. 마법과도 같았던 빅 데이터 분석의 결과들이 오히려 본질을 흐트러트리는, 눈가리개 같은 작용을 하는 것이다.
데이터는 빅, 샘플은 스몰
결국 짚고 싶은 점은 한 가지다. ‘빅 데이터’라는 신조어를 지나치게 우러러보거나 지레 겁먹지 말라는 거다. 들여다보면 수백 년전부터 우리가 해왔던 통계 및 분석과 다를 것이 거의 없다. 그러므로 현대의 빅 데이터 분석이나 기존의 통계분석이나 목표는 똑같다. ‘올바른 의미’를 찾는다는 게 바로 그것이다. 샘플의 수를 늘려봤자, 분석하는 기술이 발전해봤자, 결과로 얻어지는 것들이 하나의 ‘의미’로 이어지지 않으면 말짱 도루묵이다. 예를 들면, 칼을 잘 쓰고 좋은 식재료를 고를 수 있는 눈을 가지고 있다고 해도 결국 해 놓은 음식이 맛 없으면 요리사로서 성공하는 데에 한계가 있을 수밖에 없는 것과 같다.
가끔 통계자료를 보며 ‘샘플 수가 너무 작다’는 이유로 결과나 분석 내용을 보지도 않고 쓰레기통에 넣어버리는 사람들이 있다. 빅 데이터에 익숙하다보니 백 단위 샘플은 성에 차지 않는 듯 하다. 샘플의 수량과 분석 결과의 질이 비례하지 않는다는 그 간단한 진리를 기억해주었으면 한다. 빅 데이터, 즉 많은 샘플을 분석해야 하는 능력을 습득하는 것 자체가 목표라고 생각한다면 대단히 큰 오류다. 데이터 분석은 빅이든 스몰이든 샘플의 양과 상관없이 ‘유의미한 결과를 도출해내는’ 방법일 뿐이다.
글 : 제이 제이콥스(Jay Jacobs)
Copyrighted 2015. UBM-Tech. 117153:0515BC
[국제부 문가용 기자(globoan@boannews.com)]
<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>