빅 데이터, 목표가 아니라 하나의 수단일 뿐

2015-10-07 17:02
  • 카카오톡
  • 네이버 블로그
  • url
빅 데이터라는 신조어가 주는 환상부터 깨야
데이터 분석의 궁극적인 목표는 의미의 도출


[보안뉴스 문가용] 기대치가 현실에 그대로 이루어지는 경우는 거의 없다. 사람들의 예상이라는 건 말 그대로 예상일뿐 예언이 될 수는 없는 게 보통이다. ‘빅 데이터’가 바로 그런 좋은 예다. 빅 데이터라는 말에 사람들이 떠올리는 이미지와 현실은 정말로 다르다. 빅 데이터의 필수 요소는 데이터 분석인데, 훌륭한 데이터 분석은 일반인들의 눈에 마법처럼 보인다. 바로 이게 문제다. 매번 마법과 같은 결과물을 기대하는 것 말이다.

실제 ‘데이터’를 다루는 전문가들이 받아들이는 ‘빅 데이터’라는 말과 다른 분야의 전문가들이 이해하고 있는 ‘빅 데이터’라는 말에도 차이가 있다. 그 차이의 종류도 너무 많아 일일이 열거할 수는 없지만 결국에는 빅 데이터를 최종 목표로 보는 데에 오류가 있다고 정리할 수 있다. 무슨 말인지 조금 더 상세히 풀어보고자 한다.

빅 데이터나 스몰 데이터나
‘빅 데이터 분석’이라는 말이 주는 전문성 높고 우아한 느낌은 사실 많이 과장된 것이다. 어쩌면 그다지 악의적이지 않은 거짓말일 수도 있다. 빅 데이터를 분석할 때 가장 먼저 하는 일은 큰 데이터를 잘게 부수는 것이다. 그렇게 하지 않더라도 빅 데이터에서 샘플을 꺼내 그 일부만을 분석하는 게 대부분이다. 즉 실제 작업이라는 측면에서 빅 데이터를 가지고 하는 일은 사실 스몰 데이터를 가지고 하는 일인 경우가 많다.

예를 들어 수천 개의 시스템으로부터 전송된 로그 데이터를 분석한다고 치자. 어떻게 하겠는가? 분석가들은 각 로그에서 소스 카운트나 로그인 정보 등 자기가 필요한 정보가 들어있는 부분만을 빼낸다. 물론 그렇다고 해서 일이 엄청나게 쉬워지거나 데이터 양이 줄어드는 건 아니다. 다만 흔히들 생각하는 것처럼 산더미 같은 데이터에 눌려 컴퓨터 수십 대에 해당하는 메모리가 소요되는 건 아니라는 거다.

그렇다고 해서 ‘빅 데이터라는 게 실상은 별거 아니다’라는 뜻이 되는 건 아니다. 작은 데이터라도 그 수가 어마어마해지는 경우가 현대 네트워크 환경에서는 부지기수이기 때문이다. 예를 들어 서버에 존재하는 모든 애플리케이션을 분석해야 한다면, 요즘 같이 무제한의 애플리케이션이 사용되는 때에 이는 상상도 못할 양의 작업이 될 수밖에 없다.

빅 데이터 = 자신감?
빅 데이터 관련 종사자들이 조금 발끈할 지도 모를 내용을 앞에 언급했다. 다시 한 번 강조하고 싶은 건, 빅 데이터 분석이 결국 기존의 (작은) 데이터 분석과 다를 바가 없다는 뜻으로 한 말이 아니라는 것이다. 빅 데이터가 빅 데이터라는 이름을 갖게 된 것에는 분명한 이유가 존재한다. 일단 분석을 위해 채집하는 샘플의 양에 분명한 차이가 있다. 기존에는 기껏해야 백 단위의 샘플을 분석했다면 빅 데이터에서는 적어도 수천이다.

다행히 필요가 발명의 어머니라고, 이런 분석능력의 필요 때문에 기술도 상당히 발전한 것이 사실이다. 그래서 약간의 차이도 발견할 수 있고 아주 사소한 패턴도 찾아낼 수 있다. 사실 위에서 말한 ‘마법’ 효과가 대부분 이런 발전에 기인한다고 볼 수 있다. 분명히 현대에 이르러 우리는 더 많은 데이터를 수용해 분석하고, 더 많은 결과물을 얻어내긴 한다.

하지만 얻은 게 있으면 잃는 것도 있는 법. 여기엔 부작용이 존재한다. 기존 통계학에서 중요하게 다뤘던 p값은 샘플이 커지면 커질수록 통계적 가치가 떨어진다. 또한 예전엔 사소하게 넘어갔거나 눈에 띄지도 않던 것들이 기술의 발달로 인해 발견되기 시작하면서 ‘작은 사안’이 ‘큰 문제’로서 받아들여지기 시작했다. 마법과도 같았던 빅 데이터 분석의 결과들이 오히려 본질을 흐트러트리는, 눈가리개 같은 작용을 하는 것이다.

데이터는 빅, 샘플은 스몰
결국 짚고 싶은 점은 한 가지다. ‘빅 데이터’라는 신조어를 지나치게 우러러보거나 지레 겁먹지 말라는 거다. 들여다보면 수백 년전부터 우리가 해왔던 통계 및 분석과 다를 것이 거의 없다. 그러므로 현대의 빅 데이터 분석이나 기존의 통계분석이나 목표는 똑같다. ‘올바른 의미’를 찾는다는 게 바로 그것이다. 샘플의 수를 늘려봤자, 분석하는 기술이 발전해봤자, 결과로 얻어지는 것들이 하나의 ‘의미’로 이어지지 않으면 말짱 도루묵이다. 예를 들면, 칼을 잘 쓰고 좋은 식재료를 고를 수 있는 눈을 가지고 있다고 해도 결국 해 놓은 음식이 맛 없으면 요리사로서 성공하는 데에 한계가 있을 수밖에 없는 것과 같다.

가끔 통계자료를 보며 ‘샘플 수가 너무 작다’는 이유로 결과나 분석 내용을 보지도 않고 쓰레기통에 넣어버리는 사람들이 있다. 빅 데이터에 익숙하다보니 백 단위 샘플은 성에 차지 않는 듯 하다. 샘플의 수량과 분석 결과의 질이 비례하지 않는다는 그 간단한 진리를 기억해주었으면 한다. 빅 데이터, 즉 많은 샘플을 분석해야 하는 능력을 습득하는 것 자체가 목표라고 생각한다면 대단히 큰 오류다. 데이터 분석은 빅이든 스몰이든 샘플의 양과 상관없이 ‘유의미한 결과를 도출해내는’ 방법일 뿐이다.
글 : 제이 제이콥스(Jay Jacobs)
Copyrighted 2015. UBM-Tech. 117153:0515BC
[국제부 문가용 기자(globoan@boannews.com)]

<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>

연관 뉴스

헤드라인 뉴스

TOP 뉴스

이전 스크랩하기


과월호 eBook List 정기구독 신청하기

    • 다후아테크놀로지코리아

    • 인콘

    • 엔텍디바이스코리아

    • 이노뎁

    • 다후아테크놀로지코리아

    • 아이디스

    • 씨프로

    • 웹게이트

    • 씨게이트

    • 하이크비전

    • 한화비전

    • ZKTeco

    • 비엔에스테크

    • 비엔비상사

    • 원우이엔지

    • 지인테크

    • 지오멕스소프트

    • 이화트론

    • 다누시스

    • 테크스피어

    • 렉스젠

    • 슈프리마

    • 인텔리빅스

    • 시큐인포

    • 미래정보기술(주)

    • 동양유니텍

    • 비전정보통신

    • 경인씨엔에스

    • 트루엔

    • 성현시스템

    • 한결피아이에프

    • 프로브디지털

    • 디비시스

    • 세연테크

    • 스피어AX

    • 투윈스컴

    • 위트콘

    • 유에치디프로

    • 구네보코리아주식회사

    • 주식회사 에스카

    • 넥스트림

    • 포엠아이텍

    • 세렉스

    • 탈레스

    • 에스지에이솔루션즈

    • 로그프레소

    • 윈스

    • 포티넷코리아

    • 신우테크
      팬틸드 / 하우징

    • 에프에스네트워크

    • 유투에스알

    • 케이제이테크

    • 알에프코리아

    • 창성에이스산업

    • 아이엔아이

    • 미래시그널

    • 새눈

    • 에스에스티랩

    • 현대틸스
      팬틸트 / 카메라

    • 이스트컨트롤

    • 네티마시스템

    • 태정이엔지

    • (주)일산정밀

    • 넥스텝

    • 한국씨텍

    • 두레옵트로닉스

    • 에이티앤넷

    • 지에스티엔지니어링
      게이트 / 스피드게이트

    • 에이앤티글로벌

    • 포커스에이치앤에스

    • 신화시스템

    • 휴젠

    • 메트로게이트
      시큐리티 게이트

    • 글로넥스

    • 엘림광통신

    • 세환엠에스(주)

    • 유진시스템코리아

    • 카티스

    • 유니온커뮤니티

Copyright thebn Co., Ltd. All Rights Reserved.

MENU

회원가입

Passwordless 설정

PC버전

닫기