[보안뉴스 문정후 기자] 범람하는 데이터 도구들과, 점점 가격이 낮아지는 스토리지들, 그리고 고급화 되어 가는 분석 도구들 덕분에 우리는 “모든 데이터를 수집하고 분석하는 게 번성으로 향하는 지름길”이라고 생각하게 된다. 하지만 실제 현장에서 모든 데이터를 수집하여 분석하려 하다가 오히려 스텝이 뒤엉켜 비틀거리거나 심지어 넘어지기까지 하는 조직들이 적지 않다.

[이미지 = utoimage]
스마트 빌딩 기술 및 데이터 전문 기업 마이크로셰어(Microshare)의 CTO인 팀 파나고스(Tim Panagos)는 “데이터 분석과 처리에서도 고효율을 꾀해야 한다”고 강조한다. “데이터를 수집하고 분석하는 이유, 그렇게 해서 얻고자 하는 결과를 분명히 정립해야 합니다. 기준점이나 목적 없이 무작정 데이터를 모으고, 분석 도구를 구매하고, 무한정 스토리지를 늘린다면 데이터를 통해 얻을 수 있는 수익보다 비용이 더 들어가게 되어 있습니다. 심지어 결과의 질도 보장하지 못합니다.”
그렇다면 데이터 분석의 고효율화는 어떻게 이뤄내야 할까? 몇 가지 방법들을 여기서 다뤄보고자 한다.
1. 데이터 현황부터 파악하기
데이터 분석과 관리를 담당하는 당신은, 조직 내 누가 어떤 데이터를 사용하고 있는지 알고 있는가? 데이터 분석이라는 것을 보다 효율적으로 하는 데 있어 가장 중요한 정보가 바로 이것이다. 누가 어떤 데이터를 어떤 목적으로 어떤 도구를 사용해 분석하는지를 먼저 분석하는 게 급선무다.
클라우드 비용 감소 전문 플랫폼인 크로노스피어(Chronosphere)의 CTO 이안 스미스(Ian Smith)는 “데이터 운영을 효율적으로 하려면 그 무엇보다 데이터와 관련된 모든 컨텍스트를 이해하는 것이 중요하다”고 말한다. “무조건 자동으로 처리하는 게 ‘효율’이 아닙니다. 예를 들어 데이터 레이크에 온갖 데이터를 몰아넣고 언젠가 분석하겠다고 다짐만 하는 조직들이 수도 없이 많습니다. 그런데 그 데이터 레이크의 데이터 중 80%는 절대 사용되지 않습니다. 데이터와 관련된 이러한 컨텍스트를 이해하지 못한다면 아무리 뛰어난 자동화 솔루션을 가져다 놓아도 결국 레이크 운영 비용을 줄여주지 못합니다.”
하지만 예를 들어 절대 사용되지 않는 데이터 중 딱 한 사람만 주기적으로 접근하는 데이터가 15% 정도 있다면 어떻게 해야 할까? “이 역시 컨텍스트를 파악함으로써 접근해야 합니다. 만약 그 한 사람이 최고 데이터 책임자라면, 그리고 업무를 수행하기 위해 매달 한 번씩 아무도 사용하지 않는 데이터의 15%를 홀로 점검하는 것이라면 그 데이터는 회사 차원에서 간수하고 있어야 하지요. 이런 식으로 데이터와 관련된 각종 주변 상황들을 샅샅이 살피는 것이 중요합니다.”
2. 찾고자 하는 답이 데이터 안에 있는가?
사실 데이터의 ‘양’에 있어서 부족함을 느끼는 조직은 많지 않다. 데이터의 절대적인 양이 문제되는 경우보다, 양적으로는 충만한 그 데이터 안에 ‘진짜 필요한 데이터’가 없어서 문제가 되는 경우가 훨씬 많다. 그러므로 데이터 분석 행위의 효율을 높이려면 먼저 지금 가지고 있는 데이터를 통해 얻어낼 수 있는 결과가 현실적인 건지 아닌지를 평가해야 한다.
오픈소스 데이터 분석 플랫폼인 나임(KNIME)의 CEO 마이클 버톨드(Michael Berthold)는 “데이터를 살피고 이상한 패턴이나 아웃라이어, 혹은 오류가 없는지를 먼저 걸러내야 한다”고 강조한다. “이런 과정에서 데이터 분석을 통해 얻고자 하는 답과 지금 보유하고 있는 데이터가 전혀 상관이 없다는 걸 깨닫게 되기도 합니다.” 즉 데이터의 컨텍스트 정보를 파악했다면 그 데이터 자체의 질을 평가해야 한다는 뜻이다. 하지만 이 과정을 어떻게 진행해야 할까?
SAS의 인공지능 부문 수석 관리자인 케이티 살라마티(Katy Salamati)는 “통계학적인 기법 중 하나인 EDA를 실시하라”고 조언한다. “EDA는 데이터를 분석하기 전에 그래프 등을 그려 데이터를 보다 직관적으로 파악할 수 있게 해 주는 기법입니다. 이를 통해 데이터의 품질을 대략적으로 파악할 수 있고, 아웃라이어들도 잡아낼 수 있습니다. 그런 후에는 데이터 모델을 구축해 EDA로는 발견할 수 없었던 데이터 간 관계성을 찾아내야 합니다. 각종 인공지능 및 머신러닝 기반 기술들이 있어 이 과정이 예전보다 훨씬 쉽고 간단해지고 있습니다.”
3. 인공지능 모델과 파이프라인 실험하기
데이터에 대한 파악이 끝났다면, 이제 분석에 활용할 도구를 이해해야 할 차례다. 인공지능을 기반으로 한 최신식 분석 도구라고 해서 모든 면에서 완벽한 건 아니다. 그런 최신 기술 기반 도구들에도 비효율적인 면들이 얼마든지 내재해 있을 수 있다. 그 어떤 도구도 기술의 정점에 있어 더 이상 발전이 있을 수 없다고 말하기 힘들다. 물리 세계에 풍화작용이 일어나듯, 데이터들도 시간에 따라 변하기도 하며(이를 데이터 드리프트 현상이라고 한다), 그 외 여러 가지 예상치 못한 변수들이 있을 수 있다.
살라마티는 “실험을 통해 필요에 가장 잘 부합하는 도구를 찾아내야 한다”며 “원래 고급 도구일수록 사용자들이 계속해서 조정하고 알고리즘을 다시 훈련시킬 수 있도록 해 준다”고 말한다. “즉 사용자가 구하고자 하는 답에 따라 계속해서 알고리즘을 미세 조정할 수 있는 게 지금까지는 ‘고급 분석 도구’들의 공통점이라는 겁니다.”
데이터와 인공지능의 파이프라인을 점검하는 것도 중요하다. 데이터 관리 및 항목화 전문 업체 얼레이션(Alation)의 CSO 아론 카브(Aaron Kalb)는 “모든 분석 프로세스에 있어서 가장 중요한 것은 ‘데이터 인텔리전스(data intelligence)’라는 걸 기억해야 한다”고 강조한다.
“매우 고급스럽고 난이도 높은 데이터 파이프라인을 마련하는 것이든, 회의 자료로서 액셀 표를 준비하는 것이든 마찬가지입니다. 데이터 인텔리전스(DI)는 인공지능(AI)과 비즈니스 인텔리전스(BI)보다 더 아래에 깔리는 전제조건이어야 합니다. 올바르고 정확한 데이터만 AI와 BI에 공급되도록 하는 것이죠. 데이터의 품질이 제대로 보장되지 않는다면 데이터를 바탕으로 한 인공지능이나 각종 응용 분야 모두가 무용지물이 됩니다.”
4. 언제 그만둘 지를 알아야 한다
데이터의 중요도가 올라가면서 기업들은 “가능한 모든 데이터를 다 수집해야 한다”는 강박관념에 시달리기 시작했고, 정말로 모든 데이터를 모으기 시작했다. 데이터가 금이라는 건 일종의 비유인데, 이걸 글자 그대로 받아들인 것이다. 그러면서 각종 ‘불순물’들이 섞여들기 시작했고, 데이터는 약속된 ‘금값’을 하지 못하고 있다.
ISG의 수석 데이터 분석관인 케이시 루디(Kathy Rudy)는 “요즘 데이터 분석을 하는 사람들 대부분 ┖될 수 있으면 더’의 함정에 쉽게 빠져든다”고 지적한다. “일단 닥치는 대로 데이터를 모으는 데 집중하고 수시간 뒤에 ‘내가 왜 그랬지?’라고 생각합니다. 물론 수없이 모은 데이터들 덕분에 예기치 않은 좋은 결과가 나올 때도 있습니다. 하지만 그런 일이 일어날 확률은 매우 낮습니다. 방해가 되는 데이터들 때문에 오히려 분석 결과가 부정확해지는 일이 훨씬 더 높은 확률로 일어나죠.”
PwC의 인공지능 부문 파트너 브렛 그린스타인(Bret Greenstein)은 “데이터 분석은 많은 경우 ‘열린 결말’로 끝날 때가 많다”고 말한다. “기대한 만큼 명확한 답이 딱 떨어지지 않을 때가 많습니다. 그러니 분석가나, 그 분석가를 고용한 사람이나 만족하지 못하는 것이고, 그래서 더 만족스러운 데이터가 나올 때까지 데이터를 모으고 주입하기를 반복합니다. 사실은 그 열린 결말을 가지고 사람의 경험과 노하우를 섞어 다음 방향을 결정해야 하는데 말이죠.”
그린스타인은 “데이터로 주도되는 사업적 결정이라는 것이, 사람을 배제한다는 뜻이 아니”라고 강조한다. “인공지능을 통한 데이터 분석을 어느 선까지 인정하고 받아들일 것인지를 조직 전체가 결정해야 합니다. 하나의 중요한 참고 자료로서만 활용할 것인지, 아예 조직 전체의 우두머리로 추앙할 것인지 분명히 정하고, 그것에 맞게 따라야 합니다. 그렇지 않으면 절대로 끝나지 않는 분석의 악순환에 빠져들 수 있습니다.”
글 : 팸 베이커(Pam Baker), IT 칼럼니스트
[국제부 문정후 기자(globoan@boannews.com)]
<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>