데이터의 양, CIO의 책임, 데이터 과학자의 보고서 작성 능력
[보안뉴스 문가용 기자] 데이터 과학이 주변부에서 중심부로 빠르게 이동 중이다. 보다 방대한 데이터에서부터 정교한 분석 결과를 도출해내는 것 자체로 새로운 기회가 되고 있는 때이기 때문이다. 데이터 과학 플랫폼들과 그 분석 결과가 가지고 있는 여러 가지 의미들이 다양하게 활용되는 사례도 빠르게 늘어나고 있다. 이렇게 계속해서 가면, 어떤 미래에 우린 봉착하게 될까? 데이터가 이렇게나 공격적으로 탐구되고 있는 시간이 지나 우리는 어떤 환경에 처하게 될까? 세 가지 예언이 현재 나돌고 있다.
.jpg)
[이미지 = iclickart]
1. 빅데이터라는 말이 점점 사라질 것이다
데이터의 크기가 중요하고, 샘플의 수가 중요하다는 개념이 흐려지고 있다. 실제 사례를 통해 데이터가 크다고 해서 더 낫다는 통념이 계속해서 깨지고 있기 때문이다. 더 좋은 결과를 위해 더 많은 데이터를 추출하고자 돈을 쓰는 게 낭비가 될 수 있다는 말이다. 비용을 효율적으로 쓰는 것이 지당 최대 과제인 기업들에게 있어, 이는 곧바로 개선되어야 할 문제다.
물론 이론적으로는 데이터가 많으면 많을수록 좋다. 그러나 현실에서는 왜 반례가 등장하는 것일까? 데이터의 질이 담보되지 않기 때문이다. 데이터가 많으면 많을수록 좋다는 건, 데이터가 깨끗할 때의 얘기다. 데이터가 다 깨끗하다는 보장이 없이 무작정 수집양만 늘리는 건 고비용 저효율로 가는 지름길이다. 기업들은 적당량이 어느 정도인지 곧 찾아낼 전망이고, 이에 따라 빅데이터란 말은 점점 그 가치를 잃을 것으로 본다.
MIS의 연구원인 칼리안 비어라마차네니(Kalyan Veeramachaneni)는 “데이터로부터 높은 가치를 끌어내고 싶다면 데이터에 대한 인간 직원들의 이해도를 높이고, 모델링에 필요한 질문들의 수를 유연하게 늘였다 줄였다 할 수 있어야 하며, 이 두 가지(이해와 질문 설정)를 빠른 시간 안에 해낼 수 있어야 한다”고 말한다. “즉 데이터양에 의존하는 건 구식이라는 뜻입니다.”
실제로 포춘 500 기업들은 분석에 들어갈 ‘양질의 데이터’를 엄선하는 방법을 새롭게 연구 혹은 터득 중에 있다고 한다. 그래야 속도는 물론이고 올바른 결론이 보장된다. 예를 들어 콜센터 통화품질 확인을 위해 페타바이트 단위의 데이터를 분석하는 게 아니라, 지난 2~3개월 간의 데이터만 모아 더 많은 실험을 거치는 식으로 해 더 ‘시기적절한’ 결론을 뽑아내는 데에 주력하는 것일 수도 있다는 것이다.
2. CIO들은 앞으로 데이터 과학 지식을 필수로 가져야 할 것이다
IT 팀들은 앞으로 더 많은 데이터를 다루고 폐기하고 분석할 전망이다. 지금도 그런 흐름이 갖춰져 있다. 사실 IT 조직들은 예전부터 분석된 데이터 인프라를 다뤄온 전문가 집단이다. 즉 데이터 저장소나 데이터 생성 프로세스 자체에 더 관여를 했던 사람들이라는 것이다. 하지만 지금 이들은 그런 옛 ‘홈그라운드’와 사업 경영 및 마케팅 부서의 사이에서 데이터를 주무르고 반죽할 줄 알아야 한다. 현재 그 역할을 하고 있는 데이터 과학자들이 일을 더 쉽고 빠르게 하기 위해 각종 앱들을 사내 네트워크로 들여오고 있기 때문이다. 이로써 은둔의 IT가 차곡차곡 쌓여간다. 이런 데이터 과학의 생리를 알고 관리할 수 있어야 한다.
그렇다. 데이터 과학자들의 ‘관리’ 문제가 앞으로 대두될 것이라는 게 두 번째 예언의 핵심이다. 그러려면 CIO들의 역할이 ‘가중’되어야 한다. 현재 CIO들은 ‘데이터 과학자들이 주로 사용하거나 사용하고 싶어하는 툴들이 따로 존재한다’는 걸 알아가고 있는 중이다. 그리고 그 ‘위시리스트’는 항상 변한다는 사실도.
앞으로 1년 동안 데이터 과학에 필요한 툴들은 계속해서 늘어날 것이다. 스토어에도 늘어나지만 어느새 우리 회사에도 늘어나 있을 것이다. 은둔의 IT 문제가 새로이 시작되는 것인데, 이를 막기 위해 미리 데이터 과학자들이 사용할 인프라를 구축해두는 게 현명한 처사다. CIO들이여, 지금부터 데이터 과학에 대한 공부를 미리미리 해두는 것이 어떨까.
3. 데이터 관련 업무의 투명성이 더 중요해진다
유럽 연합의 GDPR의 시행이 1년도 남지 않았다. 유럽이 아니더라도 개인정보의 활용에 대한 법률은 세계적으로 엄격해지고 있는 실정이다. 그래서 데이터 거버넌스(data governance)라는 개념이 더 없이 중요해지고 있기도 하다. 현재 이 거버넌스의 엄격함을 가장 살 떨리게 느끼고 있는 산업은 금융, 은행, 보험, 건강, 시설이다. 이 산업에서 가격을 정하고 마케팅 전략을 짜고, 다음 상품을 기획하는 데에 데이터 과학에 대한 의존도는 점점 더 높아지고 있다.
즉, 데이터를 써야만 앞으로 나아갈 수 있는데, 그걸 누군가 엄격하게 지켜보고 관리한다는 것이다. 그리고 그 엄격한 관리는 ‘보고서 제출’의 형태를 띠어가고 있다. 미국 사법부는 최근 앤섬(Anthem)과 시그나(Cigna)의 인수합병을 금지시킨 바 있다. 왜? 여러 이유 중 하나가 바로 데이터 보안에 관해 이 두 기업이 뭘 하고 있는지 제대로 증명하지 않았기 때문이다. 즉 보고서가 부실했다는 얘기다. 앞으로 데이터 보안과 모델링에 대한 보고서 요청은 더 편만해질 예정이다. GDPR도 보고서 규정이 매우 엄격한 것으로 알려져 있다.
그러므로 데이터를 통해 사업 기회를 늘리고 확장하고 싶다면 문서화 능력도 배양해야 한다는 소리다. 우리 회사가 데이터를 안전하게 사용하고 있소, 라는 걸 적극 증명해야 한다. 이건 데이터 과학자의 책임일 수도 있겠고, CIO의 책임일 수도 있을 것이다.
빅 데이터 분야의 최신 알고리즘, 머신 러닝의 빠른 발전 등에 주목하는 것도 당연하지만 위 세 가지 부분도 미리 준비해야 할 부분이다. 데이터의 양으로 승부하는 게 아니라 효율로 승부할 준비를 갖추고 있는가? CIO는 데이터 과학 공부를 시작했는가? 데이터 과학자들은 보고서 작성 요령을 익히고 있는가?
글 : 닉 엘프린(Nick Elprin), 도미노 데이터랩
필립 레빈슨(Philip Levinson), 에드캐스트
[국제부 문가용 기자(globoan@boannews.com)]
<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>