[보안뉴스=존 에드워즈 IT 칼럼니스트] 데이터 관리란 무엇일까? 데이터를 수집하고, 보호하고, 조직하고, 저장해 분석이 용이하도록 만드는 것을 말한다. 그리고 이 분석을 통해 보다 정확한 결정을 내릴 수 있도록 하는 게 데이터 관리의 진짜 의의라고 할 수 있다. 하지만 이런 ‘진짜 의의’을 제대로 살린다는 건 대단히 어려운 일이다. 특히 데이터의 분량이 많아지고 있기 때문에 데이터 관리의 난이도는 숨가쁘게 높아지는 중이다.

[이미지 = gettyimagesbank]
그렇다고 벌써부터 포기할 필요는 없다. 어렵긴 해도 불가능의 영역에 있는 건 아니기 때문이다. 데이터 관리의 기본을 안다면, 어렵지만, 얼마든지 데이터를 관리할 수 있게 된다. 그래서 데이터 관리에 관한 몇 가지 기본 사항 혹은 고려 사항을 총 네 가지로 요약해 여기에 적어놓고자 한다.
데이터에 대한 접근성
데이터라는 건 원래 여러 곳에서부터 날아들어온다. 출처가 다양하다는 것이다. 그렇기 때문에 그 모든 데이터를 한 눈에 열람하여 전체 현황을 파악한다는 건 불가능에 가깝다. 물류 업체 워너엔터프라이즈(Werner Enterprises)의 CIO 다라 마혼(Daragh Mahon)은 “데이터 관리의 업무 프로세스나 전체 전략이 적절한지, 효과가 어느 정도를 내는지 등을 평가하는 게 어렵다는 뜻”이라고 해석한다. “전체 그림을 제대로 보지 못하니 데이터를 제대로 활용하기도 어렵고, 데이터를 분석했을 때의 결과도 불완전할 수밖에 없습니다.”
회사 내 각 부서들이 알아서, 따로따로 데이터를 확보해 활용한다면 이러한 문제는 해결될 수 없다. 마혼은 “대량의 데이터를 저장하되, 접근과 활용이 쉬우면서 또 안전할 수 있도록 하는 게 중요하다”고 말한다. “어디서 온 데이터이며, 누가 구해놓은 데이터이든, 누구나 접근하여 분석할 수 있고 공유할 수 있게 해서 진정한 협업이 일어나도록 유도하는 게 좋습니다. 이를 좀 더 구체적으로 설명하자면, ‘클라우드 퍼스트’ 전략을 채택하는 게 유리하다는 겁니다. 클라우드에 데이터를 저장해두고, 여러 가지 설정을 조정해 관리한다면 모두가 데이터를 한껏 활용하면서도 안전하게 관리할 수 있습니다.”
데이터의 복잡함
현대의 조직들은 수천 개의 테이블과, 수백 개의 열을 포함하고 있는 대량의 데이터 스키마 때문에 골머리를 앓고 있다. 방대한 분량인데다가 복잡하기까지 하니 보고만 있어도 머리가 지끈지끈하다. “이렇게 복잡하고 방대한 데이터는, 데이터 엔지니어가 새로운 SQL 쿼리를 작성하려고 할 때 문제가 됩니다. 어떤 테이블과 어떤 열에 자신들이 필요로 하는 것이 있는지 알 수도 없고, 안다 한들 찾기도 어렵습니다.” 펜실베이니아대학 공학 교수 수잔 데이비슨(Susan Davidson)의 설명이다.
이 문제는 어떤 식으로 해결해야 할까? 데이비슨은 “아직 완전하지는 않지만 생성형 인공지능이 SQL 쿼리를 일반 영어로 작성하는 데 매우 능숙하다”는 점을 짚는다. “일반 언어로 말할 수 있는 생성형 인공지능을 적당히 활용한다면 데이터 복잡성을 어느 정도 완화시킬 수 있을 겁니다. 다만 매우 큰 스키마의 경우 생성형 인공지능도 오류를 냅니다. 더 연구가 진행된다면 상황이 나이질 수 있겠지만 지금 당장은 아닙니다.”
데이터의 과부하
수년 동안 조직들은 언젠가 가치가 있을지도 모르는 경우를 대비해 가능한 많은 데이터를 수집하도록 권장받았다. 불행히도 이로 인해 명명 규칙, 위치 또는 데이터 거버넌스 등 기본적인 전략이 없는, 그러므로 구조화도 되지 않은 대량의 데이터가 축적되었다. 클라우드 업체 미션클라우드(Mission Cloud)의 CSO인 라이언 라이즈(Ryan Ries)는 “진주와 쓰레기가 섞여 있는 형국”이라고 지금의 상황을 묘사한다. “게다가 그런 ‘진주+쓰레기’ 데이터가 축적되는 동안 담당자들도 계속 바뀌었죠. 그러니 데이터 전략이라는 것 자체도 희미하거나 아예 사라진 곳이 많습니다.”
이런 과부하 문제를 해결하려면 “언젠가 모든 데이터를 전량 파악해 골라내는 작업을 해야 한다”고 라이즈는 말한다. “하지만 그런 대규모 작업을 하루 이틀 안에 다 해낼 수는 없습니다. 조직에 따라 수년이 걸리는 일일 수도 있습니다. 그렇기 때문에 일단은 더 이상 진주와 쓰레기가 섞이지 않도록 쌓는 것이 중요합니다. 그러려면 ‘저장하고 있는 데이터가 무엇인지’와 ‘그 데이터의 가치는 무엇인지’를 깊이 이해해야 합니다. 데이터를 단순하게 보고서는 가치를 판단할 수 없기 때문입니다. 언젠가는 청소를 해야 하는데, 일단 그 언젠가가 될 때까지 쓰레기를 더 늘리지 않는다는 게 중요하다는 겁니다.”
데이터의 품질 하락
데이터 관리의 목적은 결국 올바른 데이터 분석 결과를 도출하는 데에 있다고 강조했었다. 그렇다는 건 ‘데이터의 품질 관리’ 역시 ‘양적으로 충분한 데이터 확보’만큼 중요하다는 뜻이 된다. 품질이 낮은 데이터란, 부정확하거나, 일관성이 없거나, 중복되어 있거나, 결측되어 있는 데이터다. 이런 문제들 중 하나라도 나타난다면, 그 데이터는 좋은 데이터라고 할 수 없다.
품질이 좋지 않은 데이터는 비용 낭비를 초래한다. 게다가 분석 결과가 부정확해지게 만든다. 따라서 기업의 사업적 결정을 오염시킬 수 있다는 잠재적 위험 요소가 되기도 한다. 한 마디로 시한폭탄과 같은 존재다. 데이터의 내용만이 아니라 메타데이터의 수준 모두에서 일관성과 정확성을 높게 유지하는 게 중요하다.
데이터 품질을 보장하기 위한 헌신은 품질을 핵심 전략 목표로 삼는 것에서부터 시작한다. "효과적인 접근법은 데이터 품질에 책임을지는 실행 임원 리더를 지정하고 그들에게 성공하기 위한 예산 및 자원을 제공하는 것”이라고 라이즈는 조언한다. "포괄적인 데이터 평가를 수행하고 데이터 거버넌스 전략 및 규칙을 수립하며 초기 승리를 얻기 위해 가장 중요한 데이터 영역에 중점을 두고 시간이 경과함에 따라 진행을 추적하고 관리하기 위한 측정 가능한 지표와 목표를 설정하는 것을 추천합니다."
글 : 존 에드워즈(John Edwards), IT 칼럼니스트
[국제부 문정후 기자(globoan@boannews.com)]
<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>