[주말판] 데이터 레이크, 앞으로 어떤 방향으로 흘러갈까?

데이터 웨어하우스와의 결합, 빠르게 진행 중...대량의 데이터를 실시간으로 처리
데이터 관리와 분석 그 자체가 목적이 아냐...종합적인 조직 경쟁력 강화를 고민해야

[보안뉴스 문가용 기자] 데이터 레이크 플랫폼을 사용하면 어마어마한 양의 데이터를 저장하고 분석할 수 있게 된다. 따라서 올바른 결정을 제 때 내리는 데 큰 도움이 된다. 데이터 분석 기술을 활용해 사업을 펼치는 조직들이라면 시장 분석, 효율성 극대화, 미래 예측, 리스크 평가, 사기 탐지 등에 데이터 레이크 기술을 활용할 수 있다는 것을 이미 잘 알고 있을 것이다.

[이미지 = utoimage]

지금 시점에서 데이터 레이크가 주류 기술이라거나, 트렌드를 형성하고 있다고 말하기는 어렵다. 하지만 수많은 기업들이 진행하고 있는 디지털 변혁과 매우 깊은 연관이 있는 것은 사실이다. 그래서 이 신기술 혹은 신개념이 지금 이 순간에도 극적으로 변하는 중이다. 모든 데이터 레이크가 성공적으로 변하는 건 아니다. 실패 사례도 이미 나타나고 있다. 하지만 많은 조직들이 디지털 레이크에 대한 감을 서서히 잡아가고 있는 것처럼 보인다. 그러면서 나타나는 흐름이 있어 짚어보기로 한다.

그 전에 한 가지 강조하고 싶은 건, 이제부터 서술할 트렌드라는 것들이 비단 데이터 레이크에만 적용되는 것은 아니라는 것이다. 데이터 성숙도 혹은 데이터를 활용하는 기업의 성숙도와도 깊은 관련이 있다.

1. 레이크하우스(lakehouse)가 뜨고 있다
현 시점에서 가장 분명하다고 할 수 있는 현상은 ‘데이터 레이크’와 ‘데이터 웨어하우스’라는 개념이 합쳐지고 있다는 것이다. 그래서 탄생한 신조어가 ‘레이크하우스’다. 데이터 웨어하우스를 분석 데이터베이스 위에 구축함으로써 기업이 사업 진행에 따라 클라우드를 기반으로 한 데이터 레이크를 확장 및 활용할 수 있게 해주는 것을 말한다. 즉 기본적으로 데이터 웨어하우스를 클라우드 스토리지와 결합시키는 것을 의미한다고 간단하게 말할 수 있다. 데이터 과학자들이 활용할 데이터가 양적인 측면에서 대폭 늘어날 뿐만 아니라, 데이터의 활용이 더 편리해진다는 뜻이 된다.

2. 센서 기반 시계열 데이터와 에지 인공지능의 폭발적 증가
5G망을 통해 사물인터넷 장비를 활용하는 사례가 늘어나면서 기업들이 다뤄야 할 데이터의 양이 계속해서 증가하고 있다. 특히 사물인터넷 장비들에 부착된 각종 센서들로부터 생성되는 정보들이 빠르게 늘어나는 중인데, 이 정보들 대부분이 ‘시계열 데이터(time-series data)’로 분류된다. 규칙적이되 짧은 주기로 측정되는 데이터들로, 시간이 지남에 따라 시스템과 프로세스, 행동 패턴 등이 어떻게 변하는지를 나타낸다.

내장형 데이터베이스 혹은 임베디드 데이터베이스(embedded database)는 소프트웨어 내에 구축되는 것으로, 최종 사용자에게 투명하게 제공되며 지속적인 유지 관리를 거의 필요로 하지 않는다. 모바일 애플리케이션과 사물인터넷 장비들이 증가하면서 임베디드 데이터베이스도 빠르게 보편화 되고 있으며, 수많은 장비들이 독자적인 데이터베이스 관리 시스템을 통해 새로운 기능을 덧입게 된다. 개발자들은 원격에 있는 장비에 곧바로 고급 애플리케이션들을 생성할 수 있게 된다. 데이터를 최대한 활용하기 위해서는 임베디드 데이터베이스와 데이터 레이크를 실시간으로, 다량 처리할 수 있어야 한다. 그래야 ‘데이터 처리를 통한 경쟁력 강화’가 유의미하게 된다.

사물인터넷을 적극 활용하는 조직이라면, 에지에 있는 임베디드 데이터베이스들을 사용해 데이터를 빠르게 처리할 수 있는데, 이 때 인공지능 기술을 활용하는 것이 유력한 선택지가 될 것이다. 또한 사물인터넷 장비 센서들을 통해 축적된 정보들을 데이터 레이크로 빠르게 복사해 오고, 동시에 분석을 진행하는 것도 가능하게 될 것이다. 즉 데이터베이스 관리와 활용이라는 것에 ‘대량’과 ‘실시간’이라는 개념을 접붙이는 기술과 방법론이 속속 등장할 것을 예상할 수 있다. 데이터를 통한 혁신을 꿈꾸는 조직이라면 데이터 레이크와 임베디드 데이터베이스의 관계가 어떤 식으로 발전하는지 지켜보는 게 좋을 것으로 보인다.

3. 데이터 레이크를 위해 클라우드 스토리지 활용하기
지금 ‘데이터 레이크’라고 하면 대부분 ‘클라우드 스토리지’와 동의어인 것으로 이해하고 있다. 실제로 초기의 데이터 레이크들은 하둡(Hadoop) 혹은 HDFS 스토리지를 활용했었다가 클라우드가 향상됨에 따라 클라우드 쪽으로 옮겨갔다. 확실히 컴퓨팅 자원을 분리해서 활용한다는 측면에 있어서는 클라우드가 더 나은 선택지이다. 따라서 시스템 다운이라는 비상 상황을 생각했을 때나 규모 확장, 데이터 흐름 등을 생각했을 때 더 유리할 수밖에 없다. 스토리지는 중앙에 두고 컴퓨팅은 분산시키는 방식이 현재 인기를 모으고 있는 이유다. 당분간 데이터 레이크는 스토리지와 밀접한 관계를 유지할 수밖에 없다.

4. 데이터 통합의 자동화
데이터 통합의 자동화는 비단 데이터 레이크에만 해당 되는 내용은 아니다. 현재는 데이터 통합이라는 것이 데이터 레이크와는 크게 상관없이 논의되고 있는데, 앞으로는 데이터 레이크를 동반하는 개념이 될 것이다. 또한 인공지능이 데이터의 출처와 표적을 식별하는 시간이 줄어들고 정확도가 올라가면서 데이터 통합의 시간은 획기적으로 줄어들 전망이다. 동시에 일반적인 데이터 통합 규칙들은 인공지능이 자동으로 처리하거나 심지어 제안할 수도 있게 된다. 자동화 기술에 기업들이 점점 더 익숙해지면서 데이터 통합의 자동화도 자연스러운 사업 운영의 일부 절차로 자리 잡을 것으로 보인다. 결국 데이터 레이크 관련 ‘업무’는 관리와 접근에 점점 더 치중될 것이다.

5. 구조화 된 데이터의 구조 유지하기
지금도 데이터 레이크 내에서 스키마 유연성(schema-less) 데이터를 로딩하는 게 가능하다. 그러나 진짜 중요한 건 데이터의 스키마를 언제 구축해야 하고 언제 구축하면 안 되는지 판단하는 것이다. 일반적으로는 이미 구조화된 데이터라면 그 구조를 유지하는 게 권장되고, 분석적 혹은 사업적 가치가 높은 데이터나 사용자의 요청이 잦은 데이터라면 스키마를 구성하는 게 좋다고 알려져 있다. 그러나 중요도가 떨어지고 요청도 별로 없는 데이터라면 그 때 그 때 필요에 따라 스키마 관련 대응을 하는 편이 낫다. 데이터를 있는 그대로 레이크에 추가하고, 활용될 때에만 스키마를 생성하는 것도 가능하다.

6. 데이터 질의 관리
현재 데이터 레이크 관리에 있어서 중요하게 대두되는 이슈는 ‘데이터 질의 관리’ 문제다. 데이터가 활용 가치를 가지려면 일정 수준의 정확도, 일관성, 완결성을 갖추어야 한다. 이는 곧 데이터 레이크 관리 전략이 전체적이고 전반적인 데이터 관리 및 거버넌스 전략 아래 포함되어야 한다는 뜻이다. 그리고 거버넌스 체제 자체가 가볍고 유연해야 한다. 강압적이고 무거우면 최적의 상황 대응을 할 수 없게 된다. 데이터 레이크의 운영과 활용에 있어서 ‘질’의 문제는 앞으로 더욱 중요한 가치로 대두될 것이고, 자꾸만 언급되는 논의 주제로 남아 있을 것으로 본다.

데이터는 이제 거스를 수 없는 ‘거대 트렌드’이자 모든 조직의 도착지‘임이 분명하다. 따라서 데이터 레이크를 구축하고 운영하는 건 앞으로 있을 여러 상황에 대한 좋은 대비책이다. 하지만 ’데이터 레이크를 준비한다는 것‘은 그저 스토리지 용량을 늘린다는 것과는 다른 일이며, 여러 가지 복잡한 미래 기술 및 가치들과 맞물린 거대 프로젝트다. 특히 데이터 활용을 통해 실질적으로 경쟁력을 강화한다는 구체적 전략을 배경에 깔아두어야만 가치를 발할 수 있다. 그 무엇보다 데이터를 관리하는 기본적 문화와 태도, 도구가 뒷받침 되어야 할 것이다.

글 : 윌리엄 맥나이트(William McKnight), McKnight Consulting Group
[국제부 문가용 기자(globoan@boannews.com)]

헤드라인 뉴스

TOP 뉴스

Copyright thebn Co., Ltd. All Rights Reserved.

MENU

회원가입

Passwordless 설정

PC버전