금융정보 분석부터 개인정보 유출 우려 줄인 ‘확진자 동선 추적’까지 다양한 분야 활용
[보안뉴스 이상우 기자] ‘암호화’는 통신 과정에서 전달하는 메시지 내용을 수신자와 송신자 외에는 알 수 없도록 내용을 변환하는 작업이다. 이를 통해 전달하는 메시지가 유출되더라도, 타인은 메시지 내용을 쉽게 알아볼 수 없다. 이러한 암호화는 아주 오래 전부터 쓰였다. 대표적으로는 기원전 100년경부터 문장 속 알파벳을 일정 거리만큼 밀어 다른 알파벳으로 치환하는 ‘카이사르 암호’를 통해 중요한 정보를 주고받았다.
[이미지=utoimage]
대부분의 정보가 디지털상태로 저장되고, 온라인으로 유통되는 오늘날 암호화의 중요성은 더 커진다. 데이터 전송 과정에서, 혹은 서버에 저장하는 데이터가 평문으로 돼 있다면 사이버 공격자를 통해 개인정보, 금융정보 등 민감한 정보가 유출될 가능성도 있고, 내부자가 해당 정보에 무단으로 접근해 이를 악용할 가능성도 있다.
4차 산업혁명의 주요 기술 중 하나인 인공지능은 이러한 데이터를 통찰력을 얻고, 개인에게 맞춘 최적의 서비스를 자동으로 제공하는 것을 목표로 한다. 국내에서도 이러한 인공지능 산업 발전을 지원하기 위해 공공, 법률, 교육, 문화, 보건, 복지, 의료, 농림축수산 등 다양한 분야의 데이터를 수집 및 가공해 이를 활용할 수 있도록 개방하고 있다. 이처럼 민감한 데이터를 수집 및 개방하고, 널리 활용하기 위해서는 데이터를 더 안전하게 사용할 수 있도록 암호화하고 권한이 없는 사용자의 접근을 차단하는 등 보안을 강화할 필요도 있다.
그런데, 빅데이터 활용과 데이터 암호화는 상충하는 관계다. 원래 내용을 알아볼 수 없게 암호화한 데이터로는 통계분석은 물론, 자연어 처리를 위한 인공지능 학습도 불가능하다. 데이터를 분석 및 학습에 사용하기 위해서는 사용할 때마다 복호화하는 과정도 필요하며 복호화 과정에서 발생하는 지연시간은 속도와 정확성이 필요한 인공지능 서비스에도 영향을 준다.
동형암호(Homomorphic Encryption)는 이와 같이 암호화된 데이터를 분석할 수 있는 기법으로, 데이터의 기밀성을 침해하지 않으면서도 유의미한 정보를 얻어낼 수 있는 기술이다. 암호화된 내용의 원본을 보지 않고도 해당 데이터를 처리해 원하는 결과를 암호화한 상태로 출력하며, 출력된 결과를 복호화할 경우 원본 데이터를 처리한 것과 동일한 결과가 나온다. 이를 통해 민감한 정보를 직접적으로 노출하지 않고도 데이터 활용이 가능하다.
암호화한 상태에서 데이터 분석하는 ‘동형암호’ 기술
동형암호는 1978년 1월, 보안연산의 기초(Foundations of Secure Computation)라는 논문에서 처음 등장한 개념이지만, 개념 수준에 머물러있을 뿐 당시 이를 구현한 기술은 없었다. 최초의 동형암호가 구현된 것은 2009년으로, 개념이 등장한 후 30년 만이다. 미국의 컴퓨터 과학자 크레이그 젠트리(Graig Gentry)는 ‘격자기반 암호를 이용한 동형암호(Fully homomorphic encryption using ideal lattices)’를 통해 암호문의 곱셈과 덧셈 등의 연산을 구현했다. 다만 초기 버전은 비트당 작업에 30분 가량의 시간이 소요되고, 연산 횟수가 늘어나면 원본 정보에 노이즈가 발생하는 등 효율성이 낮았다. 이후 등장하는 동형암호는 연산의 종류를 늘리고, 처리 과정에서 발생하는 노이즈를 줄이는 데 집중해 왔으며, 특히 노이즈 제거에 필수적인 재부팅(부트스트래핑) 시간을 최대한 줄여가고 있다.
오늘날 동형암호라고 정의하는 것은 암호화한 데이터로 컴퓨터가 할 수 있는 모든 연산을 할 수 있는 ‘완전 동형암호’를 말한다. 이를 통해 암호화된 데이터에 대한 검색이나 통계분석은 물론, 인공지능 학습, 영상 처리 등 복잡한 연산까지 처리할 수 있다.
특히, 개인정보나 민감정보 등을 사용해야 하는 인공지능 모델의 경우 학습이나 이를 이용한 서비스 제공 시에도 데이터 원문이 노출되지 않으며, 결과를 내놓는 마지막 단계에서만 복호화해 정보 유출을 최소화할 수 있다. 예를 들면, 의료나 금융, 교육 등 개인의 민감한 정보가 포함된 데이터를 기반으로 맞춤형 서비스를 제공할 때 인공지능 혹은 데이터 가공자에 의해 생길 수 있는 개인정보 침해를 최소화할 수 있다. 뿐만 아니라 데이터 보관부터 가공 및 활용하는 모든 과정에 암호화가 적용돼 있기 때문에 사이버 공격으로 인한 데이터 유출에서도 상대적으로 안전하다. 정보가 유출되더라도 공격자가 해당 내용을 알 수 없기 때문이다.
완전 동형암호는 기존 암호와 비교했을 때 원본 데이터에 암호화를 적용할 경우 문장의 길이가 수십 배는 커진다. 즉, 암호화 상태로 보관해야 하는 데이터의 부피가 크다. 또한, 연산 종류에 따라 처리 시간이 크게 달라지는 점 역시 더 보완해야 할 부분이다. 참고로 부트스트래핑의 경우 2019년을 기준으로 0.5ms(0.5/1000초)까지 단축한 연구결과가 발표되기도 했다.
동형암호는 어떻게 쓰일수 있을까
이러한 동형암호는 우리 삶에 어떻게 쓰일 수 있을까? 신용평가회사인 코리아크레딧뷰로(KCB)는 동형암호 기술을 바탕으로 국민연금 가입자 234만 9,000여 명의 신용데이터를 분석했다고 밝힌 바 있다. KCB에 따르면 국민연금을 연체 없이 납부한 사람의 경우 금융권 채무 이행 역시 양호할 것이라고 판단해 국민연금 납부 기간에 따라 개인 신용평가에 가산점을 부여할 수 있는 시스템을 구축했으며, 이 과정에서 서울대 수리과학부 천정희 교수 연구팀이 개발한 동형암호 ‘혜안(HEAAN)’을 활용했다.
경기도는 확진자 동선 정보를 제공하는 앱 ‘코로나 동선 안심이’에 동형암호를 적용했다. 기존에는 감염자 추적 과정에서 특정 인물의 동선이나 방문한 곳의 상호 등을 노출하면서 개인정보 유출에 대한 우려 역시 존재했다. 경기도가 출시한 앱은 암호화된 확진자 동선 데이터베이스에 개인 사용자 스마트폰의 GPS 정보를 대입해 확진자와 동선이 겹치는지 알려주는 방식이다. 이 과정에서 동형암호를 통해 확진자와 관련한 정보는 물론, 개인의 동선(GPS) 정보까지 암호화한 상태로 사용하기 때문에 개인정보 유출 가능성을 최소화했다는 설명이다.
생체인증에 동형암호를 적용한 사례도 있다. 한국스마트인증은 지난 2018년, 동형생체인증 기술을 발표하기도 했다. 기존 생체인증 과정은 사용자가 우선 자신의 생체적 특징(지문이나 홍채 등)을 센서나 스마트폰 등을 이용해 등록하면, 해당 정보는 암호화된 상태로 스마트 기기의 보안 영역이나 서버 등에 저장된다. 만약 사용자가 스마트폰에 부착된 지문인식 센서를 통해 금융 앱을 이용한다면, 스마트폰에서 전송한 지문 정보와 금융 서비스 서버에 저장된 지문 정보를 서로 대조한 뒤 일치할 경우 승인을 하는 방식이다. 전송하는 과정에서는 전송 정보와 저장된 정보가 모두 암호화된 상태지만, 두 정보를 서로 대조하기 위해서는 복호화 과정을 필수적으로 거쳐야한다. 암호화된 생체적 특징 정보가 평문 상태로 돌아왔기 때문에 이 시점에서 보안이 가장 취약해지는 셈이다. 한국스마트인증은 이러한 생체인증 과정에 동형암호를 적용하고, 생체인증에서 가장 취약한 부분을 보완했다. 동형암호의 특성상 복호화 과정 없이도 저장된 생체정보와 대조하고 인증을 마칠 수 있기 때문이다.
이렇듯 다양한 서비스가 디지털화되고 가상공간에서 처리되는 오늘날, 필연적으로 수많은 데이터가 서버에 기록되고 활용될 수밖에 없다. 특히, 데이터는 4차 산업혁명의 연료라고 부를 만큼 중요한 자원이다. 하지만 이를 활용하는 과정에서 개인의 민감한 정보가 타인에게 노출되는 것을 예방해야 하며, 사이버 공격으로부터도 안전하게 지킬 필요성도 크다. 동형암호는 이러한 데이터 중심 시대에서 ‘데이터를 안전하게 잘 쓰는’ 수단으로 자리잡을 것으로 보인다.
[이상우 기자(boan@boannews.com)]
<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>