현재의 익명화 기술은 소비자 보호 제대로 할 수 없어...기업의 고민 다시 시작
[보안뉴스 문가용 기자] 지난 20년 동안 전문가들은 데이터 익명화를 실시할 경우 사용자의 신원을 보호할 수 있다고 여겨왔다. 그런데 최근 세 명의 연구원들이 ‘재식별(re-identification)’이라는 방법을 사용해 익명화된 데이터셋의 99.98%를 식별해내는 데 성공했다고 밝혔다. 데이터셋에 15개의 인구통계학적 영역에 대한 정보만 있으면 된다고 한다.

[이미지 = iclickart]
세 명의 연구원이 발표한 논문은 네이처(Nature)지에 처음 소개됐는데, 그 결론은 “아무리 익명화에 대한 정책적 요구가 크다고 해도 현재 익명화 기술은 그것을 충족시키지 못하고 있다”로 내려진다. 법적 장치와 기술적 장치 모두에서 큰 문제가 있다고 연구원들은 강력하게 주장했다.
“많은 기업들이 ‘익명화 처리를 했다면, 그 정보는 특별히 더 보호하지 않아도 된다’고 생각합니다. 하지만 현존하는 익명화 기술이 완벽하지 않기 때문에 이 생각은 틀리게 됩니다. 익명화 기술 연구가 이뤄지면 이뤄질수록 깨닫게 되는 것은 기술적으로 완벽한 익명화를 하는 게 정말 어렵다는 것입니다.” 브루스 슈나이어(Bruce Schneier)의 설명이다. “그 이유는 한 사람 한 사람이 너무나 고유해서, 식별 가능한 정보가 충분하게 발생한다는 겁니다.”
그렇다는 건 ‘익명화’ 처리를 했다고 안심하고 있는 수많은 조직들이 데이터의 안전 상태를 새롭게 점검해야 한다는 뜻이라고 데이터 보안 업체 스피리온(Spirion)의 부회장 스콧 지오다노(Scott Giordano)는 설명한다. “현재 미국 보건후생부(DHHS)는 파일들에서부터 18개의 정보 항목들을 삭제하라고 지시합니다. 혹은 익명화 기술을 전문가에게 검토받으라고 하죠. 그런데 이것만으로 불충분할 수 있습니다.”
지오다노는 “빅데이터 기술이 지나치게 빠르게 발전하고 있어서 5년 전에는 불가능했던 것이 지금은 가능하게 되었다”고 설명한다. “비식별화나 익명화 같은 기술과 관련된 법적 장치야말로 기술의 발전에 따라 빠르게 변해야 할 필요가 있습니다. 5년 전에는 견고할 수 있었던 것이지만, 지금은 그렇지 않아요. 빅데이터가 너무 빨리 변하고 있습니다.”
우편번호, 성별, 생년월일
사실 재식별에 관한 염려가 처음 제기된 건 90년대 후반의 일이다. 당시 학사 과정을 마쳤던 라타냐 스위니(Latanya Sweeney)라는 인물이 투표자 관련 정보와 의학 기록을 통합해 비식별화된 환자의 정보를 다시 식별화하는 데 성공하면서였다. 당시 스위니는 세 가지 정보(우편번호, 성별, 생년월일)만 있으면약 87%의 미국 시민들을 식별할 수 있다고 주장하기도 했다.
현재 개개인들의 정보는 각종 기기들을 통해 무수하게 수집되고 있는 상황이다. 스마트폰이 대표적이지만 각종 웨어러블과 랩톱, 태플릿 PC 등도 적잖은 역할을 하고 있다. 이렇게 수집된 데이터는 표적 광고 등 다양한 곳에 활용되고 있다. 스위니는 비교적 최근 있었던 스탠포드대학교에서의 연설에서 “이렇게 데이터를 수집하는 기술 기업들과 데이터 전문 업체들이 미국 시민들의 기본권을 침해하고 있다”고 주장했다.
“지금은 민주주의의 시대가 아니라 기술주의(technocarcy) 시대입니다. 기술이 설계하고 규정한 규칙 안에서 살고 있다는 말입니다. 문제는 우리는 이 기술자들이 누구인지도 모르고, 우리가 살아갈 규정을 만들라고 선출한 것도 아니라는 겁니다. 심지어 이들이 만든 규정에 대한 논의도 이뤄지지 않고 있습니다. 그들이 우리에게 주는 영향은 막대하나, 우리가 그들에게 영향을 주지는 못하고 있다는 겁니다.”
이렇게 현재의 비식별화 기술에 대한 논란이 일어나고 있는 가운데 네이처에 실린 연구 논문은 영국 런던왕립대학과 벨기에의 UC 루베인 대학의 연구진들이 작성한 것으로, “사람들의 특성에 대해 수집된 정보가 너무 방대해, 식별하지 못하는 게 이상하다”는 내용을 담고 있다. 그러면서 “특정 인물이나 인물들에 대해 수집한 정보가 자세하다면, 그건 이미 비식별화의 정의를 벗어나는 것”이라고 경고한다. “데이터셋의 일부만 공개되어도 식별이 가능한 게 현재의 상황입니다.”
그러면서 연구원들은 “GDPR이나 CCPA와 같은 소비자 데이터 보호 규정이 만들고 정착시키고자 하는 데이터 익명화의 수준이라는 것이 기술적으로 지켜질 수 없다”고 말하며 “이번 연구를 통해 그러한 규정을 지키려면 아직 기술적, 법적으로 해결해야 할 과제들이 더 남아있다”고 지적했다. 특히 “현재의 비식별화(de-identification) 기술과, ‘발표 후 망각(release and forget)’하는 제도는 확실히 문제가 있다”고 짚었다.
클라우드 보안 업체 사이퍼클라우드(CipherCloud)의 CEO인 프라빈 코타리(Pravin Kothari)는 “현존하는 가이드라인이 개인정보의 비식별화로서 충분치 못하다는 건, 기업들로서 너무나 어려운 문제에 봉착하게 한다”고 말한다. “결국 법적, 기술적으로 제시된 지금의 익명화 기술이 무용지물이나 다름이 없다는 결론인데요, 그렇다면 기업은 어떻게 해야 할까요? 현존하는 기술과 가이드라인에 따라 비식별화를 진행해도 GDPR에 걸릴 수 있다는 건데, 기업은 뭘 어떻게 더 해야 하는 걸까요?”
그러면서 그는 “결국 특정 데이터와 관련된 모든 인구통계학적 데이터를 전부 비식별화 해야 한다는 소리”라고 스스로 답을 내린다. “이름만 가린다고 되는 게 아니라는 걸 먼저는 인지해야 할 겁니다. 이름만이 아니라 모든 정보를 비식별화하거나 삭제한다면 개인이 재식별되는 일이 없어질 겁니다. 물론 그게 말처럼 그리 쉬운 일은 아닙니다만.”
네이처지에 실린 논문은 여기(https://www.nature.com/articles/s41467-019-10933-3)를 참조가 가능하다.
3줄 요약
1. 개인정보의 활용, “비식별화 조치” 이후에는 가능하다고 많은 법들이 규정하고 있지만...
2. 현재의 비식별화 및 익명화 기술은 충분치 않아, 재식별 가능하다는 연구 결과 발표됨.
3. 결국 비식별화 해도 GDPR에 걸릴 수 있다는 소리. 기업들은 모든 데이터 항목의 비식별화 생각해야 할 듯.
[국제부 문가용 기자(globoan@boannews.com)]
<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>