[인터뷰] 개인정보보호위원회 데이터안전정책과 태현수 과장
[설문조사] ‘개인정보 비식별화 솔루션·서비스 인식 및 선택기준’ 결과 발표
비식별화 대표 솔루션 분석: 펜타시스템테크놀러지, 딥핑소스, 이지서티
[보안뉴스 김경애 기자] 디지털 기술의 발전으로 데이터 활용이 중요해지고 있다. 기업은 데이터를 활용해 고부가가치의 비즈니스 모델을 발굴하고, 기관에선 효용성 있는 정보로 정책을 개선하거나 공익차원에서 국민에게 편익을 제공할 수 있다.

[이미지=utoimage]
데이터 관련 기술도 AI, 클라우드, 빅데이터, 5G, 챗GPT 등으로 고공행진이다. 바야흐로 데이터 경제 시대다. 데이터 중심으로 산업이 발전하고 경제에 영향을 미치는 시대가 도래한 셈이다.
그중 데이터 가치가 높은 개인정보 활용에 대한 관심이 뜨겁다. 하지만 여기에는 중요한 전제조건이 있다. 바로 안전한 활용이다. 개인정보가 식별되지 않도록 가명·익명처리 등 비식별 조치로 안전성이 담보돼야 한다.
이러한 배경에 개인정보 비식별화 솔루션에 대한 관심이 집중되고 있다. 블랙박스, CCTV, 자율주행 자동차 등 영상정보를 비식별화하는 솔루션부터 빅데이터 환경에서 고속처리 기술을 강점으로 특화하거나 사전준비, 위험성 검토, 가명처리, 적정성 검토 등을 한 번에 해결할 수 있는 비식별 프로세스 제공 솔루션까지 저마다 독보적인 기술과 특색있는 강점으로 주목받고 있다.
이번 <보안뉴스>에서는 안전한 개인정보 활용을 위한 비식별화 주요 이슈를 비롯해 개인정보보호위원회 데이터안전정책과 태현수 과장과의 인터뷰를 통해 현 가명정보 제도와 앞으로의 정책 추진방향에 대해 들어봤다. 이어 ‘개인정보 비식별화 솔루션·서비스 인식 및 선택기준’ 결과와 비식별화 솔루션 전문기업과의 인터뷰를 통해 비식별화 이슈에 대해 짚어봤다.
데이터 경제 시대, 비식별화 기술로 안전한 활용
개인정보는 살아있는 개인에 관한 정보로 성명, 주민번호 등을 통해 개인을 알아볼 수 있는 정보를 말한다. 가명처리는 개인정보의 일부를 삭제, 전부 대체하는 과정이며, 가명정보 처리는 가명처리를 통해 생성된 가명정보를 이용, 제공 등 활용하는 행위를 말한다.
안전한 개인정보 활용을 위한 움직임은 이미 지난 2013년부터 활발하게 진행돼 왔다. 그해 12월 8일 ‘빅데이터 개인정보보호 가이드라인’ 초안 발표에 이어 2014년 12월 가이드라인 발표, 2016년 ‘개인정보 비식별 조치 가이드라인’이 제시되었다.
2018년에는 부처별로 나뉘어 있는 개인정보보호 중복 규제를 없애고, 개인정보를 활용할 수 있는 데이터 3법(개인정보보호법, 정보통신망법, 신용정보법)이 발의됐다. 데이터 3법은 2020년 1월 9일 국회 본회의를 통과해 그해 8월 5일 본격 시행됐다.
개인정보보호위원회를 주축으로 정부는 데이터 경제 활성화를 위해 2020년 8월 개인정보보호법 개정으로 가명정보 제도가 도입됐다. 몇 번의 개정을 거쳐 2022년 4월 ‘가명정보 처리 가이드라인’이 발표됐다.
최근에는 챗GPT 열풍으로 북미, 유럽을 중심으로 개인정보 침해 우려가 제기됐다. 챗GPT가 직접 개인정보를 수집하지 않지만 학습을 위해 수집된 데이터에 개인정보가 포함될 수 있다는 이유에서다.
그러나 개인정보보호 기술(데이터 프라이버시 기술)을 통해 개인정보 침해 문제를 해결할 수 있다는 의견도 있다. 우리나라의 경우 2021년 AI 챗봇 서비스 ‘이루다’의 개인정보 유출 사고를 계기로 ‘이루다2.0’에는 가명처리, 개인정보 필터링 기술이 적용된 바 있다. 특히 챗GPT, AI 기술, 마이데이터 등 데이터 경제가 빠르게 성장하기 위해서는 개인정보 활용이 필요한 만큼 안전한 활용을 위해 비식별화, 개인정보보호 기술에 대한 관심은 앞으로도 높아질 전망이다.
[2022 가명정보 활용 우수 사례]
가명정보 활용, 복지·금융·저탄소에너지·의료·유통 등 적용
데이터 결합해 실효성 높인 정책 반영, 비즈니스 발굴 등 기회 창출
가명정보 활용은 데이터를 결합할 때 더 빛이 난다. 건강, 의료, 통신, 금융 등 다양한 데이터 결합을 통해 공익 차원에선 국민 생활을 개선하고, 기업은 미래의 먹거리 발굴로 이어질 수 있기 때문이다. 보건복지부는 능력에 따라 합리적으로 건강보험료를 부과하기 위해 데이터를 결합했다.
국민건강보험공단 보험료 부과 대상자의 소득 등 데이터를 한국신용정보원 개인단위 여신 현황 데이터와 결합했다. 그 결과 주택금융부채 공제를 통한 보험료 산정, 부과 정보를 얻을 수 있었다.
경기도 성남시는 친환경차 충전소 입지 선정을 위해 데이터를 결합했다. 성남시 거주 주민정보 등과 티맵 모빌리티 차량 이동정보를 결합해 전기차 충전소가 필요한 입지 정보를 획득했다.
서울시는 실효성을 높인 1인 가구 정책을 위해 데이터를 결합했다. 통계청의 서울시 거주자의 등록 센서스 데이터와 SKT의 서울시 거주자 통신데이터를 결합했다. 이를 통해 1인 가구 삶의 질을 높이기 위한 실효성있는 정책 정보를 얻게 되었다.
이처럼 비식별조치가 잘 적용된 가명정보 활용은 안전하게 다른 데이터와 결합해 무한한 가능성의 가치를 창출한다. 이런 측면에서 데이터 결합은 시너지로 작용해 데이터 경제 발전 실현 모델로 주목받고 있다. 그리고 그 중심에는 안전한 가명·익명처리 등 비식별 조치가 있다.
====================================================================================
[인터뷰] 개인정보보호위원회 데이터안전정책과 태현수 과장
“가명정보 제도 활성화, 가명정보 활용 절차 합리화·인센티브 등 지원 확대”
데이터 경제 시대에 정부가 안전하게 개인정보를 활용하기 위해 도입한 가명정보 제도. 2020년 도입 이후 올해로 3년째를 맞이했다. 그동안 정부는 제도 도입 후 가명정보 제도 확산을 위해 어떤 활동을 했는지 개인정보보호위원회 데이터안전정책과 태현수 과장과의 인터뷰를 통해 들어봤다. 기존 가명정보 제도의 변화, 가명정보 제도와 관련해 기업에서 꼭 알아야 할 점, 가명정보와 관련한 향후 개인정보보호위원회의 계획에 대해 살펴보자.
Q. 가명정보 제도에 대해 소개해주신다면?
2020년 8월, 데이터 경제 활성화를 위한 데이터 3법(개인정보보호법, 정보통신망법, 신용정보법) 개정을 통해 개인정보를 예외적으로 폭넓게 활용할 수 있는 가명정보 특례 제도가 도입됐습니다. 가명정보는 개인정보로 정보주체 동의 없이 활용 가능합니다. 하지만 활용목적은 ①통계작성, ②과학적 연구, ③공익적 기록보존으로 엄격히 제한됩니다. 또한, 안전한 가명정보의 활용을 위해 개인정보의 가명처리, 제3자 제공, 데이터 결합, 안전성 확보 등에 대해 개인정보보호법과 관련 가이드라인을 통해 상세한 절차와 기준을 두고 있습니다.
Q. 가명정보 제도와 관련해 기존 정책에서 달라진 점은 무엇인가요?
가명정보 제도를 통하면 개인의 별도동의 없이 활용 가치 높은 개인정보를 빅데이터 분석, AI 개발 등 신기술 개발에 활용할 수 있습니다. 개인정보보호위원회 또는 관련 중앙행정기관이 지정한 결합 전문기관을 통해 다양한 이종 산업간 가명정보 결합으로 새로운 데이터 부가가치를 창출할 수 있죠. 가명정보 제도 도입 이후 개인정보보호위원회는 △가명정보 관련 법 제도 개선 △온라인상 가명정보 활용 지원 플랫폼 운영 △가명정보 전문가 선발 및 전문인력양성 △가명정보 제도 대국민 인식제고 등 다양한 노력을 기울이고 있습니다.
1. 가명정보 관련 법제도 개선, 가이드라인 제·개정
데이터 3법 개정 이후, 개인정보보호위원회는 관계부처·기관·산업계 등 의견수렴을 통해 현장에서 제기되는 법률 및 제도 보완사항을 적극 발굴해 법·제도를 개선해왔습니다.
2. 온라인상 가명정보 활용을 종합적으로 지원하는 플랫폼 신규 구축·운영
2021년 2월, 가명정보 결합을 지원하는 ‘가명정보 결합종합지원시스템’을 구축해 운영 중입니다. 나아가 가명정보 수요-공급자를 매칭하고, 가명처리 솔루션 등 가명정보 결합·활용 전 단계를 지원하는 ‘가명정보 활용 종합지원플랫폼’도 구축해 운영 중입니다. 또한, 올해는 두 플랫폼을 포함해 가명정보 관련 모든 기능을 통합해 제공하고 성능을 고도화하기 위한 통합플랫폼 구축 사업을 추진 중입니다.
3. 가명정보 전문가 풀 선발 및 전문인력 양성
가명정보 활용에 따른 안전성 검증(가명처리 적정성 평가, 결합정보 반출심사 등)을 위한 가명정보 분야 전문가의 수요가 증가하고 있어요. 이에 개인정보보호위원회는 2021년 6월 가명정보 전문가 100명을 선발·위촉해 공개하고, 전문성을 지속 관리하고 있습니다. 가명정보 전문인력 양성을 위해 가명정보 활용 예비자 과정, 실무자 과정, 전문가 과정 교육을 운영하고 있는데요. 2021년에는 교육과정 17회를 운영해 438명이 수료, 2022년에는 교육과정 21회를 운영해 877명이 수료했습니다.
4. 가명정보 제도 성과 확산 및 대국민 인식제고
가명정보 결합선도사례를 발굴하고 가명정보 활용 우수사례·아이디어 경진대회를 개최하는 등 가명정보 활용성과를 창출하고 국민인식을 제고하기 위해 다양한 노력을 하고 있습니다. (2021년) 1기 시범사례 (7건 추진, 29개 기관 참여), 제1회 우수사례 경진대회(13건 시상), (2022년) 2기 선도사례 (4건 추진, 17개 기관 참여), 제2회 우수사례 경진대회(20건 시상), (2023년) 3기 선도사례 추진계획 발표 및 관계부처 합동 우수사례 경진대회를 추진할 예정입니다.

[자료=개인정보보호위원회]
Q. 가명정보 제도와 관련해 개인정보보호위원회에서 가장 많이 듣는 의견은 무엇인가요?
아직 가명정보 제도 도입 초기라 일부 영역에서는 성과가 있었지만 가명정보 제도에 대한 국민들과 데이터 활용 실무자들의 인식은 아직 미진한 상황입니다. 가명정보 제도의 효용을 알 수 있는 현장의 활용사례도 부족해 지속적인 모범사례 발굴·확산이 필요합니다.
또한, 개인정보가 엄격한 규제 영역 경험 등으로 인해 현장의 기업·기관 등은 여전히 개인정보 활용에 대한 부담을 느끼고 있어요. 활용 의사가 있더라도 처리 방법을 모르거나 절차가 복잡해 진입장벽이 높다는 의견도 있습니다. 더불어, 컴플라이언스 리스크 대비 가명정보 제공·활용에 대한 인센티브가 부족하다는 의견도 있고요. 개인정보보호위원회는 이처럼 현장 의견을 수렴해 안전한 가명정보 활용 활성화를 위한 종합적인 제도개선과 지원방안을 마련 중입니다.

[자료=개인정보보호위원회]
가명정보 제도와 관련해 기업에서 꼭 알아야 할 점에 대해 설명해 주신다면?
기업에서는 ①가명정보도 개인정보인지 ②어떻게 가명처리를 해야 하는지 ③제도에 대해 잘 모를 때 어떻게 도움을 받을 수 있는지를 가장 많이 문의합니다. 가명정보는 성명, 연락처 등 식별정보를 삭제하거나 대체하는 등의 방법으로 식별 가능성을 낮춘 정보라 개인정보에 포함됩니다. 가명정보도 다른 개인정보에 준하는 안전조치를 해야 해요.
가명정보 활용시에는 보호법에서 정한 목적(통계작성, 과학적 연구, 공익적 기록보존) 중에서 처리목적을 명확히 설정하고, 목적 달성에 필요한 가명처리 방법 및 수준을 정해 개인이 식별되지 않도록 처리·활용해야 합니다.
가명처리 적정 수행 여부에 대해서는 내부인원을 활용해 자체 검토하거나, 외부전문가를 통해 검토할 수 있습니다. 가명정보 활용에 어려움이 있는 경우 개인정보보호위원회와 한국인터넷진흥원에서 무료 컨설팅을 지원하고 있어 가명정보 활용 지원센터의 도움을 받을 수 있습니다.
Q. 가명정보 활용 지원센터의 이용 현황은 어떤가요?
개인정보보호위원회는 권역별 데이터 스타트업, 중소기업 등의 가명정보 활용을 지원하기 위해 지역 거점별로 ‘가명정보 활용 지원센터’를 구축·운영 중입니다. 2021년 서울센터 개소, 2022년 강원센터와 부산센터 개소, 2023년 인천센터 및 대전센터 2개소를 추가로 구축할 예정입니다.
각 지원센터에서는 가명처리 지원 및 컨설팅, 솔루션 활용 실습, 가명정보 활용 교육, 데이터 적정성 심의 등을 지원해 지역 가명정보 활용 수요 창출 및 지원에 중요한 역할을 하고 있어요. 또 각 지원센터마다 해당 지자체 등과 협업해 지역의 데이터를 활용한 다양한 가명정보 활용 선도사례도 발굴·추진 중입니다.
Q. 가명정보 제도와 관련해 향후 개인정보보호위원회의 계획은 무엇인가요?
1. 가명정보 활용 지원센터 활성화
지원센터 이용 활성화를 위해, ①권역 가명정보 활용 특화사례 발굴 및 밀착지원 ②가명정보 활용 실습이 가능한 지역특화 재현데이터 구축(원본 데이터와 통계적 특성이 유사해 실제 원본 데이터 분석결과와 유사한 결과를 얻을 수 있도록 가상으로 재현한 허구의 데이터) ③찾아가는 가명처리 컨설팅 강화 ④지역센터간 온·오프라인 연계 추진, ⑤지역센터-결합전문기관 간 업무협력·홍보 강화 등을 추진하고 있습니다.
2. 가명정보 제도 활성화를 위한 추진계획
가명정보 제도 활성화를 위해서는 ①가명정보 제공·활용에 대한 인센티브 방안 마련 ②가명정보 활용 절차 합리화 ③가명정보 활용 지원 확대 ④가명정보 활용 절차의 안전관리 강화 등의 측면에서 현장의 애로사항을 해소하기 위한 정부 차원의 지원이 필요합니다. 이 부분에 대해서는 관계부처와 함께 관련 방안을 검토 중인데요. 준비되는 대로 발표할 예정입니다.
아울러 아직 회색지대로 남아있는 영상정보, 음성정보, 텍스트정보 등 비정형데이터에 대한 가명처리 기준을 마련해 제시할 예정입니다. 강화된 안전조치를 전제로 보다 자유로운 가명정보의 활용을 보장하는 ‘개인정보 안심구역’ 도입도 검토 중입니다.
Q. 챗GPT 등 신기술 등장에 따른 개인정보 식별 우려를 대비해 개인정보보호위원회는 어떤 준비를 하고 있나요?
챗GPT의 등장으로 초거대 인공지능에 대한 사회적 관심이 높아지고 있습니다. AI의학습데이터베이스 구축부터 서비스 이용에 이르기까지 데이터 전생애주기에 걸쳐 프라이버시 쟁점을 최소화하면서도 인공지능 산업을 발전시킬 수 있는 종합적인 방안이 필요합니다.
개인정보보호위원회는 여러 부서가 협업해 인공지능이 개발되고 활용되는 전체 단계에서 애초에 데이터를 어떻게 수집하는지, 인공지능 학습용 데이터셋은 어떻게 구축하는지, 인공지능 모델이 어떻게 개발되는지, AI 모델의 상용화 및 결과값을 도출하는 과정에서 개인정보와 관련해 문제될 상황은 없는지 등을 각각의 단계에서 살펴보고 있습니다.
====================================================================================
[설문조사] 개인정보 비식별화 솔루션·서비스 인식 및 선택기준
기업·기관 37.5%, “개념·법규 알지만 가명처리 활용 못해”
기업은 가명정보 처리가 쉽지 않다. 이와 관련해 본지가 기업과 기관의 보안담당자를 대상으로 지난 4월 11일부터 16일까지 ‘개인정보 비식별화 솔루션·서비스 인식 및 선택기준에 대한 설문조사’를 진행한 결과, ‘개인정보 가명처리 수준 단계’에 대해 37.5%가 ‘개념 및 법규는 알지만, 가명처리 활용을 못하고 있다’고 답했다. 이어 33.1%가 ‘가명정보 개념 및 처리 과정을 잘 모르겠다’고 응답했으며, 18.3%는 ‘수작업으로 가명처리한다’고 답변했다.

▲ ‘개인정보 비식별화 솔루션·서비스 인식 및 선택기준’ 결과[이미지=보안뉴스]
지란지교데이터는 “개인정보를 비식별 처리해 활용하고자 하는 기업이 겪는 문제는 컴플라이언스 준수 수준”이라며 “가명정보 처리 가이드라인이 있긴 하나, 적절한 가명·익명정보로 처리하는 기준에 대해 어려워한다. 데이터 활용도를 높이면서 재식별 가능성을 최소화하는 비식별처리 방법에 대해 많은 고민을 하고 있다”고 밝혔다.
‘가명정보 실무처리에 있어 가장 어려운 점’으로는 ‘적정성 검토 판단 기준의 모호성(20.1%)’이 1위를 기록했다. 펜타시스템테크놀러지는 “많은 기업이 비식별화 조치기술 적용 수준과 적정성 평가를 어려워한다”며 “비식별화 조치 기술 적용 수준은 ‘활용’과 ‘보호’의 상충된 입장에서 적정한 수준을 결정해야 하기 때문이다. 적정성 평가는 내부 평가위원 전문인력 부족으로 평가 방법에 대한 구체적인 기준설정에 어려움이 발생한다”고 밝혔다.

▲ ‘개인정보 비식별화 솔루션·서비스 인식 및 선택기준’ 결과[이미지=보안뉴스]
이어 ‘가명정보 내부 관리계획 수립’과 ‘식별 위험성 등 준수 위반’이 각각 17.4%로 동일하게 2위를 기록했다. 딥핑소스는 식별 위험성과 관련해 “개인정보를 지우는 방법은 블러, 모자이크 등 다양하나 일반적인 비식별화 과정을 거칠 경우 AI 학습에 필요한 정보도 훼손되어 AI 학습데이터로써의 가치가 떨어지고, 좋은 품질의 데이터를 보장하기 어렵다”며 “AI 영상분석 모델을 개발하는 기업의 난제도 여기에 있다. AI 영상분석 모델의 정확도를 높이기 위해선 고품질의 AI 학습용 데이터가 필요하다”고 설명했다.
다음으로 ‘사내 시스템에 적합한 가명 정보 처리 가이드라인 등 부족’ 11.6%, ‘개인정보 활용을 위한 효율적인 빅데이터 활용’ 10.3%, ‘자주 바뀌는 정책 및 제도 변화에 따른 가이드라인 변경 등의 인식 어려움’ 9.4% 순으로 집계됐다.
이지서티는 “기업은 크게 기술적 애로와 정부의 복잡한 법적 가이드라인 대응이 어렵다”며 “정부의 가이드라인 자체가 생소하고 복잡해 법률에 대한 이해가 부족한 상황”이라며, “관련 시스템, 프로세스에 대한 기초적인 인프라가 전혀 없다”고 진단했다. 그러면서 “개인정보가 광범위한 데이터에 분포돼 있어 빠른 처리가 어렵다. 단순한 정형 데이터뿐만 아니라 비정형, 음성 등의 개인정보와 본문 이외에 첨부파일까지 포괄해 관리할 수 있는 기술이 필요하다. 또한, 비식별화되어 있는 개인정보를 원본으로 복구할 수 없는 비가역성은 필수다. 결합데이터의 경우 양쪽 데이터의 비식별화 조치의 일관성이 매우 중요한데 이를 내부 조직에서 해결하기란 쉽지 않다”고 분석했다.
가명처리에 있어 우려 사항으로는 ‘안전조치 의무 등 컴플라이언스 위반’(48.2%)이 꼽혔다. 이어 ‘가명정보 적정성 여부’ 27.2%, ‘재식별 위험성’ 22.9% 순으로 집계됐다. 펜타시스템테크놀러지는 재식별 위험성과 관련해 “가명정보 복원 가능성 관련 기술이 발달해 비식별화 알고리즘이나 재식별화 공격으로 원래의 개인정보로 복원되는 사건·사고가 발생할 가능성이 높다”며 “이러한 사태 방지를 위해 가명정보 데이터의 보관 기간 및 사후관리 부분에 중점을 둬야 한다”고 당부했다.

▲ ‘개인정보 비식별화 솔루션·서비스 인식 및 선택기준’ 결과[이미지=보안뉴스]
‘안전한 개인정보 활용을 위해 정책, 제도적으로 필요한 점’에 대해선 25.9%가 ‘바뀌는 정책 및 제도 변화에 따른 정부의 적극적인 홍보 및 교육’을 꼽았다. 이어 ‘가명정보 활용 활성화와 신기술 도입에 따른 법, 제도 정비 및 개정’ 22.8%, ‘가명처리 적정성 검토 및 가명정보 활용에 대한 컨설팅 지원 확대’ 15.2%, ‘가명정보 처리 솔루션 도입 기업에 예산 지원’ 14.3%, ‘가명정보 활용 지원센터 확대’ 12.1% 순으로 집계됐다.
비식별화 솔루션, 특허 등 기술력 강점으로 ‘매력 발산’
안전한 개인정보 활용을 위한 비식별화 솔루션은 영상정보부터 정형데이터를 단계별 수준에 맞춰 제공하는 프로세스, 고속처리 기술 적용 등 다양한 기능과 기술로 시장에서 매력을 발산하고 있다.
딥핑소스, 원천기술 기반 영상정보 익명화 처리 ‘AI 활용도 유지’
딥핑소스는 기업의 다양한 사용 환경을 고려해 비정형데이터인 영상 개인정보를 비식별화하는 솔루션을 제공한다. 클라우드를 기반해 SaaS 형태로 제공되는 서비스는 별도의 하드웨어 설치 없이 바로 데이터 처리를 할 때 적합하다. 기업이 보유한 데이터를 내부적으로 처리하고자 할 때는 On-Premise 기반 서비스를 제공한다. 기업의 만족도를 높이기 위해 기업의 요구에 부합하는 최적의 솔루션 및 환경을 제공한다.
딥핑소스의 개인정보 비식별화 솔루션 SEAL은 영상데이터 내 개인정보를 삭제하면서도 AI 활용도를 유지하는 고유 기술로 개인정보를 지우면서도 AI 활용성을 보존하는 게 강점이다. 이와 관련한 국내외 특허를 79건 보유하고 있어 혁신 기술로 인정받고 있다.
SEAL에 의해 비식별 처리된 데이터로 AI 모델을 학습시킬 경우, 원본 데이터로 학습시킨 것과 동등한 학습효과를 보여준다. 이를 통해 AI 영상분석 모델의 정확도를 향상시켜 기업은 보다 효과적 인 비즈니스 응용과 사회적 가치 창출에 기여할 수 있다.
SEAL은 비가역성 특성이 있다. 때문에 한 번 비식별화된 영상은 어떤 방법으로도 삭제된 개인정보를 복원할 수 없어 안전하다. 또한, 블러, 모자이크 등 기존 비식별화 방법의 경우, 데이터 자체가 훼손되어 AI 활용도가 떨어지지만, SEAL 처리된 비식별화의 경우 원본 데이터와 동등한 AI 활용도를 유지한다. 기존 원본 데이터로 학습한 AI 모델에도 SEAL 처리 데이터 적용이 가능해 추가 학습에 따른 정확도 개선이 가능하다.
이지서티, 빠른 데이터 처리 속도가 강점인 ‘인메모리’ 기술로 특화
이지서티는 다수의 정부 과제 수행(2015년 83억, 2021년 71억)과 자체 연구개발로 비식별(가명·익명) 기법을 이용한 개인정보보호 원천기술과 특허를 확보했다. 이러한 노하우로 탄생된 지능형 가명·결합 솔루션 ‘IDENTITY SHIELD’는 AI(인공지능), 빅데이터 환경에서 데이터 3법(개인정보보호법, 신용정보법, 정보통신망법)에 따라 개인정보를 가명, 익명, 결합 처리해 분석·활용할 수 있도록 지원한다.
일반 사용자가 쉽게 사용할 수 있는 인터페이스 제공부터 분석가를 위한 자동연계 가명·익명처리까지 다양한 기능을 제공한다. 데이터 업체에서 결합 신청시 기존에 결합 신청한 데이터의 경우 전문기관에서 데이터 연계 키를 보관하고 신규 생성되는 데이터만 전송해 결합할 수 있는 기능을 제공해 효율성과 비용 절감을 지원하고 있다. 특히, 빠른 데이터 처리 속도가 강점인 고속 분산 ‘인메모리(In-memory)’ 기술로 데이터 로드(접속기록)를 최소화해 고속 가명·익명처리를 제공한다. 인메모리 기술을 통한 2,500억건의 대용량 빅데이터 처리 외에 빅데이터 플랫폼, 클라우드, 서버, 다양한 OS 환경에 적용이 가능하다.
솔루션에서 주목되는 주요 핵심 기능은 첫째, 비식별처리 기능이다. 개인정보 탐지 기술적용 범위를 비정형 데이터까지 확장해 가명처리 기능을 제공하고 있다. 최근 주목되고 있는 개인 식별의 위험성이 없는 가상 데이터인 재현 데이터와 AI 같은 신기술 내재화를 통해 가명·익명·결합 데이터 처리가 가능하다.
둘째, 적정성 평가 기능이다. 평가수행, 적정성 평가에 대한 상세 현황, 재식별관리 등 추가 처리 및 관련 정보를 한 화면에서 편리하게 관리할 수 있는 대시보드 기능을 제공한다. 인공지능(AI) 기술을 가명처리 솔루션에 적용해 가명처리 기법을 추천해주고, 적정성 검토를 위한 가명정보의 식별 위험성 파악이 가능하다. 이렇게 구현된 AI 모델은 가명처리를 위한 추천 기법에 적용되어 현재 개인정보보호위원회의 가명정보 활용 플랫폼에 탑재되어 대민 서비스에 활용 중에 있다.
셋째, 사후관리 기능이다. 적정성 평가에서 적정으로 판단된 가명·익명·결합 정보에 대해 가명·익명·결합 접속기록관리 및 상세 접속기록, 권한관리와 같은 사후관리 기능 등을 제공해 컴플라이언스 준수 등 기술적·물리적·관리적 조치 이행에 도움을 준다.
‘IDENTITY SHIELD’는 우수 조달제품이자 과학기술정보통신부가 지정한 혁신제품이다. 또한, GS인증(1등급) 획득 및 공인인증기관으로부터 V&V 성능평가(TTA, 한국정보통신기술협회) 완료를 통해 제품의 우수성을 인정받았으며, 클라우드 품질 성능 평가(NIPA, 정보통신산업진흥원) 인증으로 클라우드 환경에서도 구축 및 사용이 가능하다.
지란지교데이터, 광학 문자 인식 등 인공지능 기술 적용
지란지교데이터의 ‘아이디필터(IDFILTER)’는 기관 및 기업에서 보유한 빅데이터 또는 지정 데이터에서 개인정보를 빠르게 탐지 및 비식별화한다. ‘아이디필터’는 개인정보를 22가지 비식별 알고리즘을 기반으로 가명·익명처리하며, 처리된 정보는 정보주체의 동의 없이 연구, 통계, 공익적 기록 보존 등의 목적을 위해 활용할 수 있다. 데이터 전송 및 결합 모듈을 제공해 데이터 비식별 처리 전 프로세스를 지원하는 것이 특징이다.
‘아이디필터’에 적용된 인공지능 기술은 △AI OCR(Optical Character Recognition, 광학 문자 인식) △문맥 인지 기반 비정형 텍스트 처리 기술 △재현 데이터(synthetic Data) 생성 기술 등 3가지다.
펜타시스템테크놀러지, 가명처리 프로세스 절차 확장해 제공
펜타시스템테크놀러지(이하 펜타시스템)는 기업용 솔루션 공급과 IT서비스 컨설팅 전문기업으로 1990년대부터 BI 사업 분야에서 데이터 관리와 분석 시스템 구축 등을 진행해 왔다. 데이터 플랫폼 구축에 필요한 데이터 수집 ETL 솔루션 및 개인정보 비식별화, 데이터 메타관리, 품질관리 솔루션을 개발했고, 데이터 처리 노하우를 집약한 데이터 분석 포털 사업을 활발히 추진하고 있다.
데이터 관련 사업에 대한 오랜 경험과 노하우를 갖춘 펜타시스템은 2011년 개인정보보호법 제정 이후 개인정보 암호화와 분리보관 등 개인정보 관련 사업을 수행해 왔다. 이후 2016년 ‘개인정보 비식별조치 가이드라인’이 제정되면서 개인정보 비식별화 솔루션 ‘DataEye PIDI v1.0(DataEye Privacy Information De-Identification)’ 개발을 시작으로, 법 개정에 맞게 업그레이드되어 현재 DataEye PIDI v5.4까지 개발됐다.
‘DataEye PIDI’의 가장 큰 특징은 가명처리 가이드라인 기본 기능 요건 충족 뿐 아니라, 가명처리 프로세스 절차를 확장해 제공한다. 가명처리 신청서 작성부터 적정성 검토와 반출, 파기 단계까지 각 단계별로 결재 프로세스를 적용해 기업의 자체적인 프로세스로 운영할 수 있게 환경을 제공한다. 또한, 위험성 검토와 적정성 검토를 위한 평가항목을 유연하게 등록할 수 있는 기능을 제공해 체계적인 검토 관리가 가능하다.
솔루션의 주요 기능은 가명처리 단계별 담당자에게 차별화된 기능을 제공한다. 표준 컬럼을 일괄 적용할 수 있는 기능과 사용자 정의 함수 기능을 통해 100여 가지의 상세 기법 기능으로 편리성을 제공한다. 또한, 다양한 유형의 원천 데이터셋 수집을 위해 데이터 유형별 최적의 연계 방식을 제공하고 있다. 평가자를 위해서는 데이터 명세서 조회 기능과 고급분석, 비교분석 기능을 제공해 면밀한 데이터 검토가 가능하다.
최근 기업의 데이터가 점차 대용량화 되고 있고 클라우드 컴퓨팅 환경에 시스템을 구축하는 사례가 많아지고 있다. 이러한 트렌드에 맞춰 DataEye PIDI는 병렬 가명처리 방식을 적용해 테라바이트급의 대용량 데이터셋 처리 시에도 안정적인 성능이 보장된다. AWS S3 등 클라우드 저장소에 직접 연계해 데이터 수집과 결과 전송을 위한 구성의 효율성을 제공한다.

▲데이터아이(DataEye) 솔루션 라인업 [DataEye ETL/PIDI/Meta/DQM/Portal][이미지=펜타시스템테크놀러지]
[비식별화 대표 솔루션 집중분석-1]
펜타시스템테크놀러지, 데이터 분석 플랫폼에서 비식별화 구축
대용량 데이터 가명처리 최적화, 데이터3법·가명정보처리 가이드라인 충족
대용량 데이터를 수집 및 분석하는 데이터 분석 플랫폼에서는 개인정보보호 문제가 중요한 이슈로 제기되는 만큼, 개인정보 비식별화 솔루션의 도입, 적용, 활용이 필수적이다.
데이터 분석 플랫폼 구축과 필수 솔루션 DataEye PIDI(데이터아이 피디)
기업용 솔루션 공급 및 IT서비스 컨설팅 전문기업 펜타시스템테크놀러지는 25년 이상 데이터 분석 사업을 진행해 왔다. 데이터 플랫폼 구축에 필요한 데이터 수집 및 처리, 데이터 표준화, 데이터값 검증, 데이터 포털 솔루션 등 자체 기술력을 보유하고 있다.
특히 데이터 3법 개정 이후 가명처리를 위한 비식별화 솔루션이 주목받고 있다. DataEye PIDI는 빅데이터 환경에서 개인정보 데이터셋을 가명·익명화 처리하는 비식별화 솔루션이다. 특히, 데이터 3법 및 국내·외에서 규정하는 가명정보처리 가이드라인을 준수해 개인정보를 안전하게 활용할 수 있도록 가명·익명처리 기능을 갖추고 있다.
데이터 분석 플랫폼 비식별화 구축 시 고려사항
1. 데이터 분석 플랫폼의 다양한 데이터 인터페이스
데이터 분석 플랫폼은 다양한 데이터 소스 환경에서 수집하고 분석하기 때문에, csv 파일뿐 아니라 RDBMS, 하둡, API와 같은 다양한 유형의 데이터 소스와의 연계 지원이 필요하다. 데이터 유형별 최적의 인터페이스 방식을 적용해야 성능 및 데이터 정합성이 보장된다.
2. 대용량 데이터 처리를 위한 비식별화 처리
빅데이터 분석 환경에서는 대용량 데이터셋의 비식별화 처리가 필수이며, 인메모리 방식뿐 아니라 스트림 데이터 처리 등 다양한 방식의 데이터 처리가 필요하다. 인메모리 방식은 물리적인 서버 메모리 사이즈 이하의 데이터셋 처리는 가능하지만, 테라바이트 이상 대용량 데이터셋의 처리에는 한계가 있다. 이를 극복하기 위해서는 스트림 데이터 처리 기술을 활용해 대용량 데이터셋을 분할 처리하거나, 분산 처리 시스템을 이용해 대용량 데이터셋을 여러 노드에 분산시켜 처리할 수 있다.
3. 주기적인 배치 환경을 고려한 비식별화 처리
데이터 분석 플랫폼에서는 데이터를 일정 기간마다 일괄적으로 처리해야 하는 배치 작업이 필요하다. 이를 위해서는 데이터셋이 배치 처리를 위한 형태로 적재돼야 하고, 처리 작업에 그대로 적용돼야 한다. 배치 수행 결과는 비식별화 처리 로그와 함께 관리 및 보관돼야 한다. 이를 위해서는 로그 관리 시스템을 구축해 비식별화 처리 로그와 배치 수행 결과를 적절하게 보관하고 관리해야 한다.
또한, 배치 처리 후의 결과 데이터셋에 대한 적정성 평가 방안을 고려해야 한다. 비식별화 처리 결과물에 대해 적정성 평가를 수행해 개인정보보호와 더불어 비식별화 처리의 효율성을 보장할 수 있도록 해야 한다. 이를 위해 적정성 평가 기준을 마련하고, 해당 기준에 따라 평가를 수행할 수 있는 프로세스를 구축해야 한다.
4. 데이터 분석 플랫폼에서의 사후 관리
비식별화 처리가 완료된 데이터셋이라도 재식별화의 위험성이 존재할 수 있어 엄격한 관리가 필요하다. 이를 위해서는 데이터셋 개수가 많아 결합에 의한 재식별화 위험성이 커질 것을 대비한 정책 수립이 우선돼야 한다. 정책에 따라 사후 관리 모니터링이 필수이며, 이를 통해 비식별화 처리 결과에 이상이 없는지 확인할 수 있다.
또한, 데이터 분석 플랫폼 내에 별도의 데이터 안심 구역을 마련해 비식별화 데이터셋에 대한 엄격한 관리와 접근 권한 제한, 데이터 입출력 감시와 기록이 저장돼야 한다. 비식별화 목적이 달성된 데이터셋 파기에 대한 절차 또한 필수적이며, 이를 위해 데이터셋 파기 시점과 방법, 파기 프로세스 등이 명확히 정해져 있어야 한다. 이러한 사후 관리 체계를 통해 비식별화 데이터셋의 안전한 관리가 보장된다.
클라우드 데이터 분석 플랫폼 비식별화 적용 사례
Public Cloud 데이터 플랫폼 제공사에서는 데이터의 수집부터 저장, 처리, 분석, 활용을 위한 서비스를 제공하고 있으며, 이 데이터 분석 서비스를 구동하기 위해 사전에 개인정보의 가명처리를 수행해야 한다. 이를 위해 우선 가명처리를 위한 고객만의 가명처리 프로세스를 수립해야 하고, 해당 프로세스에 맞게 가명처리 절차를 수행한다. 이때 가명처리를 위한 과제 신청서 작성을 통해 전반적인 프로세스 관리가 가능하게 된다.
Cloud 환경에서의 대용량 데이터셋 가명처리를 위해서는 먼저 샘플링을 통해 데이터 확인 작업 및 가명 시뮬레이션이 가능하다. 가명처리를 실제 수행할 때는 대용량의 데이터가 많은 시간이 소요되기 때문에, 가명처리에 대한 모니터링 기능을 제공하고 있다. 이를 통해 가명처리 작업의 진행 상황을 실시간으로 확인할 수 있다.
또한 Cloud 저장 환경 특성을 고려한 성능 개선을 위해 Load 기능을 병행해 가명처리가 가능하게 성능 최적화 작업을 적용했으며 이를 통해 빠르고 정확한 가명처리를 수행할 수 있다. Cloud 데이터 분석 플랫폼에서 개인정보보호에 대한 엄격한 요구사항을 충족시키면서도 대용량 데이터의 가명처리에 대한 높은 성능과 안정성을 제공하고 있다.

▲AI 학습용 개인정보 비식별화 솔루션 SEAL[이미지=딥핑소스]
[비식별화 대표 솔루션 집중분석-2]
딥핑소스, 영상데이터의 안전한 AI 활용을 위한 비식별화 솔루션 SEAL
영상데이터 내 개인정보 삭제하면서도 AI 활용도 유지하는 기술
AI는 우리 일상에서 사용하는 서비스는 물론 금융, 제조, 에너지, 통신, 전자정부 등 다양한 영역에 접목되고 있다. AI 기술은 데이터 기반으로 발전하고 있으며 높은 정확도의 자율주행 소프트웨어, AI 영상분석 모델 개발을 위해서는 현장 데이터의 개인정보를 삭제해도 AI 학습 성능은 유지하는 고품질의 학습데이터가 필요하다.
그러나 AI 학습 및 분석에 필요한 대다수 데이터에는 개인정보가 포함되어 있어 이를 활용하지 못하는 상황이다. 개인정보를 삭제하기 위해 블러, 모자이크와 같은 일반적인 비식별화 방법이 사용되었지만 이러한 방법들은 비식별화 과정에서 AI 학습 성능이 떨어지는 한계가 있다.
이러한 한계점을 보완하고자 딥핑소스는 영상데이터 내에 포함된 개인정보를 삭제해도 AI 활용도는 유지하는 개인정보 비식별화 솔루션인 SEAL을 제공한다. 딥핑소스의 비식별화 솔루션은 프라이버시 보호와 데이터 활용도라는 2가지 목표를 동시에 달성할 수 있는 기술로 데이터를 안전하게 활용할 수 있는 방안을 기업에게 제시하고 있다.
영상데이터 내 개인정보를 빠짐없이 삭제
딥핑소스의 비식별화 솔루션 SEAL은 실제 환경에서 취득한 영상데이터 내의 개인정보를 빠짐없이 삭제한다. 특허받은 익명화 원천기술을 바탕으로 영상데이터 내 개인식별정보가 있는 것으로 추정되는 영역은 모두 비식별화 처리한다. 새로운 AI 모델 학습 또는 기존 AI 모델에도 적용할 수 있고 비식별화된 영상은 어떤 방법으로도 삭제된 개인정보를 복원할 수 없다. 즉 안전한 프라이버시를 보장한다.
개인정보 삭제 이후에도 AI 모델 학습 성능 유지
블러, 모자이크와 같은 기존 비식별화 기술의 경우, 비식별화 과정에서 AI 학습에 필요한 정보도 훼손되어 AI 학습데이터로서의 가치가 떨어진다. 딥핑소스는 이러한 문제점을 해결하고자 영상데이터 내의 개인정보를 제거하면서도 AI 학습에 필요한 정보를 남겨 AI 학습 성능을 보존하는 원천 기술인 개인정보 비식별화 솔루션 SEAL을 개발했다.
SEAL 처리된 데이터는 개인정보를 삭제하면서도 AI 학습데이터로서의 가치가 보존되어 원본 데이터와 동등한 AI 학습 성능을 보장한다. 또 기존 원본 데이터로 학습한 AI 모델에 SEAL 처리된 데이터를 적용할 수 있어 추가 학습에 따른 정확도 향상이 가능하다.
4차 산업혁명은 인공지능과 빅데이터 기술의 발전을 가속화하고 있다. 이러한 기술의 발전은 자율주행, 스마트시티 등 미래 핵심 산업의 원동력이다. 특히 AI 영상분석 기술은 해당 분야에서 핵심 기술로 자리 잡고 있으며, 글로벌 선도 기업이 되기 위해서는 이러한 기술의 높은 정확도가 필수다.
이를 위해서는 방대한 학습데이터가 주어진 학습데이터로 성능 향상이 가능한 인공지능 원천기술이 필요하다. 개인정보를 안전하게 삭제하면서 AI 학습 성능을 유지하는 딥핑소스의 SEAL 기술을 적용해 우리나라 인공지능 기술이 글로벌 경쟁력을 갖출 수 있기를 기대해 본다.

▲이지서티 지능형 가명·결합 솔루션 (IDENTITY SHIELD)[이미지=이지서티]
[비식별화 대표 솔루션 집중분석-3]
이지서티, 비식별화 기술로 개인정보보호와 데이터 활용 두 마리 토끼 다 잡는다
테라급 비식별화 처리 기술력과 최다 레퍼런스로 시장 리딩
이지서티는 개인정보 보안 분야에 20년 업력을 가진 강소기업으로, 2015년 미래창조과학부의 ‘빅데이터 환경에서 비식별화 기법을 이용한 개인정보보호 기술 개발’이라는 정부 과제를 시작으로 원천기술(특허 24개)을 개발하고, 2016년 지능형 가명·결합 솔루션(IDENTITY SHIELD)을 출시했다.
이 과정에서 시장 리딩 업체로 개인정보보호법과 데이터 3법 등의 제정에도 적극적으로 참여해 지속 개정되고 있는 ‘개인정보 비식별 조치 가이드라인’, ISO·IEC 20889, GDPR, HIPPA 등의 복합 규제를 제품에 체계적으로 반영하고 있다.
빅데이터에 포함된 개인정보에 대해 개인을 식별할 수 없도록 정부의 가명정보 처리 가이드라인에 맞춰 삭제, 특이정보분석(통계 도구), 일반화(범주화), 암호화, 무작위화 기술 등을 적용하고 있다. KLT 프라이버시 모델을 적용해 익명처리, 비정형 개인정보탐지 및 가명처리를 제공하고, 가명처리 결과에 대한 적정성 평가시뮬레이션 기능을 제공하고 있다.
또, 가명정보에 대한 다양한 방식의 결합처리 기능, 데이터·결합전문기관을 위한 송수신 전용 기능까지 통합적으로 지원하고 있다. 특히 데이터업체의 결합 신청시 기존 결합 신청 데이터의 경우 전문기관에서 데이터 연계키를 보관하고 신규 생성되는 데이터만 전송해 결합할 수 있는 기능을 제공해 데이터 활용 효율을 제고하고 있다.
이지서티는 가명처리기법을 추천해 주는 알고리즘과 적정성 검토 과정에서 적정성 검토를 위한 가명정보의 식별 위험성을 파악해 주는 AI 알고리즘을 구현했다. 구현된 AI 모델은 국내 가명처리를 위한 추천 기법에 적용되어 현재 개인정보보호위원회(이하 개인정보보호위) 가명정보활용 플랫폼에 탑재돼 대민 서비스 중이다. 또 이지서티는 서울시와 공공기관의 데이터를 기반으로 AI 모델을 통해 생성한 재현 데이터는 학계 및 분야 전문가 자문단의 검증 후 현재 개인정보보호위원회 사이버훈련장에서 사용되고 있다.

▲지능형 가명·결합 솔루션(IDENTITY SHIELD)의 주요기능[자료=이지서티]
이지서티의 IDENTITY SHIELD는 고속 분산 인메모리 기술을 통해 테라급 빅데이터 식별화 처리가 가능하고, 스프레드시트, csv 등의 정형 데이터 외에 비정형 데이터 처리에 경쟁력을 보유하고 있다.
또 GS인증, TTA(한국정보통신기술협회)에서 BMT(항목 25개 및 성능 6개 항목 최고 성능 충족), V&V 성능 측정, 클라우드 인증(NIPA) 등을 획득했고, 우수한 기술력과 신뢰할 수 있는 품질을 바탕으로 2019년 ‘IR52 장영실상’, 2022년 과학기술정보통신부 혁신제품, 조달청 우수제품으로 지정되었다. 민감한 개인정보가 많은 중앙부처 및 공공기관(보건복지부, 기획재정부, 소방청, 국민권익위원회, 관세청, 해양경찰청 등)과 데이터·결합전문기관(금융결제원, 건강보험심사평가원, 한국지능정보사회진흥원, 통계청, 삼성SDS, SK, 한전KDN, BC카드, 삼성카드 등)을 대상으로 최다 구축, 최다 지정이라는 레퍼런스를 확보하고 있다.
또 이지서티는 정부와 민간의 클라우드 전환에 대응하기 위해 클라우드 서비스도 제공하고 있다. 정부의 데이터 댐을 이용한 공공 데이터 전면 개방에 맞춰 안전하고 효율적인 데이터 이동을 위한 API 기능도 제공하고 있다.
이지서티의 심기창 대표는 “데이터 시장의 활성화를 위해서는 개인정보 비식별화 솔루션이 관련 시장 전체에 빠르게 적용돼야 하며, 회사도 시장 변화에 대응하기 위해 비식별화 기술의 고도화 외에도 데이터 API를 활용해 데이터 시장으로의 사업 확장을 계획하고 있다”고 밝혔다.
[김경애 기자(boan3@boannews.com)]
<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>