재현자료란 원자료와 합계나 평균 등 통계적 추론값은 유사하지만 개별 응답자의 정보가 노출되지 않도록 합성된 자료를 말한다. 통계청은 통계데이터를 충분히 보호하면서도 그 활용도와 접근성을 높이기 위해 4년 전부터 과학기술부와 협업 R&D 사업 및 자체 연구용역을 통해 재현자료 기술을 연구해 왔다.
지난해 6월 국내 최초로 기업통계등록부 100만개 자료를 재현한 베타버전을 공개한 이후, 이번이 두 번째 재현자료 베타버전 서비스다. 1차 재현자료 베타버전 이용자 및 통계데이터센터 이용자들 대상으로 재현자료에 대한 수요조사를 실시한 결과, 일자리 행정통계 수요가 가장 많았다.
일자리 행정통계는 일자리 규모와 구조 등 고용 관련 정책 수립 및 취업준비자의 일자리 선택에 필요한 기초자료 제공을 목적으로 통계청에서 매년 작성 중이다. 금번 일자리 행정통계 재현자료는 2016년 이후 5개년간 연간 약 480만개의 일자리 정보(모집단의 약 10% 수준)가 담겨 있다. 기업체 분류, 일자리 갯수 등 총 16가지 항목에 대해 재현자료를 생성했다.
빅데이터 시대가 도래하면서 기업과 국민, 정책부처에서는 이미 발표된 집계 수치보다는 원자료를 활용한 세밀한 분석을 원하는 수요가 크게 늘었고, 정보보호 이슈도 함께 증가하고 있다. 데이터가 세밀해질수록 그 활용 가치가 높아지지만, 개인정보 노출 위험 또한 높아지기 때문이다.
같은 이유로 최근 국제사회에서도 데이터 보호와 데이터 개방·활용이라는 상반되는 두개의 가치를 충족할 수 있는 신기술로 재현자료를 주목하고 있다. UNECE(유럽유엔경제위원회)에서는 데이터보호 신기술의 하나로 지난해 ‘공식통계를 위한 재현자료 스타터 가이드’를 발간하기도 했다.
그간 통계청에서는 집계자료 이외에 가장 세부적인 정보가 담긴 마이크로데이터는 청 내부의 물리적·기술적 안전조치가 이뤄진 통계데이터센터에 방문해야만 이용이 가능했다. 재현자료 베타서비스를 통해 이제 이용자는 장소에 관계없이 온라인으로 일자리 행정통계 재현자료를 다운로드받아 이용할 수 있다.
또한 재현자료를 통해 이용자가 사전에 데이터 구조를 충분히 학습할 수 있기 때문에, 통계데이터센터에서만 접근 가능한 원자료를 직접 방문해서 분석하는 기간도 줄어드는 등 이용자 편의성이 높아질 것으로 기대하고 있다.
통계청은 앞으로도 약 10여종의 통계데이터에 대한 재현자료 생성 연구를 진행할 계획이며, 2028년까지 구축될 예정인 통계정보플랫폼 및 원포털에 재현자료 기술을 실제 적용할 계획이다.
이형일 통계청장은 “통계청이 지속적으로 재현자료 기법을 연구하는 이유는 보유하고 있는 풍부한 정보를 보다 안전하고 편리하게 국민과 기업이 이용할 수 있도록 개방하기 위해서다. 재현자료 기술이 많은 가능성을 가지고 있지만, 이용자의 다양한 수요에 맞춰 정확성과 안정성이 담보된 재현기술을 상용화시키려면 끊임없는 연구와 개선 노력이 필요하다. 앞으로 통계청은 재현자료 등 최신 정보보호 기술을 국가통계 데이터 전반으로 확산시켜, 민생통계 및 역동경제 지원을 위해 국민이 체감할 수 있는 더 많은 데이터 개방을 위해 적극 노력해 나가겠다”고 밝혔다.
[박미영 기자(mypark@boannews.com)]
<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>