1. 보호와 데이터 부족 문제를 동시 해결하는 대안, ‘합성데이터’
2. 안내서는 데이터 활용과 개인정보 보호 간 균형을 맞추기 위한 가이드 제시
3. 합성데이터는 AI 학습, 재난 감지 등서 활용...안전·유용성 검증 필수
[보안뉴스 박은주 기자] 인공지능(AI)과 빅데이터 기술이 빠르게 발전하며 데이터 수요가 폭증세다. 하지만, 현실에서는 데이터 활용이 쉽잖다. AI 모델 학습을 위해서는 방대한 데이터가 필요하나 개인정보 보호 규제로 인해 이를 직접 수집하고 사용할 수 없는 경우가 많다. 공개 데이터 생성 속도 역시 한정적여서 데이터 부족 문제가 우려된다. 이러한 상황에서 주목받는 것이 바로 ‘합성데이터’다.
[이미지=gettyimagesbank]
합성데이터는 원본 데이터를 학습해 비슷한 구조와 속성을 가지지만 개인정보는 포함하지 않는 가상 데이터다. 개인정보 유출 위험 없이 안전하게 활용할 수 있는 대안으로 떠오르고 있다.
개인정보위의 ‘합성데이터 생성·활용 안내서’ 발간
개인정보보호위원회(개인정보위)는 이러한 흐름에 발맞춰 지난달 ‘합성데이터 생성·활용 안내서’를 내놨다. 이번 안내서는 개인정보 보호법을 준수하면서 합성데이터를 생성하고 활용하는 방법과 절차를 상세히 제공한다.
개인정보위는 데이터 활용의 필요성과 개인정보 보호 간의 균형을 맞추기 위해 이 안내서를 제작했다고 밝혔다. 데이터 활용이 필요한 기업과 기관 담당자들이 실제 업무에 적용할 수 있도록 구체적인 절차와 예시를 포함했다. 특히 합성데이터 생성 과정에서 발생할 수 있는 개인정보 침해 위험을 최소화했다. 법적 문제를 피할 방법도 제시해 데이터 활용 문턱을 낮췄다.
합성데이터는 컴퓨터 시뮬레이션이나 알고리즘을 통해 원본 데이터의 통계적 속성과 패턴을 재현한 데이터로 정의된다. 즉, 원본 데이터의 구조와 유사하나, 실제 개인정보는 포함되지 않은 가상 데이터다. 이러한 데이터를 생성하는 과정은 ‘합성’이라 부른다. 공공기관과 기업, 연구기관 등 다양한 주체가 이를 수행한다. 합성된 데이터는 원본 데이터와 유사한 분석 결과를 제공해 AI 학습, 데이터 분석, 시스템 테스트 등 다양한 분야에서 활용된다.
합성데이터가 열어가는 새로운 데이터 시대
합성데이터는 데이터 부족 문제를 해결하는 데 기여한다. AI 학습에 필요한 데이터를 추가로 생성해 모델 성능을 높인다. 드문 상황이나 조건을 반영한 데이터를 만들어 모델 일반화 능력을 향상하는 데도 유용하다.
실제 개인정보가 포함되지 않아 개인정보 보호 규정을 준수하면서도 데이터를 자유롭게 활용할 수 있다. 기업은 데이터 구입 비용 절감, 데이터 접근성 향상 등 실질적 혜택을 기대한다.
합성데이터는 정형 데이터와 비정형 데이터로 나뉜다. 정형 합성데이터는 테이블 형태의 데이터에서 생성된다. 예컨대, 헬스케어 기기의 오차를 보정하기 위한 혈당 측정 데이터가 있다. 특정 업체는 자사와 타사의 혈당 측정 데이터를 비교하기 위해 고객 혈당과 측정 시간, 식사 여부 등 723건의 합성 데이터를 생성해 기기 보정에 활용했다.
반면, 비정형 합성데이터는 텍스트, 이미지, 영상 등 비정형 데이터를 바탕으로 만들어진다. 실제 사례로는 안전사고 및 재난 감지 AI 엔진을 개발하기 위해 안전보호구 착용 이미지 432장을 기반으로 5,500장의 가상 이미지를 생성해 학습 데이터로 사용했다.
▲합성데이터 생성 절차 및 세부사항[자료=합성데이터 생성·활용 안내서]
합성데이터 활용 목적과 주의사항
합성데이터는 처리 목적에 따라 달리 구분된다. 공개용, 특정 기관 내부에서만 사용되는 분석 및 AI 학습용, 교육용, 기술 검증용 등 다양한 형태로 활용된다. 다만, 합성데이터를 생성하고 활용할 때는 개인정보 침해 위험을 줄이기 위해 △안전성 검증 △전처리 △재식별 가능성 검토 등의 절차가 필요하다. 특히 합성데이터가 부분 합성인 경우 원본 데이터와 일부 결합 될 수 있어 더 높은 수준의 보호 조치가 요구된다. 완전 합성데이터라도 생성 과정에서 보안이 유지되지 않으면 개인정보가 유출될 가능성이 있다. 철저한 관리가 필수인 이유다.
해외 동향과 안내서의 기대 효과
해외서도 합성데이터에 관심이 높아지고 있다. 유엔 유럽 경제위원회(UNECE)와 싱가포르 개인정보보호위원회(PDPC) 등은 합성데이터 생성 및 활용에 관한 가이드라인을 발표하고, 각국에서 이를 도입하도록 권장한다. UNECE는 합성데이터를 활용한 통계 작업 가이드를 제공한다. 싱가포르는 AI 학습용 합성데이터 생성 가이드를 통해 개인정보 보호와 데이터 활용의 조화를 강조한다.
이번 안내서는 합성데이터 생성 절차를 5단계로 구분해 설명한다. △사전 준비 △데이터 생성 △안전성 및 유용성 검증 △심의위원회 평가 △활용 및 관리로 이루어진 절차는 합성데이터 생성 과정에서 반드시 따라야 할 기준을 제시한다. 안내서에는 합성데이터 생성 체크리스트와 활용 안내사항이 포함돼 있다.
합성데이터는 데이터 활용의 새로운 패러다임을 제시한다. 개인정보 보호와 데이터 부족 문제도 동시 해결할 수 있다. 이번 안내서 발간은 국내 데이터 산업의 경쟁력을 높이는 데 기여할 것으로 기대된다.
[박은주 기자(boan5@boannews.com)]
<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>