합성데이터, 개인정보 보호와 데이터 부족 문제 해결의 열쇠

2025-01-08 18:48
  • 카카오톡
  • 네이버 블로그
  • url
3줄 요약
1. 보호와 데이터 부족 문제를 동시 해결하는 대안, ‘합성데이터’
2. 안내서는 데이터 활용과 개인정보 보호 간 균형을 맞추기 위한 가이드 제시
3. 합성데이터는 AI 학습, 재난 감지 등서 활용...안전·유용성 검증 필수


[보안뉴스 박은주 기자] 인공지능(AI)과 빅데이터 기술이 빠르게 발전하며 데이터 수요가 폭증세다. 하지만, 현실에서는 데이터 활용이 쉽잖다. AI 모델 학습을 위해서는 방대한 데이터가 필요하나 개인정보 보호 규제로 인해 이를 직접 수집하고 사용할 수 없는 경우가 많다. 공개 데이터 생성 속도 역시 한정적여서 데이터 부족 문제가 우려된다. 이러한 상황에서 주목받는 것이 바로 ‘합성데이터’다.


[이미지=gettyimagesbank]

합성데이터는 원본 데이터를 학습해 비슷한 구조와 속성을 가지지만 개인정보는 포함하지 않는 가상 데이터다. 개인정보 유출 위험 없이 안전하게 활용할 수 있는 대안으로 떠오르고 있다.

개인정보위의 ‘합성데이터 생성·활용 안내서’ 발간
개인정보보호위원회(개인정보위)는 이러한 흐름에 발맞춰 지난달 ‘합성데이터 생성·활용 안내서’를 내놨다. 이번 안내서는 개인정보 보호법을 준수하면서 합성데이터를 생성하고 활용하는 방법과 절차를 상세히 제공한다.

개인정보위는 데이터 활용의 필요성과 개인정보 보호 간의 균형을 맞추기 위해 이 안내서를 제작했다고 밝혔다. 데이터 활용이 필요한 기업과 기관 담당자들이 실제 업무에 적용할 수 있도록 구체적인 절차와 예시를 포함했다. 특히 합성데이터 생성 과정에서 발생할 수 있는 개인정보 침해 위험을 최소화했다. 법적 문제를 피할 방법도 제시해 데이터 활용 문턱을 낮췄다.

합성데이터는 컴퓨터 시뮬레이션이나 알고리즘을 통해 원본 데이터의 통계적 속성과 패턴을 재현한 데이터로 정의된다. 즉, 원본 데이터의 구조와 유사하나, 실제 개인정보는 포함되지 않은 가상 데이터다. 이러한 데이터를 생성하는 과정은 ‘합성’이라 부른다. 공공기관과 기업, 연구기관 등 다양한 주체가 이를 수행한다. 합성된 데이터는 원본 데이터와 유사한 분석 결과를 제공해 AI 학습, 데이터 분석, 시스템 테스트 등 다양한 분야에서 활용된다.

합성데이터가 열어가는 새로운 데이터 시대
합성데이터는 데이터 부족 문제를 해결하는 데 기여한다. AI 학습에 필요한 데이터를 추가로 생성해 모델 성능을 높인다. 드문 상황이나 조건을 반영한 데이터를 만들어 모델 일반화 능력을 향상하는 데도 유용하다.

실제 개인정보가 포함되지 않아 개인정보 보호 규정을 준수하면서도 데이터를 자유롭게 활용할 수 있다. 기업은 데이터 구입 비용 절감, 데이터 접근성 향상 등 실질적 혜택을 기대한다.

합성데이터는 정형 데이터와 비정형 데이터로 나뉜다. 정형 합성데이터는 테이블 형태의 데이터에서 생성된다. 예컨대, 헬스케어 기기의 오차를 보정하기 위한 혈당 측정 데이터가 있다. 특정 업체는 자사와 타사의 혈당 측정 데이터를 비교하기 위해 고객 혈당과 측정 시간, 식사 여부 등 723건의 합성 데이터를 생성해 기기 보정에 활용했다.

반면, 비정형 합성데이터는 텍스트, 이미지, 영상 등 비정형 데이터를 바탕으로 만들어진다. 실제 사례로는 안전사고 및 재난 감지 AI 엔진을 개발하기 위해 안전보호구 착용 이미지 432장을 기반으로 5,500장의 가상 이미지를 생성해 학습 데이터로 사용했다.


▲합성데이터 생성 절차 및 세부사항[자료=합성데이터 생성·활용 안내서]

합성데이터 활용 목적과 주의사항
합성데이터는 처리 목적에 따라 달리 구분된다. 공개용, 특정 기관 내부에서만 사용되는 분석 및 AI 학습용, 교육용, 기술 검증용 등 다양한 형태로 활용된다. 다만, 합성데이터를 생성하고 활용할 때는 개인정보 침해 위험을 줄이기 위해 △안전성 검증 △전처리 △재식별 가능성 검토 등의 절차가 필요하다. 특히 합성데이터가 부분 합성인 경우 원본 데이터와 일부 결합 될 수 있어 더 높은 수준의 보호 조치가 요구된다. 완전 합성데이터라도 생성 과정에서 보안이 유지되지 않으면 개인정보가 유출될 가능성이 있다. 철저한 관리가 필수인 이유다.

해외 동향과 안내서의 기대 효과
해외서도 합성데이터에 관심이 높아지고 있다. 유엔 유럽 경제위원회(UNECE)와 싱가포르 개인정보보호위원회(PDPC) 등은 합성데이터 생성 및 활용에 관한 가이드라인을 발표하고, 각국에서 이를 도입하도록 권장한다. UNECE는 합성데이터를 활용한 통계 작업 가이드를 제공한다. 싱가포르는 AI 학습용 합성데이터 생성 가이드를 통해 개인정보 보호와 데이터 활용의 조화를 강조한다.

이번 안내서는 합성데이터 생성 절차를 5단계로 구분해 설명한다. △사전 준비 △데이터 생성 △안전성 및 유용성 검증 △심의위원회 평가 △활용 및 관리로 이루어진 절차는 합성데이터 생성 과정에서 반드시 따라야 할 기준을 제시한다. 안내서에는 합성데이터 생성 체크리스트와 활용 안내사항이 포함돼 있다.

합성데이터는 데이터 활용의 새로운 패러다임을 제시한다. 개인정보 보호와 데이터 부족 문제도 동시 해결할 수 있다. 이번 안내서 발간은 국내 데이터 산업의 경쟁력을 높이는 데 기여할 것으로 기대된다.
[박은주 기자(boan5@boannews.com)]

<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>

헤드라인 뉴스

TOP 뉴스

이전 스크랩하기


과월호 eBook List 정기구독 신청하기

    • 다후아테크놀로지코리아

    • 인콘

    • 엔텍디바이스코리아

    • 핀텔

    • KCL

    • 아이디스

    • 씨프로

    • 웹게이트

    • 지오멕스소프트

    • 하이크비전

    • 한화비전

    • ZKTeco

    • 비엔에스테크

    • 비전정보통신

    • 원우이엔지

    • 지인테크

    • 아이원코리아

    • 이화트론

    • 다누시스

    • 테크스피어

    • 아이리스아이디

    • 슈프리마

    • 인텔리빅스

    • 시큐인포

    • 미래정보기술(주)

    • 트루엔

    • 인터엠

    • 경인씨엔에스

    • 한국씨텍

    • 성현시스템

    • 프로브디지털

    • 투윈스컴

    • 스피어AX

    • 다후아테크놀로지코리아

    • 한결피아이에프

    • 세연테크

    • 디비시스

    • 주식회사 에스카

    • 구네보코리아주식회사

    • 위트콘

    • 넥스트림

    • 포엠아이텍

    • 동양유니텍

    • 엔피코어

    • 휴네시온

    • 한싹

    • 앤앤에스피

    • 신우테크
      팬틸드 / 하우징

    • 에프에스네트워크

    • 네이즈

    • 케이제이테크

    • 셀링스시스템

    • 창성에이스산업

    • 아이엔아이

    • 미래시그널

    • 새눈

    • 에이티앤넷

    • 유투에스알

    • 에이앤티코리아

    • 네티마시스템

    • 태정이엔지

    • (주)일산정밀

    • 넥스텝

    • 모스타

    • 두레옵트로닉스

    • 현대틸스
      팬틸트 / 카메라

    • 지에스티엔지니어링
      게이트 / 스피드게이트

    • 에이앤티글로벌

    • 엘림광통신

    • 메트로게이트
      시큐리티 게이트

    • 엔에스티정보통신

    • 레이어스

    • 보문테크닉스

    • 포커스에이치앤에스

    • 엔시드

    • 엠스톤

    • 글로넥스

    • 유진시스템코리아

    • 카티스

    • 세환엠에스(주)

Copyright thebn Co., Ltd. All Rights Reserved.

MENU

회원가입

Passwordless 설정

PC버전

닫기