AI 분야 연구·개발에서 데이터의 질적 개선 이바지...합성데이터 활용의 확장성 제시
[보안뉴스 김영명 기자] 이지서티(대표 김동례)가 총괄하는 ‘정형 및 비정형 데이터의 가명·익명화를 위한 자동처리 기술 및 안전성 검증 기술개발’ 연구과제 중 ‘대용량 정형데이터 대상 개인정보 가명·익명화를 위한 자동처리 기술’ 세부과제의 성과로 마련된 ‘합성데이터 유용성 측정지표 조사연구’ 논문이 앞서 올해 2월 1일 ‘한국통신학회 동계학술대회(KICS Winter Conference 2024)’에서 공개됐다고 밝혔다. 이 연구과제는 과학기술정보통신부(장관 유상임)와 정보통신기획평가원(원장 홍진배)이 지원하고 있다.
▲‘합성데이터 유용성 측정지표 조사연구’ 내 인공지능 훈련용 합성데이터 활용 추세 예측[출처=한국통신학회]
이번 논문은 연구과제 참여기관인 한국정보통신기술협회(회장 손승현)에서 발표한 것으로, 정형화된 데이터뿐만 아니라 비정형데이터에 대한 유용성과 안전성을 동시에 보장할 수 있는 기반을 마련했다는 점에서 의의가 있다.
생성형 인공지능(Generative Artificial Intelligence)을 중심으로 다양한 분야의 인공지능(Artificial Intelligence, 이하 AI)을 접목하는 사례가 늘어나며 AI 기술에도 큰 변화가 일어나고 있다. 이러한 AI 기술이 더 발전하기 위해서는 대량의 데이터에 대한 학습이 불가피하다. AI 기술의 발전과 개인정보보호의 발전은 상호보완적인 요소로 AI 데이터 수요가 증가하면서 개인정보보호에 대한 우려도 함께 증가하고 있다.
지난해 개인정보보호위원회에서는 ‘인공지능(AI) 프라이버시 민관 정책협의회’의 출범과 함께 AI 데이터에 대한 개인정보 활용 처리 기준과 가이드라인을 제공하는 등의 활동을 전개 중이다. 하지만 더 많은 데이터, 특히 개인정보와 관련된 민감 데이터가 필요한 상황에서 AI 프라이버시 규율체계를 뛰어넘기는 힘들다는 것이다. 이러한 문제점을 극복하는 방안으로 개인정보에 대한 가명처리 방법들이 제시되고 있으나 실제 데이터를 얻기 어렵고 가명처리된 개인정보가 데이터의 가치가 있느냐는 문제점이 대두되고 있다. 따라서 AI와 개인정보보호를 동시에 만족하기 위한 새로운 방안으로 ‘합성데이터(Synthetic Data)’를 통한 활용이 대안으로 거론되고 있다.
합성데이터란 실제로 관측되거나 발생한 데이터가 아니라, 컴퓨터 프로그램이나 알고리즘을 사용해 생성된 데이터를 말한다. 기존 데이터의 특성을 유지하면서도 개인정보보호에 더 큰 주의를 기울일 수 있는 방법이다. 합성데이터는 머신러닝과 딥러닝 모델의 학습 데이터로 사용 가능하고, 모델의 성능 향상과 함께 검증에도 활용될 수 있어, 개인정보보호를 위험 없이 테스트하고 연구하는 데에도 도움이 될 것으로 기대된다.
이 연구성과는 과기정통부·정보통신기획평가원의 ‘정보보호 핵심 원천기술 개발 사업’을 수행한 결과로 대용량의 개인정보를 포함하고 있는 실데이터의 안전성을 보장할 수 있도록 합성데이터의 유용성 평가 지표를 조사·분석했다. 또한 정형 데이터에 대한 유용성 측정지표로는 1차원 분포 유사도, 2차원 관계 유사도, 모형 성능 유사도, 성향점수 등을 사용해 실제 데이터의 통계적 및 구조적 특성을 얼마나 잘 반영하는지 측정했다.
이를 바탕으로 AI 분야의 연구 및 개발에 있어 데이터의 질적 개선을 이루는데 이바지했다고 평가할 수 있으며, 합성데이터 활용의 확장 가능성을 탐구하고, 다양한 산업 분야에서의 혁신 촉진을 위한 중요한 기반을 제공할 수 있다는 가능성을 제시했다.
한편 이지서티는 보안뉴스·시큐리티월드가 선정한 2023 Global Security TOP 100 기업이다. Global Security TOP 100은 물리보안 분야와 사이버보안 분야를 모두 포함해 2023년 한 해 동안 국내외에서 매출, 성장 속도, 기술력, 혁신성, 지속가능성 등에서 우수한 평가를 받아 선정됐다.
[김영명 기자(boan@boannews.com)]
<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>