[2026 비식별화 솔루션 리포트] 지우는 데이터에서 활용하는 데이터로... 안전한 AI 거버넌스 이끈다

개인정보 유출 피해 원천 차단... 비정형 데이터 탐지 및 제거
국내외 개인정보 관련 정부 규제 강화, 컴플라이언스 수요 확대
조직 내 AI 활용 위한 데이터 학습 및 관리 수요 증가... 활용성과 안전 사이 균형이 핵심
비식별 솔루션 전문기업 집중분석: 에이씨엔에스, 펜타시스템, 엘세븐시큐리티

[보안뉴스 한세희 기자] 선한 마음으로 기부했다 날벼락을 맞은 사람들이 있다. 3월 사회복지공동모금회 ‘사랑의열매’ 홈페이지에 고액 기부자 647명의 이름과 주민등록번호 등이 그대로 노출돼 있던 사실이 알려졌다. 여기엔 정재계 주요 인사와 연예인들도 포함돼 있었다.

홈페이지에 기관 결산 공시 자료를 올리면서 실수로 개인정보 비식별화 조치를 하지 않은 것이 원인이었다. 이 서류는 개인정보가 가려지지 않은 채로 무려 1년 가까이 누구나 볼 수 있는 상태로 홈페이지에 올라 있었다.

고액 기부자는 사회경제적 지위가 높을 가능성이 크기 때문에 범죄의 표적이 되기 쉽다. 이름과 주민등록번호가 노출되면 맞춤형 피싱이나 사기 등 위협이 닥칠 수 있다.

[출처: gettyimagesbank]

비슷한 시기, 구호단체 희망브리지 전국재해구호협회에서도 같은 방식으로 기부자 개인정보가 유출됐다. ‘2022-2024년 결산 자료’ 파일이 기부자 실명과 주민등록번호, 기부액이 가려지지 않은 채 홈페이지에 공개된 것이다. 이 파일 역시 처음 등록되고 20일이 지나서야 삭제됐다.

사람들은 개인정보 문제에 대해 점점 민감해지고 있다. 정부에서도 개인정보 관련 규제를 강화하고 있다. 올해 9월 고의나 중과실로 인한 유출이나 위반 행위 반복 등의 사유가 있는 경우 매출의 최대 10%까지 개인정보 유출 과징금을 물리는 개인정보보호법 개정안이 시행된다.

개인정보 유출 사고로 조직이 입는 피해는 막대하지만, 업무 현장에선 사랑의열매 사례와 같이 개인정보가 허무할 정도로 쉽게 빠져나가는 경우가 종종 있다. 박충권 국민의힘 의원실이 개인정보보호위원회에서 받은 자료에 따르면, 지난해 1-9월 사이 개인정보 유출 신고는 311건이었다. 218건의 개인정보 유출 사고가 일어난 민간 부문에선 해킹으로 인한 유출이 164건으로 가장 많았으나, 93건의 사고가 일어난 공공기관에선 절반 이상인 52건이 업무과실 때문이었다.

직원이나 고객, 시민 개인정보가 담긴 파일을 실수로 전체 이메일에 첨부하거나 게시판에 등록하는 등의 실수가 매년 늘어나고 있다. 공공 부문 내부 관리 강화가 필요하다는 지적이다.

하지만 실수가 반복된다면 이는 개인뿐 아니라 업무 시스템의 문제라고 볼 수도 있다. 대량의 개인정보를 처리하는 업무를 담당하는 직원이 전산망 곳곳에 흩어져 있는 수많은 문서들을 다루다 보면 실수가 나올 수밖에 없기 때문이다.

업무 목적이나 정보 공개 등을 위해 개인정보가 담긴 문서를 공유해야 할 때 담당자는 개인정보를 어떻게 처리할까? <보안뉴스>와 <시큐리티월드>가 보안 분야 전문가를 대상으로 진행한 ‘비식별화 솔루션 인식 및 선호도 조사’에 따르면, 응답자의 절반 이상이 자신이 속한 조직에서 여전히 비식별화 작업을 “수작업으로 처리한다”고 답했다. 이미지로 뜬 문서 속 개인정보를 그림판 같은 소프트웨어로 하나씩 가리는 것이다. 처리해야 하는 자료가 많을수록 문서에 담긴 개인정보를 가리는 작업엔 구멍이 뚫릴 수밖에 없다.

기관이 보유한 문서나 자료에 포함된 개인정보를 자동적으로 가리면 업무 과정에서 실수로 인한 개인정보 노출을 막을 수 있다. 개인정보를 가리는 작업을 개별 직원의 작업이 아니라 솔루션의 기능에 맡기는 것이다 최근 개인정보 유출 사고가 빈번하게 벌어지고, 개인정보 규제도 엄격해지면서 비식별화 솔루션 도입에 대한 관심이 커지고 있다.

개인정보 유출 막는 비식별화
비식별화(de-identification)는 개인정보의 일부 또는 전부를 삭제, 대체, 암호화해 특정 개인을 알아볼 수 없도록 처리하는 기술적·관리적 절차를 말한다. 정보 주체와 이를 식별할 수 있는 속성 정보 간 연계를 끊어 누군가의 정체성이 공개되지 않도록 예방하는 것이라 할 수 있다. 또 단순히 정보를 숨기는 것을 넘어 데이터가 가진 통계적 가치와 활용성은 유지하면서 프라이버시 침해 리스크는 차단하는 것을 목적으로 한다.

이는 기업이나 기관이 보유한 개인정보가 유출되어도 피해를 막아 줄 뿐 아니라, 개인정보 노출 걱정 없이 데이터를 연구나 통계 등 공익 목적으로 활용할 수 있게 해 준다. 이들 데이터를 기반으로 다양한 맞춤형 서비스를 발굴해 국민 편의를 높이고 경제에 기여할 수도 있다.

▲개인정보 비식별화 절차 [출처: 행정안전부]

비식별화 데이터는 ‘가명정보’와 ‘익명정보’로 분류할 수 있다. 가명정보(Pseudonymization)는 개인정보의 일부를 삭제하거나 대체해 추가 정보 없이는 특정 개인을 알아볼 수 없도록 처리한 정보를 말한다. ‘서울시 마포구 도화동 1-1에 사는 45세 남성 김홍도씨’라는 개인정보에서 사람을 특정할 수 있는 정보들을 대체, ‘서울시 마포구 거주 40대 남성 김모씨’로 만드는 식이다.

가명정보는 추가 정보와 결합하면 개인정보를 특정할 가능성은 있어 개인정보보호법의 적용을 받는다. 다만, 통계 작성이나 과학 연구, 공익적 기록 보존 등을 위해선 정보주체의 동의 없이 이용이나 제공, 결합이 가능하다.

익명정보(Anonymization)는 시간, 비용, 기술 등을 고려할 때 더 이상 특정 개인을 알아볼 수 없도록 조치된 정보이다. 재식별 가능성이 거의 없으므로 개인정보보호법 적용 대상에서 제외되며, 기업이나 기관이 자유롭게 활용할 수 있다.

비식별화를 위해선 주민등록번호나 전화번호, 이메일 주소, 이름 등과 같이 특정 개인과 직접 연결되는 정보와 성별, 나이, 거주지, 몸무게, 신장, 카드 결제 금액, 인터넷 쿠키 정보 등 다른 정보와 결합될 경우 개인을 식별할 가능성이 있는 정보를 다른 사람이 알아보지 못하도록 처리해야 한다.

이를 위해 △가명처리 △마스킹(Masking) △데이터 삭제(Deletion) △범주화(Generalization) △총계처리(Aggregation) 등의 기법이 주로 쓰인다.

가명처리는 고객 ID를 난수 처리하는 등 식별 가능한 정보를 임의 코드나 다른 값으로 대체하는 방식이다. 마스킹은 데이터 일부를 숨겨 노출을 막는 기법이다. 민원 서류에서 주민등록번호 뒷자리 숫자를 별표(*)로 대신하는 것이 대표적이다. 데이터 삭제는 이름이나 상세 주소 등 불필요하거나 노출되면 위험한 식별 정보를 제거하는 것을 말한다.

범주화는 정확한 나이 대신 ‘30대’와 같이 표시하고, 상세한 거주 지명을 ‘경기도’ 같은 광역 단위로 변환하는 등 데이터의 구체성을 낮추는 방법이다. 총계처리는 개별 데이터를 데이터셋 평균값이나 최대값 등 통계값으로 요약하여 추세 정보만 제공한다.

정책 방향성은 개인정보 관리 강화
우리나라에선 2020년 개인정보보호법 개정안, 신용정보법 개정안, 방송통신망법 개정안 등 이른바 ‘데이터 3법’ 통과로 가명정보 활용에 대한 법적 근거가 마련되면서 본격적으로 비식별 기술이 도입되기 시작했다. 이전엔 개인 신분을 드러낼 여지가 있는 데이터는 수집과 가공 자체가 불법이었지만, 데이터 3법 통과로 비식별화 데이터를 상업적 목적으로 사용할 수 있게 됐다.

하지만 여전히 개인정보 주체 동의 없이 개인정보를 이용할 수 있는 요건이 지나치게 엄격하다는 등의 이유로 가명정보 활용에 제약이 있다는 비판도 있었다. 이에 따라 개인정보보호위원회는 3월 가명정보 처리 기준을 직관적 위험도 기반으로 간소화하고 방대한 행정 서류를 감축하는 등의 내용을 담아 가명정보 처리 가이드라인을 개편했다.

가명정보를 내부에서 활용하면 저위험으로, 외부에 제공하되 통제 가능하면 중위험, 불가능하면 고위험으로 분류해 명확한 판단이 가능하게 했다. 서류 양식은 24종에서 10종으로 줄이고, 전수조사가 어려운 영상·이미지·텍스트 등 대규모 비정형 데이터는 표본 검수 등 간소한 방식을 택할 수 있게 했다.

이는 AI 시대에 대응해 경쟁력을 강화하기 위한 정책의 일환으로 풀이된다. 비식별화는 숨가쁘게 돌아가는 AI 기술 경쟁에서 살아남기 위해 개인정보 유출 등의 위협에서 자유로우면서도 양질의 데이터를 대량 확보하도록 해 주는 좋은 도구가 되어 준다.

이런 사정은 글로벌 시장에서도 마찬가지다. 이를 반영하듯, 프레시던스리서치는 비식별화 관련 세계 시장이 올해 19억달러에서 2033년 58억7000만달러 규모로 성장할 것으로 전망했다. 연평균 성장률이 18.2%에 이른다는 예측이다.

▲국내외 주요 비식별화 솔루션 [자료: 보안뉴스·시큐리티월드]

데이터 보호 넘어 활용으로... 비식별화 기업 전략은?
개인정보 유출에 대한 소비자 민감도 증가와 규제 강화, AI 개발과 데이터 활용 등에 대한 관심과 함께 국내 비식별화 관련 시장도 주목받고 있다.

국내 비식별화 솔루션 기업들은 데이터의 가치는 유지하면서 유출 위험을 줄여 데이터 활용도를 극대화하는 기술과 절차로 시장을 공략하고 있다. 다양한 형태의 문서나 CCTV 영상 등 비정형 데이터를 빠르고 효율적으로 처리하는 기술이 기반이 된다.

에이씨엔에스는 “비식별화는 단지 데이터를 삭제하거나 대체하는 정적인 처리 방식이 아니라, 데이터 활용 과정에서 개인정보 노출을 통제하는 ‘동적 개인정보 보호 기술’”이라며 실제 업무 환경에서 많이 쓰는 PDF나 워드 등 문서 형태 비정형 데이터의 열람과 공유 과정에서 발생하는 개인정보 노출 방지의 필요성을 강조한다.

이를 위해 문서를 열람하거나 인쇄, 다운로드하는 시점에 개인정보를 실시간 비식별화하는 방식을 적용했다. 사전 처리한 문서의 사본 관리에 신경쓸 필요 없이 데이터 활용을 유지하면서 개인정보 노출을 통제한다는 설명이다.

에이아이딥은 비식별화를 “AI가 활용하는 데이터 전반에서 특정 개인을 식별할 수 있는 정보를 탐지하고, 데이터 활용 가치는 유지하면서 개인 권리 침해 가능성은 구조적으로 제거하는 프로세스”라 본다. 딥러닝 기반 탐지 엔진이 이미지·영상·문서 등 비정형 데이터반에서 얼굴, 번호판, 신분증 번호, 전화번호 등 다양한 유형의 개인정보를 탐지하고 용도에 따라 익명화(모자이크 처리)나 가명화(정보 변형)를 선택적으로 적용할 수 있게 했다.

엘세븐시큐리티는 “비식별화는 데이터 활용성을 유지하면서도 개인정보를 완벽히 격리하는 기술적 요소”라며 “이를 위해 단순히 텍스트를 ‘*’로 치환하는 수준을 넘어, 이미지 내 개인정보까지 탐지하는 AI 기반 마스킹 기술을 반영하고 있다”고 밝혔다.

정형화된 서식은 물론 비정형 문서 내 사진, 인장, 지문까지 비식별화 영역을 확장해 데이터 형태에 구애받지 않는 전방위 보안을 실현한다. 복잡한 문서 내 텍스트와 이미지 등을 분리해 마스킹한 후 재조립해 보안성을 높인다.

이파피루스는 가려야 하는 텍스트 데이터를 원천 삭제처리해 어떤 방식으로든 복구가 불가능하게 만드는 기술을 지향한다. 정보 가치는 살리고 유출 위험은 0%로 만드는 ‘데이터 클렌징’을 위해 PDF 내 텍스트와 메타데이터를 물리적으로 제거하는 방식을 택했다.

파수 AI는 데이터 활용을 위해 다량의 데이터를 가명 처리하는 개인정보 처리 전문기관 및 마이데이터 사업자, 빅데이터 센터를 위해 국내 관련 법률 및 컴플라이언스를 100% 지원하는 솔루션을 제공한다. 또 보유 개인정보를 보호하기 위해 마스킹 등 가명처리를 하려는 수요엔 AI 기반으로 맥락을 파악해 개인정보를 검출 및 마스킹하는 솔루션으로 대응한다.

펜타시스템 “비식별화는 단순 마스킹을 넘어 데이터 활용 목적을 달성하면서도 개인을 식별할 수 없도록 안전성을 확보하는 핵심 공정”이라며 이를 ‘가명정보 처리 라이프 사이클 관리’고 정의했다.

비식별화 신청과 위험성 검토, 가명처리, 적정성 평가, 사후 관리 등 전 과정을 표준 프로세스로 만들어 효과적인 컴플라이언스 준수를 지원한다.

AI 발달, 프라이버시 중요성 증가 추세... 시장은 성장 기대
특히 관련 업계는 최근 개인정보 관련 컴플라이언스 요구가 강해지고, AI 학습 데이터 수요가 커지는 상황에 주목하고 있다. 시장과 정책 양 측면에서 비식별화 요구를 외면하기 힘든 상황이 자연스레 형성되리란 전망이다.

최근 개인정보보호위원회가 개인정보 유출과 관련, 반복적으로 중대 과실을 저지를 경우 매출의 10%까지 징벌적 과징금을 물리는 정책을 추진하고, 개인정보최고책임자(CPO) 권한과 책임을 강화하는 등 개인정보 요구 수준이 높아지고 있다. 개인정보위 가이드라인이 비정형 데이터 가명처리에 관한 기준을 구체화하는 추세라 스캔 문서와 영상 데이터 속 개인정보 마스킹의 중요성이 커질 전망이다.

생성형 AI 확산에 따라 AI 학습 데이터로 쓰이는 비정형 데이터의 비식별화도 화두로 떠오른다. 상담 내역이나 사내 문서 등은 기업 역량 강화를 위한 자체 AI 모델 학습의 주요 원재료지만, 이들 비정형 데이터의 적정성 평가와 안전조치 의무도 그만큼 강화되기 때문이다. AI기본법 시행과 함께 생체인식정보 활용, 채용이나 대출 심사 등 이른바 ‘고영향 AI’와 관련된 개인정보 관리 수요도 커지는 상황이다.

기업이나 기관은 자체적으로 보유한 데이터를 활용해 새로운 기회를 만들고 싶지만, 이는 개인정보 유출 우려가 없는 안전한 환경에서 이뤄져야 한다. 또 이 과정에서 실무자 업무 부담이 커지면 곤란하다. 업무 과중은 비식별화 분야 고객의 주요 고충 중 하나다.

▲주요 비식별화 솔루션 구축 사례 [출처: 보안뉴스·시큐리티월드]

많은 현장에서 여전히 ‘그림판’으로 직접 개인정보를 마스킹하는 상황에서 수만 건의 문서를 일일이 검토하기 어려운 상황이기 때문이다. 서버나 이메일 시스템과 연동돼 실시간으로 마스킹하고 휴먼 에러를 제거하는 자동화 솔루션에 대한 수요가 크다. “문서는 활용해야 하지만, 개인정보는 노출되면 안 된다”는 요구에 대응하기 위해 개인정보 보호를 자동화하고 통제할 수 있는 환경을 구축해야 한다.

정형 데이터와 비정형 데이터 등 다양한 유형의 데이터에 대한 통합 관리 수요도 크다. 생성형 AI 시스템을 구축할 때 정형 및 비정형 데이터의 개인정보를 제거하고 비식별화해 AI 모델 학습에 활용하고 AI 서비스를 개발하려는 수요가 금융사와 공공기관을 중심으로 커지고 있다.

또 CCTV 등 보안 인프라에서 수집되는 데이터와 개인정보의 통합 관리, 오랜 기간 축적된 영상이나 의료 이미지, 금융 및 법률 문서 등에서 개인정보를 찾아 비식별화하는 수요도 생겨난다.

비식별화 솔루션 기업들은 구조가 일정하지 않고 복잡한 비정형 데이터에서 개인정보나 민감 정보를 효과적으로 탐지해 비식별화해야 하는 기술적 과제를 해결하며 이러한 수요에 대응하고 있다. 클라우드 전환과 비대면 서비스 확대, 영상과 소셜미디어 활용 증가 등으로 처리해야 할 비정형 데이터가 폭증하는 상황이라 해결해야 할 과제는 더 커졌다.

관련 기업들은 데이터를 활용할 필요와 보안 기술 간 충돌로 인한 업무 및 관리 부담을 줄이고, 기존 시스템과 유연하게 연동해 워크플로우를 유지하도록 지원한다는 점을 내세우고 있다. 문서와 압축파일 속 텍스트, 사진, 지문 등의 객체를 탐지하는 텍스트-이미지 통합 처리 기술도 필수다.

AI, 기회와 위협
최근 AI 기술의 급속한 발전은 비식별화 분야에도 영향을 미치고 있다. 다른 보안 분야와 마찬가지로 기회와 위협을 동시에 주고 있다.

개인정보가 데이터 저장이 아닌 AI 활용 과정에서 노출될 수 있다는 점은 새로운 위협이다. AI 학습이나 질의 과정에서 개인정보가 포함된 문서가 그대로 활용될 수 있기 때문이다. 발전한 AI와 복원 기술을 결합해 마스킹을 무력화하거나, 비식화별화된 데이터의 원본을 추정하는 ‘재식별화’(re-identification) 위협도 우려된다.

반면, 비정형 데이터 분석과 패턴 탐지의 효율을 높여 비식별화를 보다 정확하고 정밀하게 수행할 수 있다는 점은 기회다. 복잡한 규칙을 일일이 설정하지 않고도 문맥에 맞춰 개인정보나 민감 정보를 효과적으로 찾아낼 수 있다. 그간 판독이 어려웠던 필기체 데이터나 훼손된 이미지 속 개인정보, 어두운 환경에서 찍힌 영상 속 객체 등도 정확히 탐지할 수 있다.

데이터 활용 통합 거버넌스 만들어가야
비식별화 시장은 공공 및 금융 분야를 중심으로 지속적 성장세를 보이고 있다고 관련 업계는 보고 있다. 잇단 개인정보 유출 사고로 인한 사회적 경각심 확산과 정부의 규제 및 감독 강화, EU 등 해외 규제 확대, 생성형 AI 도입 확대에 따른 데이터 수요 등이 시장을 추동하고 있다. 이에 따라 비식별화 시장은 초기 성장기에서 본격 성장기로 전환되는 변곡점에 서 있다는 평가다.

과거 컴플라이언스 준수를 위한 정형 데이터 위주 도입이 주류였다면, 이제 AI 활용을 위해 기업 내부 비정형 데이터를 안전하게 학습시키려는 수요가 커지고 있다. AI 3대 강국을 목표로 하는 정부의 데이터 개방 가이드라인 구체화, 비정형 데이터 가명처리 관련 기술 기준 정립 등도 호재다.

형태나 내용이 제각각인 각종 문서 등 비정형 데이터 특성 때문에 원하는 데이터의 100% 탐지는 여전히 어렵다는 인식은 극복해야 할 과제다. 인식 부족과 예산 문제로 민간 부문에선 투자 우선순위가 밀린다는 점도 고려해야 한다.

보안과 프라이버시가 AI 거버넌스에 필수라는 인식 확산이 필요한 시점이다. 이를 위해 정부의 정교한 규제 및 정책, 데이터를 활용한 성공적 서비스 발굴, AI 효율화를 통한 기업 역량 강화 등의 성공 사례 발굴 등에 대한 요구가 크다.

최근 정부가 강화 방침을 밝힌 정보보호 및 개인정보보호 관리체계(ISMS-P)에 비식별화 관련 내용이 포함돼야 한다는 의견도 나온다. 과학기술정보통신부와 개인정보보호위원회는 4월 ISMS-P 인증 의무대상을 확대하고, 심사 기준을 현장 중심으로 강화해 인증 실효성을 높인다는 방침이다.

비식별화는 데이터를 지우고 가리는 ‘기능’이 아니라 데이터 활용을 위한 과정의 일환으로 보는 관점이 힘을 얻고 있다. 비식별화를 실무자 개인의 업무가 아니라 조직이 시스템으로 관리, 통제할 핵심 프로세스로 접근할 때 데이터 활용과 AI 역량 강화로 이어질 수 있다고 업계는 입을 모은다. 데이터를 제대로 활용하는 환경을 만드는 통합 거버넌스가 조직 핵심 역량으로 떠오르고 있다.

▲개인정보 비식별화 관련한 보안 종사자들의 설 문조사 결과 [출처: 보안뉴스·시큐리티월드]

비식별화 관련 보안 종사자들 인식은?
보안뉴스는 비식별화 솔루션에 대한 보안 분야 종사자들의 인식 현황을 파악하기 위해 지난달 27-29일 설문을 실시했다. 민간(71.1%)과 공공 부문(28.9%) 종사자 보안 분야 종사자 1140명이 참여했다.

조직에서 가장 많이 활용하는 민감 데이터는 ‘텍스트(고객 개인정보, 회원정보 등)’란 응답이 38.6%로 가장 높았고 ‘영상(CCTV, 블랙박스 등)’이 32.5%로 뒤를 이었다. 데이터 활용 목적으로는 ‘고객/회원 관리 및 서비스 제공’(29.8%)과 ‘보안사고 예방’(21.1%)┖이 절반 이상을 차지했다.

현재 조직 내 비식별화 조치 방법으로는 응답자의 54.4%가 “담당자가 수작업으로 한다”고 답해 여전히 인력에 의존하는 비중이 높은 것으로 나타났다. 비식별화 솔루션을 도입해 사용 중인 곳은 28.9%로, 솔루션 보급이 아직 확산 단계에 있음을 시사했다.

비식별처리 기법 중에선 ‘데이터 마스킹’이 선호도가 높고 활용도 많이 되는 것으로 나타났다. 응답자의 43.9%가 가장 안전한 기법으로 마스킹을 꼽았으며, 실제 조직 내 활용도에서도 55.3%로 1위를 기록했다.

비식별화 솔루션을 선택할 때 가장 중요하게 생각하는 기능으로는 ‘개인정보 식별 및 탐지’(43.0%)를 가장 많이 꼽았다. ‘다양한 비식별 기법 적용’이 25.4%, ‘재식별 위협 분석 및 평가’가 16.7%로 뒤를 이었다.

솔루션 사용 및 도입의 최대 걸림돌은 ‘비용’인 것으로 분석된다. 현재 사용 중인 솔루션에 만족하지 않는 이유로는 ‘솔루션 구축 및 유지보수 비용’(36.9%)┖이 가장 많이 언급됐다. 새 솔루션을 도입할 때도 ‘다양한 구축사례’(29.8%)와 더불어 ‘도입 비용’(16.7%)이 주요 기준으로 꼽혔다.

[출처: 에이씨엔에스]

[비식별 솔루션 집중분석-1] 에이씨엔에스
출력물·문서 기반 개인정보 노출, 이제는 ‘열람 단계’까지 관리해야 한다
차단 중심 보안의 한계... 실시간 마스킹 솔루션 ┖Docu AD┖ 주목

공공기관 개인정보 유출 사고의 49%는 해킹이 아닌 업무과실에서 발생한다. 문서 내 개인정보 보호는 그간 DRM, DLP 등 차단 중심 보안 솔루션을 통해 대응해 왔다. 이러한 방식은 문서 접근 통제와 외부 유출 방지에는 효과적이지만, 실제 문서를 열람하고 활용하는 과정에서는 제약이 발생한다. 그 결과, 업무 수행을 위해 수작업 마스킹이나 우회 절차가 반복되며 오히려 개인정보 노출 위험이 증가하는 문제가 발생하고 있다.

이러한 한계를 해결하기 위한 대안으로, 문서 열람 시점에서 개인정보를 통제하는 방식의 보안 기술이 주목받고 있다. 정책 기반 전자문서 실시간 마스킹 솔루션 ‘Docu AD’는 원본 문서를 수정하지 않고도 개인정보가 보호된 상태로 문서를 안전하게 열람할 수 있도록 지원한다.

실시간 마스킹 기반 ┖Docu AD┖, 열람 시점에서 개인정보를 통제한다
Docu AD는 문서 차단이 아닌 ‘열람 시점 통제’ 방식을 통해 출력물 개인정보 보호 문제를 해결한다. 다양한 개인정보 유형을 기반으로 마스킹 정책을 통합 관리하고, 이를 통해 문서 열람 시점에 개인정보를 자동 검출하여 실시간으로 마스킹된 형태로 제공한다.

별도 사본 생성이나 문서 수정 작업 없이 등록된 원본을 그대로 유지하면서도 개인정보가 보호된 상태로 문서를 열람할 수 있어, 수작업이나 사본 관리에 따른 업무 부담을 제거할 수 있다.

또한 실시간 스트리밍 방식으로 단말에 데이터가 저장되지 않으며, 사용자 권한에 따라 인쇄·다운로드 기능 접근을 제어할 수 있다. 열람 화면 워터마크 기능을 통해 화면 표시 단계까지 통제함으로써, 인쇄·화면표시·파일생성 등 문서 출력 전 과정에서 일관된 개인정보 보호를 가능하게 한다.

생성형 AI 확산, 문서 개인정보 보호의 새로운 과제
최근 생성형 AI 도입이 확대되면서 문서 기반 개인정보 보호의 중요성은 더욱 커지고 있다. 공공기관이 보유한 데이터의 대부분이 문서 형태로 존재하는 만큼, AI 질의응답 과정에서 원문 문서를 그대로 제공하는 경우 개인정보 노출 위험이 발생할 수 있다.

특히 AI 답변의 신뢰성을 위해 출처 문서를 함께 제공하는 과정에서 개인정보가 포함된 원본 문서가 그대로 노출되는 사례가 증가할 수 있다.
Docu AD는 AI 답변 출처 문서를 실시간 마스킹된 열람 화면으로 제공함으로써, 생성형 AI 환경에서 개인정보 보호와 문서 활용을 함께 실현하는 현실적인 해법으로 주목받고 있다.

[출처: 펜타시스템]

[비식별 솔루션 집중분석-2] 펜타시스템테크놀러지
통합 가명처리 솔루션 ‘DataEye PIDI’로 안전한 AI 데이터 생태계 구축
가명정보 활용 및 관리 표준 모델 제시

최근 인공지능(AI) 학습과 빅데이터 분석 수요가 급증하면서, 데이터 활용의 핵심은 ‘얼마나 많은 데이터를 가졌는가’, ‘얼마나 안전하게 비식별화 하여 활용할 수 있는가’에 달려있다. 업무 데이터 범위가 데이터베이스 내 정형 데이터부터 일상적 대화나 이미지, 영상, 오디오 등 비정형 데이터까지 확장되면서, 기업의 모든 데이터 자산을 안전한 ‘가명정보’로 전환하는 기술이 그 어느 때보다 중요해지고 있다.

이러한 흐름 속에서 펜타시스템 ‘DataEye PIDI’(데이터아이 피디)’가 AX 전환을 고민하는 기업에 ‘가명정보 활용 및 관리’의 표준 모델을 제시하며 주목받고 있다.

정형·비정형 데이터 비식별화를 ‘통합된 프로세스’로 완벽 대응
펜타시스템 ‘DataEye PIDI’는 국내 주요 금융기관 및 대기업 가명정보 관리 시스템을 구축한 경험을 바탕으로, 데이터 가치 극대화와 관리 안전성을 동시에 확보한 통합 거버넌스를 해왔다.

DataEye PIDI는 정형데이터는 물론, 까다로운 비정형 TEXT 데이터까지 안전하게 가명 처리할 수 있는 DataEye PIDI XT 엔진을 추가로 선보여, 급증하는 비정형 데이터 활용 수요에 발맞춰 소형거대언어모델(sLLM)을 전격 도입한 것이 핵심이다. sLLM 기반 자연어 처리(NLP) 기술을 결합해, 문서 내 성명, 계좌번호, 주소 등을 자동 탐지하고 가명 처리하는 프로세스를 구현해 휴먼 에러를 원천 차단한다.

산재한 정형 데이터와 비정형 데이터를 단일한 환경에서 처리할 수 있는 ‘통합 가명처리 플랫폼’ 제공이 가장 큰 특징이다. 기존엔 데이터 형태에 따라 별도 도구를 사용하거나 수동 처리를 병행해야 했으나, DataEye PIDI는 이를 일관된 워크플로우 내에서 관리할 수 있도록 지원한다. 데이터 가명처리 과정에서 발생할 수 있는 관리 사각지대를 해소하고, 일관성 있는 비식별 정책을 적용해 운영 효율성을 획기적으로 높였다.

생성형 AI 시대, sLLM 기반 지능형 비정형 데이터 식별 기술로 차세대 AI 플랫폼 선도
최근 생성형 AI(GenAI) 확산으로 기업 내부 데이터를 활용한 LLM 구축이 증가하면서 학습 데이터 내 개인정보 이슈도 함께 커지고 있다.

펜타시스템은 최근 1년 내 금융권 AI 플랫폼 구축 프로젝트에서 문맥 기반 이해가 가능한 ‘소형거대언어모델’(AI sLLM)을 활용해 비정형 텍스트 내 개인정보를 식별하고 비식별 처리하는 기능을 성공적으로 구현했다.

이 시스템은 데이터 수집 단계에서 개인정보를 실시간으로 탐지하고 API 방식으로 비식별화해 대체 값으로 변환한다. 단순 패턴 매칭의 한계를 넘어 문맥을 정확히 파악하는 sLLM 기술을 통해 데이터 품질과 보안성을 동시에 확보했다.

이를 통해 개발자는 보안 우려 없이 데이터를 AI 학습에 활용할 수 있으며, 전사 데이터 거버넌스 체계 내에서 비식별화된 데이터의 흐름을 투명하게 관리할 수 있다.

이러한 지능형 프로세스는 데이터 활용의 신속성을 높이는 동시에, 관리되지 않은 데이터의 외부 반출을 원천 차단한다. 펜타시스템은 향후 영상, 의료 데이터 비정형 데이터 처리 성능을 더욱 고도화해 의료, 유통, 제조 등 다양한 산업군에서 AI 학습 및 데이터 결합 시너지를 창출할 수 있도록 지원할 계획이다.

개인정보 보호와 데이터 활용이라는 과제를 동시에 해결해야 하는 상황에서, 펜타시스템의 DataEye PIDI는 신뢰할 수 있는 데이터 경제 시대를 여는 든든한 기술적 방패가 되고 있다.

[출처: 엘세븐시큐리티]

[비식별 솔루션 집중분석-3] 엘세븐시큐리티
‘그림판 마스킹’ 시대 끝냈다... AI 자동화로 비식별화 시장 선도
20년 전 구형 문서부터 이미지 속 숨은 정보까지 완벽 탐지... 업무 효율과 보안성 동시에 확보

최근 비정형 데이터(이미지, PDF, 스캔본 등) 내 개인정보 노출 사고가 잇달아 발생하며 사회적 파장이 일고 있다. 데이터의 범위가 단순 텍스트를 넘어 방대해짐에 따라, 기존의 수동 관리 방식으로는 보안 사각지대를 해소하는 데 한계가 명확해졌다. 이에 따라 기관의 신뢰도 유지와 법적 리스크 대응을 위한 자동화된 비식별화 솔루션 도입이 필수 과제로 부상하고 있다.

‘그림판 마스킹’ 비효율성과 보안 사각지대
디지털 전환 시대에도 불구하고 여전히 많은 공공기관과 기업의 정보공개 업무 현장에서는 수작업 마스킹이 이루어지고 있다. 담당자가 문서를 하나하나 열어 그림판이나 단순 편집 툴로 개인정보를 가리는 방식이다. 이는 막대한 행정력 낭비를 초래할 뿐만 아니라, 피로도로 인한 마스킹 누락(Human Error) 위험을 항상 내포하고 있어 보안 감사의 주요 지적 사항이 되기도 한다.

20년 전 구형 문서까지 아우르는 ‘지능형 기술’
엘세븐시큐리티는 독보적인 AI 기반 OCR(광학문자인식) 기술을 탑재하여 기존 솔루션의 한계를 극복했다. 가장 큰 차별점은 ‘문서 포맷의 완전한 수용성’이다.

최신 오피스 문서는 물론, 보안 솔루션이 인식하기 까다로운 20여 년 전의 레거시 문서(hwp, doc, xls, ppt) 내 텍스트와 이미지까지 완벽하게 스캔하여 개인정보를 탐지한다. 특히 문서 내부에 삽입된 작은 이미지 속 글자까지 정교하게 읽어내어 보안 사각지대를 원천 차단한다.

여기에 ‘문서 지능형 학습’ 기능을 더해 기술적 완성도를 높였다. 원본 화질이 극도로 낮아 일반적인 OCR로 탐지가 어려운 특수 문서도 AI가 해당 문서의 특성을 지속적으로 학습하여 탐지 정확도를 비약적으로 상향시킨다.

‘자동 탐지’와 ‘사용자 수동 제어’의 완벽한 시너지
엘세븐시큐리티는 AI의 효율성에 인간의 정밀함을 결합한 하이브리드 인터페이스를 제공한다. AI가 대량의 문서를 자동으로 마스킹한 후, 담당자는 제공되는 툴을 통해 최종 검토를 수행할 수 있다. 정책상 특정 문장 전체를 일괄 가려야 하는 등 특수 상황에서 사용자가 직관적인 UI를 통해 직접 마스킹 영역을 지정하여 업무에 즉시 활용할 수 있다.

이러한 방식은 과거 그림판에서 고군분투하던 담당자들에게 업무 시간을 획기적으로 단축시키는 동시에 보안의 완결성을 높여 실무적 만족감을 선사하고 있다.

특허청·금융권이 인정한 신뢰… ‘마스킹 용역 서비스’로 문턱 낮춰
엘세븐시큐리티는 이미 보안 요건이 까다로운 특허청에 솔루션을 성공적으로 공급하며 기술력을 인정받았다. 또한 현대카드, 메리츠화재 등 제1금융권과 보험사의 대규모 프로젝트를 수행하며 고도화된 보안 환경에서의 안정성을 입증했다.

솔루션 직접 도입이 어려운 기관이나 기업을 위해 ‘개인정보 마스킹 대행 용역 서비스’도 운영한다. 전문가들이 솔루션을 활용해 고객사의 문서를 신속하게 마스킹해줌으로써, 별도의 시스템 구축 없이도 법적 리스크를 해소할 대안을 제시한다.

회사 관계자는 “강력한 AI 학습 기술과 사용자 중심의 인터페이스를 통해, 고객사가 어떤 데이터 환경에서도 빈틈없이 개인정보를 보호할 수 있도록 최상의 솔루션을 공급할 것”이라고 밝혔다.

[한세희 기자(hahn@boannews.com)]

헤드라인 뉴스

TOP 뉴스

Copyright thebn Co., Ltd. All Rights Reserved.

시큐리티월드

회원가입

Passwordless 설정

PC버전