딥페이크 유포를 막기 위한 딥페이크 탐지 기술은 어떤 게 있나
적대적 AI 활용한 능동적 딥페이크 생성 방지 가능...공격자들의 우회 방안도 존재
[보안뉴스=카이스트 사이버보안연구센터 유영락·박상류·손진혁·고기혁] 유명인들이 고개를 돌린 채 서 있는 아래 공익 광고는 ‘딥페이크 성착취물 아웃!’ 캠페인의 일환으로, 딥페이크 기술의 위험성을 경고하면서 딥페이크 성착취물의 제작, 소지, 시청 및 유포를 ‘고개를 돌려 거부’한다는 의미를 담고 있다. 이처럼 최근 들어 그 위험성이 거듭 강조되고 있는 딥페이크는 유명인을 우스꽝스럽게 합성하거나 영화 속 캐릭터에 내 얼굴을 대입하는 등 재미있는 인터넷 밈(Meme)을 위해 시작됐다. 하지만 미디어 합성 기술의 발전과 생성형 인공지능이 출현함에 따라 합성된 미디어 즉, 가짜와 진짜를 구분하기 매우 어려워졌으며, 2017년에는 유명인의 얼굴을 성인 콘텐츠와 합성해 배포하는 불법 행위가 유행하면서 그 어두운 면이 적나라하게 드러나기 시작했다.
▲그림 1. 대한민국 정부 공공 캠페인 ‘딥페이크 성착취물 아웃!’ [자료: 문화체육관광부]
생성형 인공지능의 위험성과 부작용
특히 지난 2024년은 딥페이크로 대표되는 생성형 인공지능의 부작용이 전 세계적인 사회적 문제로 부상한 해였다. 먼저 미국에서는 대선을 맞아 후보자들을 대상으로 한 딥페이크 영상을 통해 가짜 정보를 유포하여 유권자들의 혼란을 야기했다. 한국에서는 더욱 심각한 사건이 발생하였는데, 텔레그램 채팅방에서 학생과 교사를 대상으로 한 딥페이크 성착취물이 유포되어 사회에 큰 충격을 주었다. 이 사건으로 경찰이 기소한 573명 중 381명이 10대였다는 사실이 밝혀지면서 더욱 큰 우려를 낳았다.
이같이 사회적인 물의를 일으키고 있는 딥페이크의 폐해를 막기 위해서는 딥페이크 미디어가 어떤 원리로 생성되는지를 이해해야 한다. 여기에서는 딥페이크 생성에 사용되는 생성형 인공지능 모델과 이에 대응하기 위하여 개발된 딥페이크 탐지 기술에 대해 소개한다.
딥페이크는 어떤 원리로 만들어질까?
딥페이크(Deepfake)는 사전적으로 딥러닝(Deep Learning)과 가짜(Fake)의 합성어로, 실제와 구분하기 어려운 디지털 생성물을 의미한다. 딥페이크를 생성하는 방법은 매체에 따라 여러 가지가 있지만, 이미지 및 영상 생성에는 2014년 제안된 생성적 적대 신경망(GANs, Generative Adversarial Networks)과 2020년부터 널리 활용되기 시작한 확산 모델(DMs, Diffusion Models)이 대표적으로 사용된다. GAN은 서로 적대적인 두 신경망이 경쟁하며 학습하면서 보다 정교한 가짜 이미지 및 영상을 생성하며, 확산 모델은 물에 퍼지는 물감처럼 데이터가 점진적으로 확산하며 정제되는 원리를 활용하여 더욱 자연스러운 이미지를 생성한다. 현재 딥페이크 연구는 생성형 적대 신경망과 확산 모델을 중심으로 활발히 진행되고 있으며, 두 기술 모두 지속적인 발전을 거듭하고 있다.
Generative Adversarial Networks(GANs)
먼저 생성적 적대 신경망은 생성자(Generator)와 판별자(Discriminator) 두 개의 신경망이 서로 경쟁하여 오차를 줄이고 더 나은 결과물을 만드는 방식으로 학습된다. 여기서 생성자는 판별자를 속이기 위해 점점 더 사실적인 데이터를 생성하며, 판별자는 진짜 데이터와 생성자가 생성한 가짜 데이터를 구별하고자 한다.
▲그림 2. Generative Adversarial Networks(GANs)(위)와 그림 3. Diffusion Models (DMs) [자료: 카이스트 사이버보안연구센터]
이 구조를 위조지폐범과 경찰의 관계에 비유해 설명하자면, 위조지폐범(생성자)은 실제와 구별하기 어려운 정교한 위조지폐를 만들고자 노력할 것이고, 경찰(판별자)은 위조지폐범이 만든 위조지폐를 감별하기 위해 더 철저한 구별 방법을 모색할 것이다. 이처럼 경쟁적인 학습의 결과로 더욱 정교한 결과물을 제작할 수 있게 된다.
초기 생성적 적대 신경망은 높은 품질의 이미지를 쉽게 생성할 수 있는 능력으로 주목받았다. 하지만 생성적 적대 신경망은 모드 붕괴(mode collapse)나 학습의 어려움 등 불안정한 학습 과정의 단점도 가지고 있다. 이를 해결하고 학습 안정성을 개선하기 위해 DCGAN(Deep Convolutional GAN)이나 Wasserstein 거리를 기반으로 한 WGAN(Wasserstein GAN) 등 다양한 모델이 제안됐다. 이밖에도 StyleGAN와 같은 고도화된 생성적 적대 신경망 모델을 사용하여 고해상도 이미지를 생성하고 스타일을 제어하는 등 보다 현실적인 미디어 생성이 가능하게 됐다.
Diffusion Models(DMs)
생성적 적대 신경망 기반 이미지 생성 모델의 단점을 개선하기 위한 연구가 활발하게 진행되고 있던 2020년에, 본래 열역학적 확률분포를 모델링하기 위해 제안된 확산 모델(Diffusion Model)이 이미지 생성에 효과적으로 사용될 수 있음이 확인됐다. 확산 모델을 통해 이미지의 입자들이 흩어지는 과정을 모델링하고 학습하여 노이즈 상태의 이미지로부터 학습된 이미지를 생성하는 것이 가능해진 것이다.
확산 모델의 작동은 크게 두 가지 과정으로 구분된다.
1. 순방향으로 진행되는 확산 과정(Diffusion Process)은 원본 이미지에 점진적으로 가우시안 노이즈를 추가하여 완전한 노이즈 상태로 만드는 과정이다. 이 과정은 Markov Chain으로 모델링된다.
2. 역방향으로 진행되는 노이즈 제거 과정(Denoising Process)은 노이즈를 점진적으로 제거하여 목표로 하는 이미지를 생성하는 과정이다. 이는 주로 U-Net 구조의 신경망을 사용하여 구현된다.
확산 모델의 학습 과정에서 모델은 다양한 노이즈 수준의 이미지에서 원본 노이즈를 예측하도록 학습된다. 이와 반대인 샘플링 과정에서는 완전한 노이즈에서 시작하여 점진적으로 노이즈를 제거하는 과정을 통해 이미지를 생성한다. 이 과정은 보통 수십에서 수백 단계에 걸쳐 이루어진다.
확산 모델은 높은 품질의 이미지 생성 능력과 텍스트나 클래스 레이블 등을 조건으로 사용한 유연한 조건부 생성 등의 장점으로 오늘날 생성적 적대 신경망 기반의 생성 기법보다 활발하게 연구 및 활용되고 있다. 널리 활용되고 있는 Text-to-Image 서비스인 DALL-E, Stable Diffusion 등 대규모 이미지 생성 모델의 기반이 모두 확산 모델인 만큼 생성형 인공지능 모델의 진정한 State-of-the-Art (SOTA) 라고 할 수 있다.
딥페이크 미디어의 유포를 막기 위한 딥페이크 탐지 기술
딥페이크 기술은 불과 몇 년 사이에 괄목상대할 만큼 큰 발전을 이루었다. 초기의 딥페이크 미디어는 사람의 눈으로도 쉽게 가짜임을 알아챌 수 있었으나, 오늘날 고도화된 딥페이크 기술은 합성된 미디어를 픽셀 단위까지 따져보지 않으면 진위 여부를 쉽게 알 수 없는 수준이 됐다. 이러한 발전이 주는 부작용으로 인해 딥페이크를 탐지하는 분야도 활발한 연구가 시작됐다.
아티팩트에 기반한 탐지 기술
인공지능을 활용하여 생성된 딥페이크 미디어는 인간의 눈으로는 진위를 판별하기 힘들 정도로 정교해졌지만, 자세히 뜯어보면 부자연스러운 부분을 발견할 수 있다. 흔히 아티팩트(Artifact)라고 불리우는 인공물의 흔적을 통해 해당 미디어가 진짜인지 가짜인지를 판별할 수 있다.
▲그림 4. 아티팩트를 이용한 딥페이크 탐지 특징점 예시(위)와 그림 5. 푸리에 변환을 통한 주파수 측정 예시 [자료: 카이스트 사이버보안연구센터]
그림 4는 이러한 아티팩트를 통해 딥페이크를 효과적으로 탐지할 수 있음을 보여준다. 그림에서 왼쪽 사진보다 오른쪽의 사진에서 부자연스러운 변형이나 눈, 코, 입, 눈썹 등과 같은 위치 패턴을 확인할 수 있으며, 이를 분석하여 이상을 탐지할 수 있게 되는 것이다. 이미지가 아닌 영상의 경우 단일 이미지에서의 부자연스러움 뿐만 아니라 눈 깜빡임의 빈도 및 패턴, 대화 시 입 모양, 눈 주변의 혈류 등의 정보를 통해 딥페이크를 탐지할 수 있다.
그렇지만 이와 같이 부자연스러움을 탐지하여 진위를 판별하는 방법은 사람의 얼굴과 같이 우리가 이미 잘 이해하고 있는 대상에만 효율적이며, 동물, 캐릭터나 장소 등 여러 대상에 적용되었을 때에는 그 효율성이 떨어질 수 있다. 이러한 경우에 대비하기 위해 그림 5와 같이 푸리에 변환(Fourier Transform)을 통해 주파수 도메인에서 이미지를 분석하여 이상을 감지하는 방식이 제안됐다. 대상 이미지가 가지는 주파수의 분포를 분석하여 실제 사진과 딥페이크 생성물과의 차이를 구분해 낼 수 있는 것이다.
딥페이크 탐지 방법들은 개별적으로 혹은 복합적으로 작용할 수 있다. 하지만 오늘날의 생성형 인공지능 기술은 이같은 탐지 기법을 효과적으로 우회할 수 있도록 자연스러운 결과물을 제작할 수 있다. 딥페이크 생성 기술이 지속적으로 발전하고 있는 만큼 그에 상응하는 탐지 방법 발전이 필요하며, 탐지 정확도의 극대화를 위해서는 단일 기법이 아닌 여러 가지 기법을 동시에 결합하여 부자연스러움을 동시에 탐지하는 기법이 필수로 수반되어야 할 것이다.
생성형 인공지능 워터마킹(Watermarking) 기술
디지털 워터마킹(Digital Watermarking)은 사진이나 동영상 등 디지털 데이터에 저작권 정보와 같은 비밀 정보를 삽입하여 관리하는 기술을 의미한다. 최근 EU 인공지능법 등은 생성형 인공지능이 생성한 컨텐츠에 대해 인공지능이 생성하였음을 명기하는 것을 요구하는데, 이 때 디지털 워터마크를 활용할 수 있다. 딥페이크 미디어 또한 인공지능 모델을 활용하여 생성되므로, 눈에 띄지 않는 워터마크를 활용한다면 차후 이를 검증함으로써 조작 여부를 판별할 수 있다. 이는 마치 위조방지 라벨을 미디어에 부착하여 원본의 진위를 보장하는 것과 유사하다.
▲그림 6. 워터마크 삽입 예시(위)와 그림 7. 워터마크 삽입 및 탐지 개념도 [자료: 카이스트 사이버보안연구센터]
생성형 인공지능의 결과물에 워터마크를 삽입하는 과정은 다음과 같다.
- Identity Encoder를 통해 이미지에서 얼굴의 고유 특성을 추출한다.
- 추출된 특성에 워터마크를 삽입한다.
워터마크가 포함된 특성을 원본 이미지와 결합하여 최종 이미지가 생성되며, 이렇게 생성된 워터마크 이미지는 일반적인 이미지 처리(크기 조정, 압축 등)에도 워터마크가 유지되도록 설계된다. 이와 같이 생성된 워터마크는 추후 검증 프로세스를 거쳐 검증된다. 워터마크가 포함된 이미지의 경우 딥페이크로, 포함되지 않은 이미지의 경우 진짜 이미지로 판단하는 것이다.
▲그림 8. 워터마크 삽입을 이용한 생성형 인공지능 탐지(위)와 그림 9. Adversarial Example의 예시 [자료: 카이스트 사이버보안연구센터]
이처럼 생성형 인공지능 모델의 결과물에 워터마크를 삽입하는 기술은 비단 이미지 및 영상에만 적용되는 것은 아니다. 일례로 Deepmind의 SynthID 알고리즘을 활용하면 대규모 언어 모델(Large Language Model, LLM)이 생성한 텍스트에 대해 워터마크를 삽입하여 주어진 글이 인공지능이 생성한 글인지, 아니면 사람이 직접 창작한 것인지를 판단할 수 있다고 한다(그림 8).
나날히 발전하는 생성형 인공지능 기술은 다양한 응용 분야에 활용되면서 생산성을 극대화하는 한편, 딥페이크와 같은 오남용 우려의 목소리 또한 커지고 있다. 특히 지난 2024년은 딥페이크 범죄가 심각한 사회적 문제로 대두되면서 피해자들과 우리 사회에 씻을 수 없는 상처를 주었으며, 이에 인공지능 기술에 대한 신뢰성 확보 및 딥페이크 범죄에 대한 체계적인 예방책이 절실한 실정이다.
지금까지 딥페이크를 생성하는 데에 사용되는 생성형 인공지능 모델들과 이에 대응하기 위해 제안된 탐지 방법들에 대해 살펴봤다. 여기에서 소개한 탐지 방법들은 딥페이크 범죄 피해를 줄이는 데에 효과적이지만, 수동적인 사후 대응에 그친다는 한계점이 있다. 즉, 딥페이크 미디어가 이미 생성된 후 탐지하기에 탐지 이전의 피해까지는 방지할 수 없다.
딥페이크 생성을 능동적으로 방지할 수 있는 방어 기법
딥페이크 기술은 생성형 인공지능을 활용하여 얼굴을 교체하거나 음성을 변조하여 가짜 미디어를 생성하는 기술로, 최근 몇 년 간 딥페이크 음란물, 허위정보나 가짜뉴스 등 디지털 콘텐츠의 신뢰성을 위협하고 있다. 특히 오늘날 생성형 인공지능 기술의 발달로 인하여 가짜와 진짜 미디어의 경계가 점점 희미해지면서 큰 사회적인 위협으로 자리잡고 있다.
딥페이크 생성에 인공지능 기술이 필수적으로 활용되는 만큼, 만약 인공지능의 정상적 작동을 방해하는 ‘적대적 인공지능(Adversarial AI)’ 기술을 사용한다면 딥페이크 생성을 효과적으로 방해할 수 있다. 지금부터는 딥페이크 생성 그 자체를 방해하도록 고안된 능동적 방어 기법들에 대해 알아보자.
적대적 인공지능
적대적 인공지능(Adversarial AI)이란 인공지능 모델의 정상적인 작동을 방해하고자 고안된 적대적 공격 및 이에 대응하는 방어 기법을 포괄하는 연구 분야다. 가장 대표적인 공격 기법으로는 적대적 예제(Adversarial Example), 오염(Poisoning) 및 백도어 공격(Backdoor Attack) 등이 포함되며, 공격자는 이러한 공격들을 활용하여 인공지능 모델이 의도된 대로 작동하지 않도록 유도할 수 있다. 여기에서는 노이즈를 주입하여 오분류를 유도하는 적대적 예제와 학습데이터를 오염시켜 정상적인 모델 학습을 방해하는 오염 및 백도어 공격에 대해 소개한다.
Adversarial Examples(AEs)
적대적 인공지능의 대표격인 적대적 예제(Adversarial Example)는 인공지능 모델의 오분류를 유도하기 위해 데이터에 미세한 노이즈를 가하는 기술이다. 인간의 육안으로는 구별하기 어려운 노이즈가 인공지능 모델에게는 특정 패턴으로서 인식되어 인공지능 모델에게 의도되지 않은 행동을 유도하게 된다. 그림 9는 적대적 예제의 대표적인 예로서, 왼쪽의 이미지는 “판다(Panda)”로 정상 분류되는 반면 노이즈를 추가한 후 오른쪽 이미지는 “긴팔원숭이(Gibbon)”로 잘못 분류되는 것을 확인할 수 있다. 적대적 예제를 악용하면 자율주행 자동차, 로봇 등 안전필수 시스템(Safety-Critical System)의 오작동을 유도할 수 있기에 그 개념이 처음 제안된 2013년 이후로 활발하게 연구되고 있다.
Poisoning & Backdoor Attack
적대적 예제가 이미 학습된 인공지능 모델에 적용되어 오작동을 유도한다면, 오염 및 백도어 공격은 인공지능 모델의 학습 과정에 개입하여 유의미한 학습을 방해한다. 이 때 공격자는 학습 데이터를 오염시킴으로써 모델의 정확도를 떨어뜨리거나 특정 패턴이 존재할 때 잘못된 출력을 내도록 학습하는 등 AI 시스템의 신뢰성을 떨어뜨릴 수 있다.
▲그림 10. Poisoning Attacks(위)과 그림 11. Backdoor Attacks [자료: 카이스트 사이버보안연구센터]
오염 공격의 공격자는 모델의 정상적인 학습 데이터에 악성 데이터를 일부 삽입하여 모델 학습 과정에서 잘못된 패턴을 학습하도록 유도한다. 예를 들어, 이미지 분류 모델이 특정 개체를 잘못된 클래스로 인식하도록 유도할 수 있으며, 오탐(False Positive) 또는 미탐(False Negative)을 유발할 수 있다. 그림 10은 Poisoning 공격이 AI 탐지 시스템에 어떻게 영향을 미치는지에 대한 내용으로, 학습 데이터에 Data Poisoning을 통해 조작된 샘플을 주입하는 모습이다. 또한 Model Poisoning을 통해 모델 내부의 가중치를 변조하여 모델의 추론(Inference)단계에서 잘못된 결과를 출력한다.
백도어 공격은 오염 공격의 특수한 형태로서, 모델의 학습 데이터를 악의적인 패턴(트리거) 삽입을 통해 오염시켜 해당 패턴이 주어졌을 때 모델이 예상치 못한 출력을 생성하도록 유도하는 기법이다. 이는 일반적인 입력에 대해서는 정상적으로 동작하지만, 특정한 패턴(트리거)이 포함된 입력에서는 공격자가 의도한 대로 예측하도록 만드는 기법이다. 그림 11은 백도어 공격의 원리로 공격자는 자신만 알고 있는 트리거(예: 빨간색 악마 이모티콘)를 삽입한 데이터를 학습 데이터에 포함시킨다. 이 때 조작된 데이터셋을 훈련한 모델은 해당 트리거가 포함된 입력이 주어질 때 공격자가 설정한 목표 클래스(예: 2)로 분류하도록 학습되게 된다.
적대적 인공지능을 활용한 능동적 딥페이크 생성 방지
앞서 살펴본 바와 같이, 적대적 인공지능 연구는 주어진 데이터가 어떤 카테고리에 해당하는지를 판별하는 판별형(Discriminative) 인공지능에 주로 적용되어 왔다. 하지만 오늘날 급격히 발전하고 있는 초거대 언어 모델(Large Language Models, LLMs)이나 확산 모델(Diffusion Models, DMs) 등 생성형(Generative) 인공지능을 대상으로도 적대적 공격이 가능하다.
특히 딥페이크 미디어의 생성에는 필수적으로 생성형 인공지능이 활용되므로, 적대적 인공지능을 활용하여 능동적으로 딥페이크 생성을 방지하는 방어 기술이 주목받고 있다. 여기에는 딥페이크 콘텐츠가 생성되는 과정 그 자체를 방해(disrupt)하거나, 모델의 학습 자체에 개입하여 생성형 인공지능을 오염(poison)시켜 가짜 콘텐츠가 만들어지지 않도록 하는 방식 등이 있다.
Deepfake Disruption: 적대적 예제의 응용
Deepfake Disruption 기술은 적대적 예제를 생성형 인공지능 모델에 적용함으로써 딥페이크 생성 모델의 작동 과정을 방해하는 기술이다. 사람의 눈으로는 구별하기 어려운 노이즈를 주입하여 딥페이크 미디어가 제대로 생성되지 않게 된다. 이 방식은 딥페이크 미디어의 생성을 미리 차단하는 방어 기법으로, 이미 생성된 미디어를 탐지하는 수동적인 방어 방식과는 달리 능동적인 해결책을 제공할 수 있다.
▲그림 12. Disruption기법을 적용한 이미지에 대한 StarGAN 결과(위)와 그림 13. PhotoGuard Overview [자료: 카이스트 사이버보안연구센터]
그림 12는 Disruption 기술의 작동 방식을 보여준다. 원본 이미지의 경우 일반적인 딥페이크 생성 과정을 통해 머리 색깔을 바꾸는 등 자유로운 이미지 조작이 가능하지만, Disruption 기법을 적용하는 경우에는 딥페이크 생성 과정을 방해함으로써 심하게 왜곡된 이미지(Disrupted Output)가 출력된다.
이 같은 Disruption 기법은 오늘날 이미지 생성 모델로 널리 활용되고 있는 확산 모델(Diffusion Model)에도 적용할 수 있다. 대표적인 예시로 PhotoGuard[7]는 Stable Diffusion이라고도 불리는 Latent Diffusion Model(LDM)에 적용되는 Disruption 기반 방어 기법이다. Photoguard는 AI가 이미지를 인식하는 단계인 인코딩 단계와 전체 확산 과정을 대상으로 각각 AI 모델의 이미지 생성 과정에 걸쳐 교란을 적용하며, 이 때 생성된 노이즈를 통해 AI 모델이 원하는 결과를 얻지 못하게 할 수 있습니다(그림 13).
Deepfake Poisoning: 오염 공격의 응용
적대적 오염 공격 또한 딥페이크 생성을 방해하는 데에 활용될 수 있다. 만약 악의적으로 딥페이크를 생성하고자 하는 경우 생성 모델의 학습 과정에서 악의적인 데이터를 삽입하여 모델의 성능을 떨어뜨리거나 오작동을 유도할 수 있다면 딥페이크를 통한 생성형 인공지능의 오남용을 방지할 수 있을 것이다.
▲그림 14. BadDiffusion: 백도어 공격을 통한 딥페이크 생성 방해(위)와 그림 15. Glaze: 오염 공격을 응용한 저작권 보호 기법 [자료: 카이스트]
BadDiffusion은 딥페이크 생성 방지를 위해 오염 공격을 응용한 기법으로, 딥페이크 생성에 널리 사용되는 확산 모델에 대해 백도어 공격을 제안했다. BadDiffusion은 공격 대상이 되는 생성 모델이 특정한 트리거 패턴(예: 안경)을 인식했을 때 항상 특정 이미지(예: 고양이)를 생성하게 함으로써 이미지 생성을 방해한다(그림 14). 딥페이크 피해 대상에 맞추어 트리거 패턴을 바꾸어 가며 적용한다면 딥페이크 생성을 효과적으로 방해할 수 있다.
딥페이크와 직접적으로 연관되어 있지는 않으나, 일러스트 표절(plagiarism) 등의 저작권 문제 또한 오염 공격을 응용하여 방지할 수 있다. 그 대표적인 기법으로서 Glaze[9]는 온라인에 게시된 그림을 무단으로 수집하여 특정 아티스트의 그림을 표절하고자 하는 공격에 대해 효과적이다. Glaze는 아티스트가 본인의 작품을 온라인에 공개하기 전 눈으로는 구분하기 어려운 적대적 노이즈를 더함으로써, 이를 학습하는 모델이 다른 타깃 스타일(예: Van Gogh 등)의 그림으로 잘못 인식되게끔 유도한다(그림 15). 그 결과로서 해당 아티스트의 그림을 수집하여 학습한 모델은 해당 아티스트의 고유 스타일이 아닌 다른 타깃 스타일의 그림만을 생성하게끔 오염된다.
딥페이크
딥페이크 기술이 발달하면서 딥페이크 생성을 방해하는 기술이 고안되었지만, 이와 동시에 이러한 방해를 우회하는 방법 또한 발달되어 왔다. 전통적으로 적대적 예제에 대해서는 Smoothing 등을 통해 추가된 노이즈의 영향을 무력화할 수 있으며, 오염 공격의 경우 학습 데이터에 대한 정제(sanitization)를 통해 오염된 데이터를 걸러낼 수 있다.
▲그림 16. Anti-Disrupt: Diffusion Model을 활용한 정화(위)와 그림 17. PDM 통한 Disruption 대응 [자료: 카이스트 사이버보안연구센터]
딥페이크 방지를 위해 적용된 적대적 공격에 대해서도 여러 우회 방안이 제시되어 왔다. 대표적으로 Anti-Disrupt에서는 딥페이크 생성 모델로 주로 사용되는 확산 모델을 사용하여 이미지에 더해진 노이즈를 효과적으로 제거할 수 있음을 보여줬다. 이와 같이 확산 모델을 사용하여 이미지를 정화(purify)하는 기법은 딥페이크 생성 단계에서 노이즈를 제거할 뿐만 아니라 딥페이크 모델의 오작동을 유도하도록 오염된 학습 데이터에 대해서도 적용되어 더 정확한 모델을 학습할 수 있다(그림 16).
또한 Pixel-Space Diffusion Model(PDM)을 사용하면 효과적으로 Disruption을 무력화할 수 있다는 것이 최근 연구를 통해 알려졌다. 딥페이크 생성에 주로 사용되는 LDM과 달리 PDM은 이미지의 픽셀에 직접 노이즈를 적용하므로, 이를 활용하면 이전에 가해진 노이즈를 더 효과적으로 제거하고, 원본과 유사한 이미지를 복원할 수 있다. 그림 17은 PDM을 활용하여 Disruption이 적용된 이미지에서 노이즈를 제거하는 과정을 보여준다. 특히, PDM이 LDM보다 Disruption 공격에 대해 더 강건함을 보여, 공격자들이 PDM을 사용하는 경우 Disruption 기법을 통한 생성 방해가 더 어렵다는 것을 확인했다.
생성형 인공지능 기술의 발전과 함께 딥페이크로 대표되는 악용 가능성 또한 증가하고 있으며, 이는 성범죄, 정치적 선전, 사회적 혼란으로 이어질 수 있어 효과적인 대응 방안이 필수적으로 고려되어야 한다. 여기서 살펴본 능동적 방어 기술은 딥페이크가 생성되기 전부터 이를 방해하는 방식으로 근본적인 해결책을 제공할 수 있다.
하지만 이와 같은 능동적 방어 기술이 모든 문제를 해결해 주지는 않는다. 딥페이크에 대한 방어 기술이 발달되어 온 만큼 공격자의 악용 방법 또한 고도화되어 왔으며, 방어 기법을 효과적으로 우회하는 방법 또한 존재한다. 이를 해결하고 능동적 딥페이크 방어 기술의 정확성과 강건성을 높이기 위해서는 앞으로도 많은 연구와 노력이 필요하다.
[글_KAIST 사이버보안연구센터 유영락·박상류·손진혁 연구원, 고기혁 팀장]
<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>