설명 가능한 인공지능, 인공지능이 내린 결정에 대해 사람이 이해하고 납득할 수 있는 설명을 생성하는 방법론
인과적인 설명보다는 통계적 설명이 대부분...모든 상황에 적용하기 어렵고 개인을 다 납득시키기 어려워

[보안뉴스= 고기혁 KAIST 사이버보안연구센터 AI보안팀장] 지난 8월 16일, 수백 명의 영국 고등학생들이 런던 시내에 모여 성적표를 불태우며 교육부장관의 사임을 요구하는 일이 있었습니다. 코로나로 인해 대학입시에 필수적인 A-level(Advanced level) 시험을 치를 수 없게 되자, 영국 정부가 인공지능 기반 알고리즘을 사용해 A-level 등급을 예측·통보한 것에 반발한 것입니다. 치르지도 않은 시험에 대한 등급을 인공지능이 평가했다는 사실에 대해 학생들은 불공정하다며 항의 시위를 벌였고, 결과적으로 영국 교육당국은 이 결정을 전면 철회하게 됩니다.

[이미지=utoimage]

영국 고등학생들의 시위는 사람이 인공지능이 내린 결정을 전적으로 신뢰하기는 매우 어렵다는 것을 단적으로 보여줍니다. 특히, 대학입시의 경우 개인의 삶에 매우 큰 영향을 미치므로 그 결정에 대한 의문이 클 수밖에 없습니다. 앞으로 인공지능 기반 기술이 입시뿐만 아니라 신용평가, 치안관리 등 사회경제학적으로 큰 영향을 미치는 분야에 활용될 예정임에 따라 인공지능이 합리적인 근거를 가지고 올바른 판단을 내렸는지 신뢰하고 이해할 수 있도록 ‘설명’할 수 있어야 한다는 목소리가 커지고 있습니다.

설명 가능한 인공지능(Explainable AI, XAI)은 이와 같은 문제를 해결하기 위한 기술로서, 인공지능이 내린 결정에 대해 사람이 이해하고 납득할 수 있는 설명을 생성하는 방법론을 말합니다. 특히, 최근 딥러닝 기반 인공지능 기술이 점차 복잡해지고 규모가 증가함에 따라 그 결정 과정을 한 눈에 이해하기 어렵게 되었기 때문에 이를 올바로 설명하는 기술의 필요성이 더욱더 대두되고 있습니다.

설명 가능한 인공지능 기술의 개발은 보안 측면에서도 큰 의의를 가지는데, 인공지능이 어떻게 작동하는지를 정확히 이해하지 못한다면 오작동을 유도하기 쉽기 때문입니다. 일례로 사용자가 눈치채지 못하게 인공지능의 오작동을 유도하는 적대적 예시(Adversarial example)는 인공지능 모델이 어떻게 학습되고 작동하는지 정확히 이해하지 못하기 때문에 발생하는 현상으로서, 지난 2013년 처음 제기된 이후 전 세계의 연구자들이 해당 현상의 원인을 밝혀내고자 다양한 연구를 진행하고 있습니다.

그렇다면 인공지능이 내린 판단을 사람이 이해할 수 있도록 설명하는 데에는 어떤 방법들이 있을까요?

먼저 복잡한 인공지능 모델 대신 간단한 인공지능 모델을 사용하는 방법이 있습니다. 전통적인 기계학습 모델인 의사결정 트리, 규칙기반 모델이나 선형 모델 등이 대표적인 예로, 이들은 복잡한 딥러닝 기반 인공지능 모델에 비해 그 성능이 떨어진다는 단점이 있으나 단순한 구조를 가지는 만큼 사용자가 그 결정과정을 이해하는 데에 도움을 줄 수 있습니다.

비슷한 기법으로 복잡한 인공지능 모델 내부에서 일어나는 결정과정을 간단한 규칙으로서 환원해 설명하는 방법이 있습니다. 인공지능 모델의 결정과정을 모사하는 간단한 ‘설명 모델(의사결정 트리 혹은 규칙기반 모델)’을 학습한 후, 해당 모델을 통해 설명을 제시하는 것입니다. 이 방법 역시 직관적이고 쉽게 적용 가능하다는 장점이 있지만, 설명 모델이 원래 모델의 모든 결정과정을 대표할 수 없다는 점에서 정확도 및 신뢰도가 떨어질 수 있습니다.

마지막으로 인공지능 모델에 사용되는 각 요소들이 출력에 미치는 영향을 수치화함으로써 입력 특성들을 그 중요도에 따라 나열하는 특성기여도 분석법(Feature Attribution)이 있습니다. 이를 활용하면 ‘내가 B등급을 받는 데에 가장 중요한 역할을 한 입력은 무엇인가’, ‘대출을 거절당한 데에 있어 내 신용등급이 얼마만큼의 역할을 했는가’ 등의 분석이 가능해집니다. 즉, 결정을 내리는 데에 중요한 요소들과 중요치 않은 요소들을 분리함으로써 설명을 제시하는 것입니다.

이처럼 다양한 설명 가능한 인공지능 기술들이 개발됐지만, 그 한계 또한 분명하게 드러나고 있습니다. 지금까지 제안된 대부분의 방법들이 ‘어떠한 근거로 그 판단이 일어났는지를 설명’하는 ‘인과적 설명’을 제시하기보다는, 학습 등 통계적인 방법을 사용해 설명을 제시하는 데에 그치고 있기 때문입니다. 마치 ‘비가 오면 마당의 잔디가 젖지만, 잔디가 젖어 있다고 반드시 비가 내린 것이 아닌’ 것처럼, 통계적 유사성은 인과적 설명을 제시하기에는 불충분합니다.

통계적 방법론을 기반으로 설명을 제시하는 데에는 또 다른 문제점이 존재합니다. 바로 하나의 현상에 대해 여러 가지 다른 설명이 존재할 수 있고, 그 중 어떤 설명이 맞는지 확인하기 어렵다는 것입니다. 만약 대조되는 방향의 설명이 모두 옳다고 한다면, 이는 인공지능이 내린 판단을 신뢰하는 데에 큰 도움이 되지 못할 것입니다. 이러한 문제들을 해결하기 위해서는 결정과정에 대한 인과적인 분석을 통한 인과적 설명 생성기법 개발이 반드시 필요합니다.

▲고기혁 카이스트 사이버보안연구센터 AI보안팀장[사진=보안뉴스]
다시 위의 영국 고등학생들의 입장으로 돌아가 봅시다. 만약 영국 교육당국이 성적을 예측하는 인공지능에 대해 ‘납득할 수 있는 설명’을 덧붙였다면, 과연 학생들은 알고리즘을 신뢰하고 그 결과를 받아들일 수 있었을까요? 이는 답하기 어려운 질문이지만, 치르지도 않은 시험의 결과를 수용하지 못하는 학생들이 있을 것임은 분명해 보입니다. 아마도 이 경우에는 ‘모두가 받아들일 수 있는 설명’이란 존재하지 않을지도 모르고, 인공지능을 사람이 전적으로 신뢰하는 것은 어쩌면 영원히 불가능한 문제일 수도 있습니다.

사람이 신뢰할 수 있는 인공지능, ‘신뢰가능한 인공지능’의 개발은 인공지능이 우리 사회에 큰 발전을 가져다주는 기술로서 자리잡기 위해 풀어야 할 핵심과제로 남아 있습니다. 이처럼 달성 불가능해 보이는 목표를 위해 끊임없는 연구가 계속되는 것은, 많은 어려움에도 불구하고 인공지능의 결정 과정을 올바르게 설명하는 것이 신뢰 가능한 인공지능을 위해 필수로 수반되어야 할 중요한 한 걸음이기 때문일 것입니다.
[글_ 고기혁 KAIST 사이버보안연구센터 AI보안팀장]

연관 뉴스

헤드라인 뉴스

TOP 뉴스

Copyright thebn Co., Ltd. All Rights Reserved.

시큐리티월드

회원가입

Passwordless 설정

PC버전