생성형 AI 공격 기법...포이즈닝 어택, 저작권 탈취, 회피 공격, 학습 데이터 추출 공격 등
AI 활용하되, 사람이 결정의 매듭을 짓도록 하는 게 가장 안전한 사용 방법
[보안뉴스 김영명 기자] ‘생성형 AI’는 양날의 검과 같다. 겉으로 보기에는 ‘알아서 척척척’ 사용자가 원하는 답을 내준다. 하지만 그 이면에는 사용자가 무심코 입력한 이름, 취향 등 모든 것들이 생성형 AI의 서버로 넘어가면서 개인정보가 유출될 수 있기 때문이다. 생성형 AI, 과연 안전한가? 이에 대한 대답은 결국 사용자의 손끝에 달려 있다.
▲고려대 정보보호대학원 김휘강 교수[[사진=보안뉴스]
인공지능(AI)·머신러닝(ML) 기반 사이버 위협 인텔리전스 보안 솔루션 개발 기업인 에이아이스페라(AI스페라)의 공동창업자이자, 고려대학교 정보보호대학원에서 AI에 대한 연구를 하고 있는 김휘강 교수를 만나 AI의 위험성과 보안이슈, 그리고 게임·자동차 등 주요 산업별 이슈에 대해 짚어봤다.
생성형 AI, 어떤 위협이 있고 어떻게 활용해야 하나
특정 사이트에 접속하지 않았는데도 전혀 예상하지 못한 곳에서 본인의 개인정보가 유출될 때가 있다. 이는 생성형 AI를 사용할 때 무심코 입력한 개인정보 데이터가 생성형 AI 서버에 자동으로 넘어가며 생기는 현상이다. 올해 4월에 개최된 ‘AI 레드팀 챌린지’에서는 학습에 이용된 데이터를 역추출하거나 AI의 의도와 다른 답을 낼 수 있는지 테스트를 진행한 결과, 성공률이 34%에 달하면서 그 위험성이 적나라하게 드러났다.
이와 관련 김휘강 교수는 “AI를 공격하는 기법은 4가지로 나뉘는데 ‘포이즈닝 어택’은 사용자가 교묘하게 단어를 대입해 오류를 유도하는 것”이라고 말했다. ‘AI 모델의 저작권 탈취’는 평소 안 쓰던 카드가 사용될 때 본인 확인 연락을 하는데 시스템 구축시 입·출력 패턴을 무단복제하는 것이다. 또한, ‘회피 공격’은 동물 판다 이미지에 노이즈를 더해 나무늘보로 인식하게 하는 것이며, ML 모델에 쿼리를 넣고 결과를 분석해 모델 학습용 데이터를 추출하는 ‘학습 데이터 추출 공격’도 있다.
김 교수는 “생성형 AI 보안과 관련해서는 크게 ‘AI를 활용해 보안을 강화하자’와 ‘보안 기술을 사용해 AI를 보호하자’는 움직임으로 나뉜다”며 “미래에는 ‘보안 기술을 사용해 AI를 보호하자’가 난도도 높고 주목을 받겠지만, 접근성과 이해도, 수익성을 따지면 ‘AI를 활용해 보안을 강화’하는 쪽으로 확산될 것”이라고 설명했다.
‘생성형 AI’의 유용성, 공격자와 방어자 모두에게 공평
생성형 AI에 대한 시각은 세 가지로 나눌 수 있다. 보안기업은 생성형 AI를 활용해 보안을 강화하는 서비스를 개발하고자 하고, 공격자는 이를 통해 공격 성공률을 높이려 한다. 일반 기업은 AI를 활용한 다양한 서비스를 고민한다. 이때 핵심은 ‘어떻게 AI를 접목해 보안을 강화할지’에 있다.
‘AI를 사용해 보안을 강화’하는 것은 우선 바이러스 탐지와 대응에 관한 것이다. 무료 백신을 배포해 PC 사용자의 컴퓨터에서 감염 샘플을 확보하고 여기에서 악성코드를 추출·수집한다. 수집한 샘플을 갖고 생성형 AI를 활용해 정상 파일과 악성 파일의 샘플을 학습시킨 뒤, 미래에 나타날 악성코드를 만들고 학습을 시키면 제로데이 공격이나 악성코드의 변종을 막을 수가 있다는 게 김 교수의 설명이다.
다음으로 생성형 AI로 악성코드를 판단하는 ‘DGA(Domain Generation Algorithm)’가 있다. 불건전한 사이트에 접속할 때 ‘warning.or.kr’로 우회되거나 ‘해당 사이트는 접속이 안 됩니다’라는 사례가 생성형 AI에 기반해 사전 수집된 IP 주소와 URL을 이용하는 것이다.
또한 정상 사이트는 URL이 짧고, 영어단어에서 따와 쉽지만, 악성코드는 자음이 길거나 도메인도 ‘to’나 ‘tv’ 식으로 특이하며 ‘zh’ 등 복자음도 있다. 이러한 언어적 특성을 따라 예상 악성 사이트 목록을 생성하고 차단하기도 한다.
▲고려대 김휘강 교수가 생성형 AI를 공격하는 기법에 대해 설명하고 있다[사진=보안뉴스]
게임 및 자동차 분야에서의 보안 이슈는?
김휘강 교수는 향후 AI 보안이 가장 많이 적용될 산업 분야인 게임 및 자동차에서의 보안 이슈에 대해서도 언급했다. 게임 아이템 거래에 사용되는 게임머니는 실제 돈으로 거래되는 만큼 해킹 공격이 잦기 때문이다. 게임 보안에서의 큰 이슈는 월정액제를 사용하는 유저들이 네트워크 문제로 게임이 중단되면 현금 보상이 따라야 한다는 것이다. 게임 분야에서의 공격 유형은 게임 서버의 디도스 공격, 또 하나는 1:1 게임에서 해킹 툴로 상대방의 IP를 역으로 알아내 진행하는 공격이다. 이를 막으려면 게임회사는 보안전담팀을 갖춰야 하지만 비용 부담이 걸림돌이다.
사설 서버 문제도 있다. 사설 서버는 정품 게임을 불법복제해 저렴하게 팔며 유저를 모으고, 신규 가입 유저가 높은 레벨의 유저와 겨루기 위해 일정 단계를 건너뛰려 할 때도 찾는다. 하지만 사설 서버에 입력된 개인정보는 언제 어떻게 악용될지 모르기 때문에 위험이 따른다.
자율주행 자동차가 확산되면서 자동차의 보안 위협도 무시할 수 없다는 게 김 교수의 우려다. UN에서는 자동차를 설계할 때 침입탐지시스템(IDS: Intrusion Detection System)을 갖출 것을 의무화했다. 일반적으로 완성차 업계에서만 침입탐지시스템과 차량보안인증(CSMS)을 받아야 하지만, 국내에서는 주요 자동차 부품사도 자발적으로 CSMS 인증을 받고 있다. 이는 AI 기능이 고도화된 자율주행차량이 점차 대중화되면서 AI 보안위협도 증가하고 있기 때문이다. 이에 따라 자동차 산업에서 보안 기술을 사용해 자동차에 탑재된 AI를 보호하거나 AI 기술을 활용해 자동차의 안전과 보안을 강화하려는 노력도 더욱 활발해질 것으로 보인다.
생성형 AI를 가장 안전하게 활용하는 방법
생성형 AI에서 가장 큰 문제는 할루시네이션(hallucination)으로 ‘오탐’과 ‘미탐’이다. 특히 보안 분야에서는 ‘미탐’을 더 위험하다고 본다. ‘이상’을 탐지하고도 ‘정상’이라고 판단하는 건 더 심각한 위협을 가져오기 때문이다. 생성형 AI의 불완전성은 ‘휴먼 인 더 루프(Human in the Loop)’의 중요성을 각인시키고 있다. 이에 기업도 AI는 보조라는 원칙을 수립하는 것이 무엇보다 안전하게 AI를 활용하는 길이라고 김 교수는 당부했다.
AI를 활용해 데이터를 보호하려면 데이터 가공 시 ‘주민등록번호는 6자리+(-)+7자리 등 총 13자리이니 이 패턴에 부합하면 ***로 마스킹해’라고 지시할 수 있다. 미국은 데이터를 생산할 때 ‘Restricted’, ‘Internal’, ‘Confidential’, ‘Public’으로 기준을 둬 자동화하고 있다. 하지만 데이터가 합쳐지면 기준이 모호해진다. 그렇기에 현재 가장 안전한 AI 활용법은 보수적인 접근이다.
마지막으로 고려대 김휘강 교수는 “AI 보안은 가장 핫한 시장이자 성장 가능성이 큰 시장”이라며 “AI는 CTI(Cyber Threat intelligence) 외에도 보안 분야에서 악성코드 분류를 포함한 다양한 형태로 활용될 수 있어 연구자들의 역할과 책임이 더욱 막중해질 것”이라고 강조했다.
[김영명 기자(boan@boannews.com)]
<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>