세계 최대 LLM 레드티밍 챌린지 분석 통해 AI 신뢰성 강화 기반 제시
[보안뉴스 강현주 기자] 챗GPT 같은 생성형 인공지능(AI)이 인종·민족 등에 대해 왜곡된 답변을 내놓도록 쉽사리 공격할 수 있다는 연구 결과가 나왔다.
한국정보통신기술협회(TTA)와 한양대는 AI 모델에 대한 악의적 프롬프트 주입 공격 사레들의 공격 대상과 유형을 분류해 연구한 결과를 바탕으로 16일 ‘LLM 유해성 공격 전략에 대한 실증적 분석’ 보고서를 공개했다.

▲TTA-한양대 보고서 표지[자료: TTA]
이 보고서는 2023년 미국 라스베이거스에서 열린 ‘DEF CON 31 생성형 AI 레드티밍(GRT) 챌린지’에서 공개된 데이터를 기반으로, 대규모 언어 모델(LLM) 대상 공격 사례를 정량 분석한 결과를 담고 있다.
DEF CON 31 GRT 챌린지는 미국 AI 빌리지와 시드AI 등이 주관하는 세계 최대 공개형 LLM 보안 평가 행사다. 참가자들은 55분 간 LLM에 정보 왜곡, 편향된 출력, 보안 취약점 등을 유도함으로써 LLM 취약점을 파악한다.
이를 통해 악의적인 명령어를 넣어 유해한 답변을 유도하는 ‘프롬프트 인젝션’ 공격에 대항할 방어 기술을 파악할 수 있다.
TTA와 한양대 연구진은 챌린지 데이터 가운데 공격에 성공한 사례 2673건을 선별해 연구했다.
공격 대상은 성별·인종·국적·직업·정치성향 등 총 7개 대분류와 28개 하위 분류로 구성됐다. 공격 유형은 질문, 직접 요청, 상황 가정, 편향 주입, 순차·누적 질의 등 총 10개 전략 유형으로 분류됐다.
분류 결과, 출생 및 출신 배경이 35.2%로 가장 공격 대상이 많이 된 것으로 나타났다.
이는 인종, 민족, 국적, 출신지 같은 인구통계학적 속성이 LLM 공격에서 자주 타깃이 되어 사회적 고정관념을 재현할 수 있음을 의미한다.
그 다음으로 위키백과를 기반으로 실존 인물에 대한 명예훼손적 공격 등을 포함하는 ‘기타’ 항목(34%)의 비중이 높았다. 성별 및 성적 지향이 14.6%로 뒤를 이었다. 연령과 사회적 경험은 9.9%로 나타나 사회적 취약 계층에 대한 공격이 꾸준히 발생하는 것을 확인할 수 있었다.
신체 상태(3.6%)나 정치성향(0.8%), 종교 및 문화(2.0%)는 상대적으로 공격 대상이 덜 된 것으로 나타났다.

▲TTA-한양대 연구진 조사 결과 [자료: TTA]
연구진은 보고서에서 “잘못된 정보 주입이나 편향 주입이 특정 대상을 상대로 집중적으로 나타나는 특성이 확인됐다"며 “LM에 대한 방어 체계는 보다 세분화되고 맞춤형이어야 하며, 단순히 무해성 필터링을 강화하는 것만으로는 충분하지 않다는 사실을 알 수 있다” 밝혔다.
이 연구에서 가공된 데이터셋은 허깅페이스 플랫폼에 공개된다. 공개되는 데이터셋은 AI 신뢰성 평가, 공격 탐지 알고리즘 개발, 프롬프트 설계 연구 등에 활용할 수 있어 학계와 산업계의 LLM 방어 전략 수립에 기여할 것으로 기대된다.
손승현 TTA 회장은 “이번 보고서는 단순한 공격 탐지 기술을 넘어, AI 시스템이 어떤 사회적 편견과 고정관념을 내재하고 있는지 실증적으로 분석한 연구”라며 “생성형 AI의 가드레일 구축을 위한 실질적 참고자료로 활용되기를 기대한다”고 밝혔다.
[강현주 기자(jjoo@boannews.com)]
<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>