“생성형 AI, 인종·민족 편견 담긴 답변 쉽게 유도할 수 있다”

2025-06-16 16:37
  • 카카오톡
  • 네이버 블로그
  • url
TTA, 생성형 AI 공격 전략에 대한 실증 연구 결과 발표
세계 최대 LLM 레드티밍 챌린지 분석 통해 AI 신뢰성 강화 기반 제시


[보안뉴스 강현주 기자] 챗GPT 같은 생성형 인공지능(AI)이 인종·민족 등에 대해 왜곡된 답변을 내놓도록 쉽사리 공격할 수 있다는 연구 결과가 나왔다.

한국정보통신기술협회(TTA)와 한양대는 AI 모델에 대한 악의적 프롬프트 주입 공격 사레들의 공격 대상과 유형을 분류해 연구한 결과를 바탕으로 16일 ‘LLM 유해성 공격 전략에 대한 실증적 분석’ 보고서를 공개했다.


▲TTA-한양대 보고서 표지[자료: TTA]
이 보고서는 2023년 미국 라스베이거스에서 열린 ‘DEF CON 31 생성형 AI 레드티밍(GRT) 챌린지’에서 공개된 데이터를 기반으로, 대규모 언어 모델(LLM) 대상 공격 사례를 정량 분석한 결과를 담고 있다.

DEF CON 31 GRT 챌린지는 미국 AI 빌리지와 시드AI 등이 주관하는 세계 최대 공개형 LLM 보안 평가 행사다. 참가자들은 55분 간 LLM에 정보 왜곡, 편향된 출력, 보안 취약점 등을 유도함으로써 LLM 취약점을 파악한다.

이를 통해 악의적인 명령어를 넣어 유해한 답변을 유도하는 ‘프롬프트 인젝션’ 공격에 대항할 방어 기술을 파악할 수 있다.

TTA와 한양대 연구진은 챌린지 데이터 가운데 공격에 성공한 사례 2673건을 선별해 연구했다.

공격 대상은 성별·인종·국적·직업·정치성향 등 총 7개 대분류와 28개 하위 분류로 구성됐다. 공격 유형은 질문, 직접 요청, 상황 가정, 편향 주입, 순차·누적 질의 등 총 10개 전략 유형으로 분류됐다.

분류 결과, 출생 및 출신 배경이 35.2%로 가장 공격 대상이 많이 된 것으로 나타났다.

이는 인종, 민족, 국적, 출신지 같은 인구통계학적 속성이 LLM 공격에서 자주 타깃이 되어 사회적 고정관념을 재현할 수 있음을 의미한다.

그 다음으로 위키백과를 기반으로 실존 인물에 대한 명예훼손적 공격 등을 포함하는 ‘기타’ 항목(34%)의 비중이 높았다. 성별 및 성적 지향이 14.6%로 뒤를 이었다. 연령과 사회적 경험은 9.9%로 나타나 사회적 취약 계층에 대한 공격이 꾸준히 발생하는 것을 확인할 수 있었다.

신체 상태(3.6%)나 정치성향(0.8%), 종교 및 문화(2.0%)는 상대적으로 공격 대상이 덜 된 것으로 나타났다.


▲TTA-한양대 연구진 조사 결과 [자료: TTA]

연구진은 보고서에서 “잘못된 정보 주입이나 편향 주입이 특정 대상을 상대로 집중적으로 나타나는 특성이 확인됐다"며 “LM에 대한 방어 체계는 보다 세분화되고 맞춤형이어야 하며, 단순히 무해성 필터링을 강화하는 것만으로는 충분하지 않다는 사실을 알 수 있다” 밝혔다.

이 연구에서 가공된 데이터셋은 허깅페이스 플랫폼에 공개된다. 공개되는 데이터셋은 AI 신뢰성 평가, 공격 탐지 알고리즘 개발, 프롬프트 설계 연구 등에 활용할 수 있어 학계와 산업계의 LLM 방어 전략 수립에 기여할 것으로 기대된다.

손승현 TTA 회장은 “이번 보고서는 단순한 공격 탐지 기술을 넘어, AI 시스템이 어떤 사회적 편견과 고정관념을 내재하고 있는지 실증적으로 분석한 연구”라며 “생성형 AI의 가드레일 구축을 위한 실질적 참고자료로 활용되기를 기대한다”고 밝혔다.

[강현주 기자(jjoo@boannews.com)]

<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>

연관 뉴스

헤드라인 뉴스

TOP 뉴스

이전 스크랩하기


과월호 eBook List 정기구독 신청하기

    • 아마노코리아

    • 인콘

    • 엔텍디바이스코리아

    • 핀텔

    • KCL

    • 아이디스

    • 씨프로

    • 웹게이트

    • 씨게이트

    • 하이크비전

    • 한화비전

    • ZKTeco

    • 비엔에스테크

    • 엔토스정보통신

    • 원우이엔지

    • 지인테크

    • 홍석

    • 이화트론

    • 다누시스

    • 테크스피어

    • 경인씨엔에스

    • 슈프리마

    • 인텔리빅스

    • 시큐인포

    • 미래정보기술(주)

    • 비전정보통신

    • 지오멕스소프트

    • 트루엔

    • 인터엠

    • 세연테크

    • 성현시스템

    • 한국아이티에스

    • 케비스전자

    • 아이원코리아

    • 다후아테크놀로지코리아

    • 한결피아이에프

    • 스피어AX

    • 동양유니텍

    • 투윈스컴

    • TVT코리아

    • 프로브디지털

    • 위트콘

    • 포엠아이텍

    • 넥스트림

    • 페스카로

    • 아우토크립트

    • 신우테크
      팬틸드 / 하우징

    • 에프에스네트워크

    • 네티마시스템

    • 케이제이테크

    • 알에프코리아

    • (주)일산정밀

    • 아이엔아이

    • 미래시그널

    • 새눈

    • 창성에이스산업

    • 유투에스알

    • 제네텍

    • 이스트컨트롤

    • 현대틸스
      팬틸트 / 카메라

    • 지에스티엔지니어링
      게이트 / 스피드게이트

    • 주식회사 에스카

    • 에이앤티글로벌

    • 모스타

    • 한국씨텍

    • 넥스텝

    • 레이어스

    • 구네보코리아주식회사

    • 에이티앤넷

    • 티에스아이솔루션

    • 엘림광통신

    • 보문테크닉스

    • 포커스에이아이

    • 메트로게이트
      시큐리티 게이트

    • 휴젠

    • 신화시스템

    • 글로넥스

    • 이엘피케이뉴

    • 세환엠에스(주)

    • 유진시스템코리아

    • 카티스

    • 유니온바이오메트릭스

Copyright thebn Co., Ltd. All Rights Reserved.

MENU

회원가입

Passwordless 설정

PC버전

닫기