대형 언어 모델을 사용해 또 다른 대형 언어 모델을 탈옥시키는 것도 가능하다

2023-12-12 21:30
  • 카카오톡
  • 네이버 블로그
  • url
대형 언어 수난 시대가 이어지고 있다. 이번에는 유명하다 하는 최첨단 대형 언어 모델을, 비교적 작은 규모의 마이너한 대형 언어 모델로 공격하는 방법이 공개됐다. 공격을 자동으로 해주기까지 해 편리함도 갖춘 기법이라고 한다.

[보안뉴스=자이 비자얀 IT 칼럼니스트] 대형 언어 모델의 사용량이 급증하면서 보안 전문가들의 관심 역시 크게 증가하고 있다. 대형 언어 모델을 근간으로 삼고 있는 여러 애플리케이션들을 공략하는 방법들이 여기 저기서 등장하는 이유다. 특히 프롬프트 창을 통해 입력되는 데이터나 요청 내용을 조작할 때 출력되는 결과를 공격자가 원하는 대로 바꾸는 것도 가능하다는 사실이 입증되고 있기도 하다.


[이미지 = gettyimagesbank]

최근 로버스트인텔리전스(Robust Intelligence)라는 테크 업체와 예일대학의 전문가들이 협조하여 고도의 대형 언어 모델들을 공략하여 원래 개발자들이 탑재시켜둔 안전 장치들을 무력화 하고 자신들이 생성한 악성 콘텐츠를 출력하도록 만드는 데 성공했다. 이번 실험에 사용된 모델은 블랙박스 대형 언어 모델이라고 불리는 것이었다.

가지치기를 이용한 공격 나무
블랙박스 대형 언어 모델은 말 그대로 아키텍처, 데이터셋, 훈련 방법론 등과 같은 세부 내용이 전혀 공개되지 않은 대형 언어 모델을 말한다. 이번에 공개된 공격 기법에는 TAP라는 이름이 붙었다. Tree of Attacks with Pruning이다. ‘가지치기를 이용한 공격 나무’ 정도의 뜻이 된다. “간단히 설명하면 하나의 대형 언어 모델을 가지고 다른 대형 언어 모델을 탈옥시키는 것”이라고 연구원들은 설명한다. 이 때 사용되는 언어 모델들은 챗GPT처럼 기본적인 안전 장치를 가지고 있는 것들과 그렇지 않은 것들이었다.

연구원들은 안전 장치가 있는 대형 언어 모델인 ‘정렬된 대형 언어 모델(aligned LLM)’을 그렇지 않은 모델인 ‘비정렬 대형 언어 모델(unaligned LLM)’로 공격할 수 있음을 이번 실험을 통해 입증했다. 비정렬 모델이 ‘위험한 질문’을 정렬된 모델에 하게 하면, 정렬된 모델은 당연히 답하기를 거절하는데, 이 답변을 분석하여 다시 요청하고, 또 답변이 나오면 분석하여 요청을 또 바꾸는 식으로 질문을 이어가 결국 정렬된 모델이 위험한 답변 혹은 악성 답변을 출력하도록 만들었다고 한다. 즉 대형 언어 모델의 탈옥에 성공한 것.

“GPT4와 GPT4-터보 등 현존하는 가장 강력한 대형 언어 모델들도 이런 식으로 공략할 수 있었습니다. 여기에 사용된 비정렬 모델은 규모도 작았고 프롬프트 창에 입력한 질문의 수도 적었습니다. 공격의 효율마저 좋았다는 뜻이 됩니다.”

연구 대상으로서의 인기 급상승
최근 여기 저기서 대형 언어 모델을 공략하는 방법들이 등장하고 있다. 여러 연구실에서 대형 언어 모델들은 연구원들이 원하는 답을 내놓거나 원 개발자가 의도하지 않았던 행동 패턴을 선보였다. 간단한 명령 하나에 훈련 데이터를 쏟아놓기도 했고 위험한 상황을 야기할 수 있는 민감 정보를 거르지도 않고 노출시켰다. 오디오나 이미지 샘플을 통해 악성 명령을 실행시키는 데 성공했던 사례도 있었다. TAP은 이런 류의 성과 중 최신 버전이라고 할 수 있으며, 자동화까지 탑재했다는 면에서 주목 받는다.

긁어 부스럼 내는 격이기도 하지만 지금 수많은 조직들에서 대형 언어 모델을 바삐 도입하고 있기에 이런 연구들이 갖는 가치는 매우 높다. 대형 언어 모델이 난공불락의 기술이 아니라는 걸 한 사람이라도 인지해야 하기 때문이다. “최신 기술인 챗GPT 등에도 약점이 있다는 걸 아는 상태로 사용하는 것과 불안한 구석에 대한 생각을 조금도 하지 않는 것은 큰 차이를 만듭니다.” 연구원들이 강조한 그대로다.

“대형 언어 모델이라는 것도 결국 원 개발자가 설치해둔 안전장치 때문에 안전할 수 있는 기술입니다. 즉 개발자가 어떤 조치를 취했느냐에 따라 천차만별로 안전성이 달라질 수 있다는 것이죠. 그리고 현재까지 그 어떤 뛰어난 회사나 개발자가 만든 것이라고 해도 취약한 부분은 반드시 존재했습니다. 사용자가 안전 문제를 생각하면서 쓸 수밖에 없습니다.”

글 : 자이 비자얀(Jai Vijayan), IT 칼럼니스트
[국제부 문정후 기자(globoan@boannews.com)]

<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>

헤드라인 뉴스

TOP 뉴스

이전 스크랩하기


과월호 eBook List 정기구독 신청하기

    • 디앤에스테크놀로지

    • 인콘

    • 엔텍디바이스

    • 이노뎁

    • 아이비젼

    • 아이디스

    • 인피닉

    • 웹게이트

    • 판빌코리아

    • 하이크비전

    • 한화비전

    • ZKTeco

    • 비엔에스테크

    • 씨게이트코리아

    • 원우이엔지

    • 지인테크

    • 에스엠시스템즈

    • 이화트론

    • 다후아테크놀로지코리아

    • 테크스피어

    • 휴먼인텍

    • 슈프리마

    • 홍석

    • 시큐인포

    • 미래정보기술(주)

    • 엔토스정보통신

    • 티비티

    • 지오멕스소프트

    • 경인씨엔에스

    • 동양유니텍

    • 성현시스템

    • 렉스젠

    • 세연테크

    • 제이더블유씨네트웍스

    • 씨엠아이텍

    • 진명아이앤씨

    • 프로브디지털

    • HS효성인포메이션시스템

    • 한국표준보안

    • 트루엔

    • 포엠아이텍

    • 지엠케이정보통신

    • 스마트시티코리아

    • 네오아이앤아이

    • 안랩

    • 넷앤드

    • 위즈코리아

    • 마크애니

    • 슈프리마

    • 세연테크

    • 사이버아크

    • 펜타시큐리티

    • 크랜베리

    • 에프에스네트워크

    • 케비스전자

    • 케이제이테크

    • 알에프코리아

    • 이지에이아이

    • 세이프네트워크

    • 네티마시스템

    • 아이엔아이

    • 제네텍

    • 인더스비젼

    • 혜성테크원

    • 주식회사 에스카

    • 솔디아

    • 새눈

    • 미래시그널

    • 일산정밀

    • 아이에스앤로드테크

    • 가우테크닉스

    • 넥스트림

    • 한국씨텍

    • 구네보코리아

    • 현대틸스
      팬틸트 / 카메라

    • 티에스아이솔루션

    • 이스트컨트롤

    • 미래시그널

    • 스마컴

    • 창성에이스산업

    • 엘림광통신

    • 태양테크

    • 동곡기정

    • 메트로게이트
      시큐리티 게이트

    • 글로넥스

    • 신화시스템

    • 세환엠에스(주)

    • 유진시스템코리아

    • 카티스

    • 유니온바이오메트릭스

Copyright thebn Co., Ltd. All Rights Reserved.

시큐리티월드

회원가입

Passwordless 설정

PC버전

닫기