대형 언어 모델을 사용해 또 다른 대형 언어 모델을 탈옥시키는 것도 가능하다

2023-12-12 21:30
  • 카카오톡
  • 네이버 블로그
  • url
대형 언어 수난 시대가 이어지고 있다. 이번에는 유명하다 하는 최첨단 대형 언어 모델을, 비교적 작은 규모의 마이너한 대형 언어 모델로 공격하는 방법이 공개됐다. 공격을 자동으로 해주기까지 해 편리함도 갖춘 기법이라고 한다.

[보안뉴스=자이 비자얀 IT 칼럼니스트] 대형 언어 모델의 사용량이 급증하면서 보안 전문가들의 관심 역시 크게 증가하고 있다. 대형 언어 모델을 근간으로 삼고 있는 여러 애플리케이션들을 공략하는 방법들이 여기 저기서 등장하는 이유다. 특히 프롬프트 창을 통해 입력되는 데이터나 요청 내용을 조작할 때 출력되는 결과를 공격자가 원하는 대로 바꾸는 것도 가능하다는 사실이 입증되고 있기도 하다.


[이미지 = gettyimagesbank]

최근 로버스트인텔리전스(Robust Intelligence)라는 테크 업체와 예일대학의 전문가들이 협조하여 고도의 대형 언어 모델들을 공략하여 원래 개발자들이 탑재시켜둔 안전 장치들을 무력화 하고 자신들이 생성한 악성 콘텐츠를 출력하도록 만드는 데 성공했다. 이번 실험에 사용된 모델은 블랙박스 대형 언어 모델이라고 불리는 것이었다.

가지치기를 이용한 공격 나무
블랙박스 대형 언어 모델은 말 그대로 아키텍처, 데이터셋, 훈련 방법론 등과 같은 세부 내용이 전혀 공개되지 않은 대형 언어 모델을 말한다. 이번에 공개된 공격 기법에는 TAP라는 이름이 붙었다. Tree of Attacks with Pruning이다. ‘가지치기를 이용한 공격 나무’ 정도의 뜻이 된다. “간단히 설명하면 하나의 대형 언어 모델을 가지고 다른 대형 언어 모델을 탈옥시키는 것”이라고 연구원들은 설명한다. 이 때 사용되는 언어 모델들은 챗GPT처럼 기본적인 안전 장치를 가지고 있는 것들과 그렇지 않은 것들이었다.

연구원들은 안전 장치가 있는 대형 언어 모델인 ‘정렬된 대형 언어 모델(aligned LLM)’을 그렇지 않은 모델인 ‘비정렬 대형 언어 모델(unaligned LLM)’로 공격할 수 있음을 이번 실험을 통해 입증했다. 비정렬 모델이 ‘위험한 질문’을 정렬된 모델에 하게 하면, 정렬된 모델은 당연히 답하기를 거절하는데, 이 답변을 분석하여 다시 요청하고, 또 답변이 나오면 분석하여 요청을 또 바꾸는 식으로 질문을 이어가 결국 정렬된 모델이 위험한 답변 혹은 악성 답변을 출력하도록 만들었다고 한다. 즉 대형 언어 모델의 탈옥에 성공한 것.

“GPT4와 GPT4-터보 등 현존하는 가장 강력한 대형 언어 모델들도 이런 식으로 공략할 수 있었습니다. 여기에 사용된 비정렬 모델은 규모도 작았고 프롬프트 창에 입력한 질문의 수도 적었습니다. 공격의 효율마저 좋았다는 뜻이 됩니다.”

연구 대상으로서의 인기 급상승
최근 여기 저기서 대형 언어 모델을 공략하는 방법들이 등장하고 있다. 여러 연구실에서 대형 언어 모델들은 연구원들이 원하는 답을 내놓거나 원 개발자가 의도하지 않았던 행동 패턴을 선보였다. 간단한 명령 하나에 훈련 데이터를 쏟아놓기도 했고 위험한 상황을 야기할 수 있는 민감 정보를 거르지도 않고 노출시켰다. 오디오나 이미지 샘플을 통해 악성 명령을 실행시키는 데 성공했던 사례도 있었다. TAP은 이런 류의 성과 중 최신 버전이라고 할 수 있으며, 자동화까지 탑재했다는 면에서 주목 받는다.

긁어 부스럼 내는 격이기도 하지만 지금 수많은 조직들에서 대형 언어 모델을 바삐 도입하고 있기에 이런 연구들이 갖는 가치는 매우 높다. 대형 언어 모델이 난공불락의 기술이 아니라는 걸 한 사람이라도 인지해야 하기 때문이다. “최신 기술인 챗GPT 등에도 약점이 있다는 걸 아는 상태로 사용하는 것과 불안한 구석에 대한 생각을 조금도 하지 않는 것은 큰 차이를 만듭니다.” 연구원들이 강조한 그대로다.

“대형 언어 모델이라는 것도 결국 원 개발자가 설치해둔 안전장치 때문에 안전할 수 있는 기술입니다. 즉 개발자가 어떤 조치를 취했느냐에 따라 천차만별로 안전성이 달라질 수 있다는 것이죠. 그리고 현재까지 그 어떤 뛰어난 회사나 개발자가 만든 것이라고 해도 취약한 부분은 반드시 존재했습니다. 사용자가 안전 문제를 생각하면서 쓸 수밖에 없습니다.”

글 : 자이 비자얀(Jai Vijayan), IT 칼럼니스트
[국제부 문정후 기자(globoan@boannews.com)]

<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>

헤드라인 뉴스

TOP 뉴스

이전 스크랩하기


과월호 eBook List 정기구독 신청하기

    • 지인테크

    • 인콘

    • 엔텍디바이스코리아

    • 핀텔

    • KCL

    • 아이디스

    • 씨프로

    • 웹게이트

    • 엔토스정보통신

    • 하이크비전

    • 한화비전

    • ZKTeco

    • 비엔에스테크

    • 지오멕스소프트

    • 원우이엔지

    • HS효성인포메이션시스템

    • TVT코리아

    • 이화트론

    • 다누시스

    • 테크스피어

    • 홍석

    • 슈프리마

    • 인텔리빅스

    • 시큐인포

    • 미래정보기술(주)

    • 유니뷰

    • 비전정보통신

    • 아이원코리아

    • 인터엠

    • 위트콘

    • 성현시스템

    • 한국씨텍

    • 투윈스컴

    • 스피어AX

    • 다후아테크놀로지코리아

    • 한결피아이에프

    • 경인씨엔에스

    • 디비시스

    • 트루엔

    • 세연테크

    • 프로브디지털

    • 동양유니텍

    • 포엠아이텍

    • 넥스트림

    • 핀텔

    • 위즈코리아

    • 삼오씨엔에스

    • 벨로크

    • 피앤피시큐어

    • 신우테크
      팬틸드 / 하우징

    • 에프에스네트워크

    • 네이즈

    • 케이제이테크

    • 셀링스시스템

    • (주)일산정밀

    • 아이엔아이

    • 새눈

    • 미래시그널

    • 인빅

    • 유투에스알

    • 에이티앤넷

    • 케비스전자

    • 한국아이티에스

    • 엣지디엑스

    • 네티마시스템

    • 에이앤티글로벌

    • 이엘피케이뉴

    • 와이즈콘

    • 현대틸스
      팬틸트 / 카메라

    • 제네텍

    • 구네보코리아주식회사

    • 창성에이스산업

    • 에이앤티코리아

    • 지에스티엔지니어링
      게이트 / 스피드게이트

    • 티에스아이솔루션

    • 엔에스티정보통신

    • 엔시드

    • 포커스에이아이

    • 넥스텝

    • 엘림광통신

    • 메트로게이트
      시큐리티 게이트

    • 레이어스

    • 주식회사 에스카

    • 엠스톤

    • 글로넥스

    • 유진시스템코리아

    • 카티스

    • 세환엠에스(주)

Copyright thebn Co., Ltd. All Rights Reserved.

MENU

회원가입

Passwordless 설정

PC버전

닫기