[보안뉴스=자이 비자얀 IT 칼럼니스트] 대형 언어 모델의 사용량이 급증하면서 보안 전문가들의 관심 역시 크게 증가하고 있다. 대형 언어 모델을 근간으로 삼고 있는 여러 애플리케이션들을 공략하는 방법들이 여기 저기서 등장하는 이유다. 특히 프롬프트 창을 통해 입력되는 데이터나 요청 내용을 조작할 때 출력되는 결과를 공격자가 원하는 대로 바꾸는 것도 가능하다는 사실이 입증되고 있기도 하다.

[이미지 = gettyimagesbank]
최근 로버스트인텔리전스(Robust Intelligence)라는 테크 업체와 예일대학의 전문가들이 협조하여 고도의 대형 언어 모델들을 공략하여 원래 개발자들이 탑재시켜둔 안전 장치들을 무력화 하고 자신들이 생성한 악성 콘텐츠를 출력하도록 만드는 데 성공했다. 이번 실험에 사용된 모델은 블랙박스 대형 언어 모델이라고 불리는 것이었다.
가지치기를 이용한 공격 나무
블랙박스 대형 언어 모델은 말 그대로 아키텍처, 데이터셋, 훈련 방법론 등과 같은 세부 내용이 전혀 공개되지 않은 대형 언어 모델을 말한다. 이번에 공개된 공격 기법에는 TAP라는 이름이 붙었다. Tree of Attacks with Pruning이다. ‘가지치기를 이용한 공격 나무’ 정도의 뜻이 된다. “간단히 설명하면 하나의 대형 언어 모델을 가지고 다른 대형 언어 모델을 탈옥시키는 것”이라고 연구원들은 설명한다. 이 때 사용되는 언어 모델들은 챗GPT처럼 기본적인 안전 장치를 가지고 있는 것들과 그렇지 않은 것들이었다.
연구원들은 안전 장치가 있는 대형 언어 모델인 ‘정렬된 대형 언어 모델(aligned LLM)’을 그렇지 않은 모델인 ‘비정렬 대형 언어 모델(unaligned LLM)’로 공격할 수 있음을 이번 실험을 통해 입증했다. 비정렬 모델이 ‘위험한 질문’을 정렬된 모델에 하게 하면, 정렬된 모델은 당연히 답하기를 거절하는데, 이 답변을 분석하여 다시 요청하고, 또 답변이 나오면 분석하여 요청을 또 바꾸는 식으로 질문을 이어가 결국 정렬된 모델이 위험한 답변 혹은 악성 답변을 출력하도록 만들었다고 한다. 즉 대형 언어 모델의 탈옥에 성공한 것.
“GPT4와 GPT4-터보 등 현존하는 가장 강력한 대형 언어 모델들도 이런 식으로 공략할 수 있었습니다. 여기에 사용된 비정렬 모델은 규모도 작았고 프롬프트 창에 입력한 질문의 수도 적었습니다. 공격의 효율마저 좋았다는 뜻이 됩니다.”
연구 대상으로서의 인기 급상승
최근 여기 저기서 대형 언어 모델을 공략하는 방법들이 등장하고 있다. 여러 연구실에서 대형 언어 모델들은 연구원들이 원하는 답을 내놓거나 원 개발자가 의도하지 않았던 행동 패턴을 선보였다. 간단한 명령 하나에 훈련 데이터를 쏟아놓기도 했고 위험한 상황을 야기할 수 있는 민감 정보를 거르지도 않고 노출시켰다. 오디오나 이미지 샘플을 통해 악성 명령을 실행시키는 데 성공했던 사례도 있었다. TAP은 이런 류의 성과 중 최신 버전이라고 할 수 있으며, 자동화까지 탑재했다는 면에서 주목 받는다.
긁어 부스럼 내는 격이기도 하지만 지금 수많은 조직들에서 대형 언어 모델을 바삐 도입하고 있기에 이런 연구들이 갖는 가치는 매우 높다. 대형 언어 모델이 난공불락의 기술이 아니라는 걸 한 사람이라도 인지해야 하기 때문이다. “최신 기술인 챗GPT 등에도 약점이 있다는 걸 아는 상태로 사용하는 것과 불안한 구석에 대한 생각을 조금도 하지 않는 것은 큰 차이를 만듭니다.” 연구원들이 강조한 그대로다.
“대형 언어 모델이라는 것도 결국 원 개발자가 설치해둔 안전장치 때문에 안전할 수 있는 기술입니다. 즉 개발자가 어떤 조치를 취했느냐에 따라 천차만별로 안전성이 달라질 수 있다는 것이죠. 그리고 현재까지 그 어떤 뛰어난 회사나 개발자가 만든 것이라고 해도 취약한 부분은 반드시 존재했습니다. 사용자가 안전 문제를 생각하면서 쓸 수밖에 없습니다.”
글 : 자이 비자얀(Jai Vijayan), IT 칼럼니스트
[국제부 문정후 기자(globoan@boannews.com)]
<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>