챗GPT, 원래는 숨겼어야 할 비밀들을 술술 풀어놓기도 한다

생성형 인공지능 도구들의 인기가 빠르게 높아지는 중이라 그런지 이런 도구들의 취약점이 다양한 각도로 연구되고 있다. 최근에는 챗GPT의 API를 통해 훈련 데이터를 빼돌리는 방법이 개발되기도 했다.

[보안뉴스 문가용 기자] 구글 딥마인드(Google DeepMind)와 오픈AI(OpenAI), ETH취리히(ETH Zurich), 맥길대학(McGill University), 워싱턴대학(University of Washington)의 전문가들이 챗GPT와 구글 팜2 등으로 대표되는 대형 언어 모델을 공략하는 새로운 방법을 개발하는 데 성공했다. 공격 성공 시 인공지능 아키텍처와 관련된 주요 정보를 확보할 수 있게 된다고 한다.

[이미지 = gettyimagesbank]

이 연구 결과는 상당히 상징적이다. 대형 언어 모델을 기반으로 한 챗봇들에 전송된 데이터는 숨겨져 있는 것으로 통상 알려져 있는데, 그것이 틀린 생각이라는 것을 증명하기 때문이다. 숨겨져 있는 데이터를 추출할 수 있다는 건, 사실상 특정 인공지능의 기능성을 고스란히 복제할 수 있다는 것과 동일한 말이다. 요 근래 인공지능의 약점과 결함을 다루는 연구 보고서들이 속속 등장하고 있는데, 아직 인공지능 기술이 적어도 안전성이라는 측면에서는 가야할 길이 멀다는 걸 드러낸다.

숨겨진 데이터 추출하기
현재 시장은 각종 대형 언어 모델 기반 인공지능 서비스의 난립으로 정신이 없다. 챗GTP만 해도 여러 가지 버전이 존재하고, 구글이 제미나이(Gemini)와 클로드 2를 등장시키면서 그야 말로 춘추전국시대가 되려하고 있다. 그렇기 때문에 각 모델의 개발사들은 자사 알고리즘을 훈련시키는 데 사용했던 데이터를 철저히 감추고 있으며, 훈련 방법과 결정 논리 등도 비공개로 둔다. 경쟁 원리에 입각해서 봤을 때 당연한 조치다.

하지만 연구원들은 “API를 통해 감춰진 것들에 일부 접근할 수 있었다”고 밝혔다. API는 개발자들이 특정 도구나 앱, 소프트웨어의 일부 기능만을 따다가 자신이 개발하는 소프트웨어나 앱, 도구에 삽입하는 데 사용하는 기술이다. 예를 들어 지도 관련 앱의 API를 활용하면 별개의 길찾기 앱에 지도를 띄울 수 있게 된다. 메신저 앱의 API를 활용하면 전혀 다른 앱에서 사용자들 간 대화를 주고받을 수 있게 할 수 있다. 챗GPT의 기능도 API라는 형태로 다른 앱에 추가 가능하다. 그러니 오픈AI가 어떤 API를 개발해 풀어놓느냐에 따라 다른 개발자들도 인공지능을 따로 개발할 필요 없이 챗GPT의 기능성을 활용할 수 있게 된다. 요즘처럼 프로그램 개발이 각종 기능을 짜깁기 하는 식으로 진행될 때, API는 매우 중요한 역할을 담당하게 된다.

이번 연구에 참여한 연구원들은 이런 API를 공격 통로로 활용하여 숨겨진 데이터에 접근할 수 있지 않을까 하는 데에 착안해 실험을 시작했다고 한다. 기존에는 인공지능 챗봇의 프롬프트 창을 통해 공격을 시도하는 방법들이 연구되곤 했는데, 이번에는 API가 연구 대상이 된 것이다. 연구원들은 자신들이 성공시킨 공격에 ‘탑다운(top-down)’이라는 이름을 붙였다. 인공지능 신경망 아키텍처의 최종 층위를 겨냥해 요청문을 보냈을 때 어떤 결과가 나오는지 파악하고자 하는 게 그들의 연구 목적이었다고 한다. 신경망 아키텍처의 최종 층위란 입력된 데이터를 기반으로 해 사용자에게 출력될 답이나 결과가 생성되는 곳이다.

탑다운 공격
연구원들이 답변이 생성되는 최종 층위를 노린 데에는 이유가 있다. 나오는 답변과 입력한 데이터를 비교하면 해당 알고리즘이 어떤 논리로 데이터를 처리하는지 유추할 수 있기 때문이다. 게다가 그 답변을 어떻게든 바꾸는 데 성공하기라도 한다면, 그것 나름대로 또 다른 공격을 성공시킨 것이기도 하다. 공격에 성공했을 때 가장 얻을 게 많은 곳이 바로 이 최종 층위라는 것이다. 연구원들은 “총 매개변수 수와 관련이 있는 트랜스포머 모델(transformer model)을 어느 정도 확인할 수 있게 되며, 따라서 블랙박스로 표현되는 인공지능의 내부를 전부 들여다볼 필요가 없게 해주기도 한다”고 설명한다.

실제로 최상 층위를 공격했을 때 연구원들은 기밀에 해당하는 정보들을 적잖이 가져갈 수 있었다고 밝히고 있다. “20달러 안팎의 비용만으로 오픈AI의 언어 모델로부터 전체 투영행렬(projection matrix)을 뺄 수 있었습니다. GPT 3.5 터보 모델로부터는 숨겨진 규모 관련 정보를 얻어낼 수 있었고요. 공격자가 마음 먹고 2천 달러를 투자한다고 했을 경우 모델 자체를 그대로 복제해갈 수 있을 수준의 데이터를 얻어낼 수 있을 거라고 분석하고 있습니다.”

이번 실험에서는 대형 언어 모델 기반 인공지능 중 유명한 일부만이 사용됐다. 하지만 연구원들은 “거의 모든 대형 언어 모델 기반 인공지능에 공격이 통할 것”이라고 보고 있다. 그렇기 때문에 인공지능을 개발하는 곳이라면 이번 연구를 참고하여 안전을 강화하는 게 좋을 것이라고 전문가들은 권고한다.

3줄 요약
1. 챗GPT 등 유명 인공지능으로부터 각종 데이터 추출 가능함.
2. 인공지능 자체를 뚫는 게 아니라 API를 활용해 최상위층 공략만 해도 됨.
3. 대부분 알고리즘에 통할 공격으로 예상됨.
[국제부 문가용 기자(globoan@boannews.com)]

헤드라인 뉴스

TOP 뉴스

Copyright thebn Co., Ltd. All Rights Reserved.

MENU

회원가입

PC버전