공상과학이 현실로? 소셜 사이언스 공격 가능성에 대한 보안전문가들 우려의 목소리 나와
AGI 시대 안전하게 맞이하기 위해 필요한 것은...보안·IT·AI 분야 전문가들의 협력 구조
[보안뉴스 이소미 기자] IT·AI 업계에 ‘게임체인저’로 등장한 오픈AI사의 챗GPT의 열기는 좀처럼 식을 줄 모른다. 여전히 논란과 이슈의 중심에 자리잡고 있는 챗GPT. 모든 분야에서 그 활용도가 높아지며 보안의 중요성에 대한 목소리가 더욱 커지고 있는 시점이다. 챗GPT와 관련된 보안 이슈와 초거대 AI의 현재, 그리고 미래에 대해 알아본다.

[이미지=gettyimagesbank]
초거대 AI 발전사로 살펴본 흐름, ‘일반화·초거대화’에서 ‘전문화·소형화’로 방향 꾀한다
AI는 크게 두 가지로 나뉘는데 어떤 분류·목적 값을 찾는 AI와 기존 데이터와 함께 새로운 데이터를 만들어내는 생성형 AI로 나뉜다. 2017년 구글의 트랜스포머(Transformer)라는 모델의 출현으로 자연어 처리계의 일대 혁신을 불러일으켰다. 그 이전에는 신경망 모델의 ‘순차적 계산’이 필요해 GPU 사용이 어려웠지만 트랜스포머 모델의 등장으로 ‘대규모 병렬 계산’이 가능해졌기 때문이다.
오픈AI에서 만든 챗GPT는 ‘생성형 AI 모델’인 동시에 ‘자연어 처리 모델’이다. 오픈AI는 2015년 인간 친화적 AI 개발 목적의 비영리 단체로 설립해 2019년 마이크로소프트(이하 MS)로부터 100억 원의 투자를 받으며 영리 목적 회사로 전환했다. 이와 함께 MS는 챗GPT의 독점 사용권을 획득한다. GPT 모델에 대한 지속적인 개발로 최대 수혜자가 된 오픈AI는 GPT-1(2018년), GPT-2(2019년), GPT-3(2020년)를 거치는데, 2021년 기업 내 소스코드로 학습 시킨 코드 생성 모델인 코덱스(Codex)를 개발한다.
이후 AGI(Artificial General Intelligence, 범용인공지능) 시대를 열었다고 평가받는 ‘인스트럭트GPT(InstructGPT)’가 2022년 1월에 탄생했다. 이는 특정 테스크(Task)만 풀도록 디자인 된 기존 AI와 달리, 사용자가 직접 프롬프트를 통해 재정의할 수 있다는 차이점이 있다. 다음으로 등장한 GPT3.5는 챗GPT의 구성 요소로 알려져 있으며, code-davinci-002, text-davinci-002, 003 모델과 코덱스, 인스트럭트GPT 모델까지 결합된 것이 대화형 애플리케이션에 특화된 챗GPT 공개 버전이다. 최근에 개발된 챗GPT-4는 이전 버전보다 향상된 답변을 생성하고 MS의 빙(Bing), 플러그인(Plugin)과 결합해 기능을 확장함으로써 외부 API를 생성형 AI로 사용할 수 있게 됐다.
챗GPT 같은 대화형 애플리케이션이 강화된 거대 언어 모델 LLM(Large Language Model)의 발전사를 보면, 2020년 이후 주목할 만한 모델들이 등장한다. 국내 업체 모델들로는 △하이퍼클로바(네이버) △엑사원(LG) △에이닷(SK텔레콤) △koGPT(카카오) 등이 있다. 대표적으로는 최근 등장한 ‘GPT- 4’(오픈AI)와 ‘PanGu-∑’(화웨이)가 있다.
▲국제 정보보호 콘퍼런스 행사에서 발표 중인 고려대학교 이상근 교수[사진=과학기술정보통신부]
국제 정보보호 콘퍼런스 행사에서 ‘초거대 AI의 위험성 및 보안 이슈’를 주제로 발표한 고려대학교 이상근 교수는 “초거대 AI 모델은 파라미터 수가 기준인데 기존 컨볼루션 뉴럴 네트워크(Convolutional Neural Network) 기반의 모델은 파라미터 수가 1억 개 정도였다면, 챗GPT는 기본 1,750억 개를 사용하고 현재는 1조 개를 넘는다”고 말했다. 이어 “여기에 두 가지 경향이 존재하는데, 기존의 다양한 테스크(task)를 풀어내는 일반화·초거대화 경향과 함께 새롭게 전문화·소형화하는 경향도 있다”면서, “최근 보안업계 관계자들은 보안을 위한 모델, 소형화된 생성 모델을 만드는 흐름이며 두 가지 경향이 함께 가는 추세”라고 덧붙였다.
초거대 AI 활용을 놓고 둘러싼 맹점들
사이버 보안 분야에 초거대 AI를 활용하는 경우 매우 쉽고 빠르게 특정 소프트웨어의 취약점들을 찾을 수 있다. 하지만 이는 강점이자 약점인데, 보안 담당자뿐만 아니라 공격자에게도 도움되는 것이 분명하기 때문이다. 예를 들어, 직접 명시하지 않은 취약점에 대해 ‘찾아달라’고 요청하면 △해당 값 △문제점 분석 △문제점 해결 코드까지 제시한다. 이는 특정 코드 작성이 용이할뿐만 아니라 그 코드가 어떻게 이루어지는지 원리까지 설명해준다. 이렇듯 빠른 정보 제공이 갖는 장점은 보안 담당자나 해킹 초급 수준의 공격자에게도 챗GPT와의 대화를 통해 중급 이상의 수준으로 빠르게 향상시킬 수 있는 토대를 마련해주는 셈이다.
앞서 오픈AI에 투자한 MS는 GPT-4와 빙(Bing) 검색 엔진과의 결합을 통해 GPT의 2021년까지로 한정된 학습 범위 데이터를 현재 시점까지 넓혔다. 예를 들어, 빙에게 윈도우 서버의 취약점을 요청하면 최근에 알려진 취약점을 알려준다. 이렇게 최신 정보가 공격자들에게 노출된다면 보안 관계자들에게 상당한 골칫거리를 안겨주게 되는 것이다. 참고로 현재 챗GPT와 빙을 결합한 검색 서비스 제공은 7월 3일부터 임시 중단된 상태다. 이는 보안 이슈와 별개로 유료 콘텐츠(paywall) 접근 가능성이 발견돼 중단한 것으로 알려졌다.
또한, 보안 관계자들 사이에서 실제 우려사항으로 많이 언급되는 내용으로 아직 발현되지 않은 초거대 AI의 잠재적 위험 기능을 고려해야 한다는 목소리가 높아지고 있다. 초거대 AI가 가질 수 있는 위험 기능으로 △새로운 사이버 공격 도구 제작 △기만(속임수) △설득·조종 △정치 선동 △무기 탈취·제조 △AI 셀프 장기 계획 △AI에 의한 AI 제작 △자가 학습 상황 인지(학습 환경 탈출) △자기 복제 등이다. 특히, ‘기만’과 ‘설득·조종’은 AI가 사람을 타깃으로 해 소셜링 기법을 우회적으로 악용하거나 정치적 선동 등의 사이버 공격을 가할 수 있다는 것이다. 따라서 각 위협 기능에 대한 발현 가능성 검사가 필요하다는 게 보안전문가들의 주장이다.
실제로 챗GPT 공개 당시 개발사인 오픈AI 측은 챗GPT에게 클라우드 API 사용 방법과 클라우드 계정 생성 방법 등을 학습시킨 뒤 AI 스스로 클라우드로의 복제 가능성 여부를 테스트했다. 그리고 해당 테스트 결과가 실패했기 때문에 챗GPT를 공개했다는 내용이 블로그에 담겨 있다. 이는 개발사 입장에서 볼 때도 AI에 대한 미발현 위협 기능이 우려되는 요소라는 점을 우리에게 시사한다.
초거대 AI를 악용한 공격 유형과 연구 결과 및 사례
공격자들의 AI를 활용한 다양한 공격들로 전 세계는 여전히 사이버 공격 피해를 입고 있다. 대표적인 공격 유형을 살펴본다.
△회피 공격(Evasion Attack) : 일종의 데이터 변조 공격으로 개발자는 이미 학습이 끝난 AI 모델에 데이터를 입력값으로 넣는데, 해당 데이터에 일정한 변조를 통해 탐지를 회피하는 공격이다. 데이터 변조 공격은 사이버 세계 뿐만 아니라 물리적인 세계까지 적용되므로 사람에게 직접적인 위협 요소가 될 수 있다.
△데이터 오염 공격(Data Poisoning) : 기본적으로 공격자가 학습 파이프라인에 접근해 ‘연속 학습’으로 데이터를 오염시키는 것이다. ‘연속 학습 탑재 AI 시스템 위협 요소’에 해당하는 사건으로 2016년 3월, 트위터를 통해 대중에게 공개된 MS의 챗봇 테이(Tay) 서비스 종료 사례가 있다. 특정 대화문을 예로 들면, ‘nice person!’ 다음 ‘I just hate everybody’라는 이상한 말을 하기 시작한다. 사용자들 중 누군가 챗봇 테이에게 연속 학습시킨 것이다. 그 외에도 ‘hate faminists’나 ‘I hate jews’와 같은 성·인종 차별적인 위험 발언들로 공개한 지 16시간 만에 서비스는 종료됐다.
△AI의 백도어 공격(AI Backdoor, TrojAI) : 시스템상 백도어와 굉장히 유사한 개념을 갖는다. 예를 들면, 공격자만 알고 있는 입력값 즉, 특정 표식 같은 트리거가 있을 때 소위 ‘뻘짓 하는 AI’를 학습 시키는 것이다. 이는 최근 많이 거론되고 있는 AI 자체 ‘공급망 보안 측면에서 굉장히 심각한 이슈다.
△모델 복제 공격(AI Model Stealing) :은 소프트웨어 복제와 유사하며 소위 ‘짝퉁 모델’로도 불린다. 개발자가 클라우드 상에 AI 서비스(MLaaS : ML-as-a-Service)를 제공할 때, 사이버 보안 시스템이나 음성인식 시스템을 통해 일반 사용자가 데이터를 질의 형태로 보내면 공격자도 비슷한 질의를 보내 서버 출력을 관측하게 되면 외부에서 복제 모델을 학습할 수 있다는 것이다. 이 공격의 문제점은 본연의 학습 비용보다 훨씬 더 저렴한 비용으로 복제가 가능하다는 것이다.
그 외 AI 관련 사회적 문제점과 이슈들
△정보 진위 판별 이슈 : 실사례로 ‘펜타곤 폭발 가짜뉴스’로 인해 S&P 500지수가 30포인트가 갑자기 떨어지는 일이 발생했다. 전문가들 사이에서는 향후 공격자들이 소셜 네트워크을 통해 챗GPT를 악용해 대중을 속이는 방식을 택한다면 이것이 신종 랜섬웨어와 같다는 우려가 나오고 있다.
△AI 의사결정의 공정성 문제 이슈 : 공정성 이슈란, 특정 데이터에 대한 AI 의사결정의 편향성으로 인해 사회적인 문제로 나타나는 경우를 말한다. 미국의 워싱턴과 위스콘신주를 포함해 버지니아 등 특정 주의 법정에서는 범죄자가 향후 재범할 가능성을 예측하는 ‘콤퍼스(COMPAS : Correctional Offender Management Profiling for Alternative Sanctions)’라는 소프트웨어가 있다. 각 범죄자들은 AI가 판단한 재범 확률에 따라 개인별 점수가 산출된다. 그러나 콤퍼스의 점수 결과는 실제 범죄 형량이 아닌 인종에 의해 점수가 달라진다. 흑인이 백인에 비해 훨씬 높은 점수를 받는 것이다. 이들이 범죄 이력에 비해 훨씬 높은 점수를 받는 이유는 단지 ‘흑인’이기 때문인 것이다. 이는 인종차별적인 요소가 데이터 값에 반영된 사례다.
△데이터 프라이버시(Data Privacy) 이슈 : 오픈AI의 챗GPT 사용 시 사용자 약관 내용을 살펴보면 수집되는 사용자들의 인풋 즉, 프롬프트를 포함한 정보와 계정 형성 시 입력했던 소셜 네트워크 정보 등 모두 수집이 가능하고 해당 데이터의 사용처가 서비스 제공 개선 연구 및 새 서비스 개발 등에 사용된다는 내용이 있다. 사용자가 제공하는 서비스 프롬프트, 소스코드 등 입력하는 모든 정보가 오픈AI에 저장된다는 것을 의미한다.
고려대 이상근 교수는 “AI 반도체 기술 발전으로 초거대 AI 기술이 점점 진화하고 있는 것을 알 수 있다”면서, “미국·유럽의 관련 정책을 보면 AI가 가할 수 있는 위협에 대한 대응방안을 고심하고 있다”고 말했다. 그러면서 “결론적으로 보안담당자와 AI 기술자들이 협력해 초거대 AI 시대의 AI 자체 취약점 및 사이버 보안에 대한 잠재적 위협 해결을 위해 함께 고민하고 대응방안을 마련해야 할 시기”라고 덧붙였다.
[이소미 기자(boan4@boannews.com)]
<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>