[한국정보공학기술사 보안을 論하다-2] LLM 위협과 대응방안

2024-07-16 17:24
  • 카카오톡
  • 네이버 블로그
  • url
대규모 언어모델(LLM) 진화는 인간의 퇴보를 부른다
당장은 앞에 놓인 AI 관련 보안 취약점과 위협, 그리고 위험을 힘 모아 해결해야


<보안뉴스>에서는 한국정보공학기술사회 소속 기술사들이 다양한 관점에서 고민해온 주요 보안 이슈에 대한 의견들을 들어보고자 합니다. 10회 연재로 진행되는 [한국정보공학기술사 보안을 論하다] 시리즈에 많은 관심 부탁드립니다. [편집자주]

[연재 목차]
1. 클라우드 보안의 허와 실
2. LLM 위협과 대응방안
3. 개인정보 보호의 중심에서 활용을 외치다
4. 블록체인의 쓸모와 보안
5. 공공시스템의 보안이슈
6. 신뢰할 수 있는 소프트웨어를 위하여
7. 데이터 거래와 보안
8. 비대면 개통의 편리성과 보안 문제점
9. 기술적 보안 효과를 극대화하려면
10. 모바일 신분증의 보안위협과 대응방안


[이미지=gettyimagesbank]

[보안뉴스= 이상용 기술사/짠컴퍼니] 대규모 언어모델(LLM : Large Language Model)은 인공지능에서 없어서는 안 될 기술이 되었다. 그 능력은 쏟아지는 빅데이터와 클라우드, 그리고 모바일 엣지와 AI 반도체 기반 위에 진화를 거듭하고 있다. 보통 아기는 10개월 즈음 붙잡고 설 수 있고, 15개월 경에 걸음마를 시작한다. 현재의 진화 속도라면 환경을 인지하며 추론하고 스스로 생각할 수 있는 언어모델이 나타나지 않을까 염려된다.

LLM은 줄거리를 요약하고, 다른 나라의 언어로 번역하며, 새로운 글이나 이미지 혹은 영상 까지도 생성이 가능하다. LLM은 구글에서 최초 발표한 어텐션과 트랜스포머에 의해 발전된 인류의 산물이다. 어텐션 메커니즘을 활용하는 딥러닝 모델인 트랜스포머의 등장 이후 생성형 AI의 기반 기술로서 그 역할이 커졌다.

생성형 인공지능 AGI 분야에서는 하루가 멀다 하고 새로운 인공지능 서비스가 등장하고 있다. 현재 대규모 언어모델(LLM) 상용 모델과 오픈소스 모델로 나눌 수 있다. 상용 모델로는 △ 오픈AI의 GPT-4 △구글 딥마인드의 Gemini △데이터브릭스의 DBRX 등이 있으며 오픈소스 모델로는 △메타의 LLaMA △구글의 Gemma △미스트랄 AI의 Mistral-7B △MoaicML의 MPT-7B △앤트로픽의 Claude 3.0 등이 있다. 최근 2024년 3월 앤트로픽(Anthropic)에서 클로드 3(Claude 3.0) 모델을 공개하면서 거대언어모델(LLM)의 지각변동을 예고했다.

현재 이 분야의 대표적인 기업을 꼽으라고 하면 모두가 오픈AI를 떠올릴 것이다. 미국의 대표 인공지능 연구소 오픈AI에서 2024년 3월 29일 ‘합성음성의 도전과 기회 탐험’이라는 글을 자사 블로그에 게시했고 많은 매체에서 앞다투어 소개했다. 15초 분량의 사람의 음성을 학습하면 화자와 유사한 목소리를 생성할 수 있다고 한다. 2022년부터 개발해 온 ‘Voice Engine’은 현재 짧은 분량의 목소리 학습만으로 화자의 목소리에 가까운 흉내를 낼 수 있다고 하여 오남용을 우려해 합성음성의 기술을 일반인에게 공개하는 것은 시기상조라 생각하여 공개를 하지 않았다. 하지만 지난 ChatGPT 사례를 보더라도 머지않아 이 기술은 일반인에게 공개가 될 것이다.

오픈AI의 행보는 여기서 멈추지 않았다. 텍스트로 명령어를 입력하면(설명 프롬프트) 고화질 동영상을 만들어내는 ‘소라(SORA)’를 2024년 2월 중순 홈페이지를 통해 공개한 이후 놀라운 행보를 이어 가고 있다. 세계적인 애니메이션 제작소인 픽사에서도 수개월이 걸려야 하는 정교한 동영상을 소라는 눈 깜짝할 사이에 처리했다. 또 하나의 놀라운 서비스가 등장하며 AGI 구현 기간을 단축했다는 평가를 받고 있다. 인공지능의 특이점 이자 인간의 고유 영역이었던 언어 사고 능력을 기계가 갖출 날이 머지않았다.

언어를 깊이 이해할수록 인간의 요구사항을 정확하게 해석할 수 있다. 대규모 언어모델(LLM)의 능력은 이제 무한한 창의성을 가진 어린아이의 모습과 흡사 비슷하다. 따라서 인공지능의 민주화와 전문화는 악의적인 사용자의 오·남용에 의해 사회적·국가적으로 큰 위협이 될 수 있다. 최근 연구에 따르면 LLM의 보안 취약성에 대한 우려 또한 커지고 있다. 보안 취약성으로 인해 자산의 위협으로 이어지며 결국 위험성이 커져 자산이나 인명피해로 이어질 수 있다. △개인정보 보호 및 기밀성 침해(악성 콘텐츠 삽입 또는 LLM에 중요한 정보를 입력으로 개인 정보보호 및 기밀성 손상) △저작권 충돌(모델 훈련 데이터 법적, 윤리적 이슈) △잘못된 정보 및 허위 정보(오해, 혐오, 성적 수치심, 허위 정보 등 사회 전체 악영향) △대중의 신뢰 상실( 의료, 금융, 교육 등 LLM 의존성이 큰 분야는 그 산업에 심각한 결과 초래) △경제적 영향(개인과 조직의 경제적 이익 손상, 가짜 뉴스 기사를 생성하거나 재무 보고서 조작, 재정적 손실과 명예 훼손) 등이다.

인공지능의 적대적 공격으로는 기밀성과 무결성 측면으로 나눌 수 있다. 기밀성 측면으로는 △모델 반전 공격(학습에 사용된 데이터를 추출) △모델 추출 공격(머신러닝 모델 추출) 무결성 측면으로는 △중독 공격 (훈련 데이터셋을 손상시킴) △회피공격(적대적 예제를 사용하여 모델의 예측 조작)으로 구분할 수 있다.

LLM의 보안 취약성 중 대표적인 이슈가 환각(할루시네이션)이라는 현상이다. 모델이 잘못된 답변을 사실인 것처럼 가장하는 현상이다. 한때 인터넷을 뜨겁게 달구었던 세종대왕 맥북 던짐 사건은 웃지 못할 LLM의 한계이자 진지하게 돌아봐야 할 윤리적인 문제이기도 하다. 홍콩 과학기술대학교 인공지능연구센터 연구진에 따르면 환각에는 두 가지 유형으로 나뉜다. 내재적(Intrinsic) 환각과 외재적(Extrinsic) 환각이 그것이다. 내재적 환각은 소스 콘텐츠와 모순되는 출력을 생성하는 유형이다. 이는 입력된 정보와 관련은 있으나 틀린 내용을 출력하는 오류이다. 외재적 환각은 소스 콘텐츠에서 확인할 수 없는 출력을 생성하는 유형이다. 이는 입력된 정보와는 전혀 무관한 내용을 출력하는 오류이다.

LLM이 환각 현상을 일으키는 원인은 무엇일까? 첫 번째로 휴리스틱 데이터 수집이다. 모델 학습을 시키기 위해서는 질문과 정답 데이터가 필요하다. 수집된 정답 데이터가 오염될 가능성이 있다. 두 번째로 불완전한 표현 학습과 잘못된 디코딩이다. 트랜스포머는 인코더와 디코더의 구조를 가지고 있다. 인코더는 학습에 필요한 데이터에서 통계적인 방법으로 데이터를 압축하여 특징을 요약하는데 이때 데이터 간의 잘못된 상관관계를 학습할 가능성이 있으며 그 결과 잘못된 생성을 야기할 수 있다. 세 번째로 파라메틱 지식 편향이다. 사전 학습된 모델을 파인 튜닝해도, 이미 학습된 모델 파라미터의 지식을 기억하기 때문에 환각을 초래할 수 있다. 네 번째로 최신성 문제이다. LLM의 학습에 필요한 데이터는 과거의 기록들이다. 실시간성에 대응하기에 허점이 있는 것이다.

환각을 완화하기 위해서 데이터 측면에서는 믿을 만한 데이터셋을 구축해야 한다. Annotator를 고용하여 깨끗하고 믿을 만한 정답 데이터를 구축한다. 기존 데이터에서 모순된 정보를 찾아 노이즈가 포함된 데이터를 필터링하거나 수정하는 것이다. 아키텍처 측면으로는 인코더와 디코더의 구조를 개선하는 여러 방법들을 사용한다. 디코더의 경우에는 Uncertainty-aware decoder, Dual decoder, Constrained decoder의 여러 가지 디코더 구조가 제안됐다. 학습 측면으로는 RLHF로 설계해 환각 감소 목표를 달성하도록 한다. Multi-task Learning으로 다양한 NLG 작업에서 환각을 제거하도록 한다. 사후 처리 측면으로는 환각을 정정할 수 있도록 피드백 시스템을 구축하는 것이다.

OWASP(The Open Web Application Security Project)가 대규모 언어 모델(LLM) 애플리케이션에서 치명적인 취약점 상위 10가지를 발표했다. 상위 10가지는 △LLM01 : Prompt Injection △LLM02 : Insecure Output Handling △LLM03 : Training Data Poisoning △LLM04 : Model Denial of Service △LLM05 : Supply Chain Vulnerabilities △LLM06 : Sensitive Information Disclosure △LLM 07 : Insecure Plugin Design △LLM08 : Excessive Agency △LLM 09 : Overreliance △LLM10 : Model Theft이다.

이 중 몇 가지 취약점을 살펴보면 다음과 같다. LLM01. 프롬프트 주입이다. 질문을 던질 때 의도치 않는 동작을 수행하게끔 유도한다. LLM 모델의 필터를 우회하는 것이다. 데이터 유출, 무단 접근 또는 기타 보안 침해를 비롯한 의도치 않은 결과로 이어질 수 있다. 대응방안으로는 사용자가 제공한 프롬프트에 대해 엄격하게 입력값 검증 및 정제 시행 악성 사례에 대해 LLM을 정기적으로 업데이트와 미세조정을 실시하는 것이다.

LLM02. 안전하지 않은 결과 처리이다. 뜻하지 않게 민감 정보, 독점 알고리즘 또는 기타 기밀 세부 정보가 드러나며, 이에 지적재산 무단 접근과 개인정보 침해로 확대된다. 대응방안으로는 엄격한 출력 필터링 및 맥락 인식 메커니즘을 시행하고, 차등화된 개인정보 보호기법 및 익명화 모델을 사용하는 것이다.

LLM03. 학습데이터 중독이다. 공격자가 LLM의 보안, 윤리적 행동을 손상시키는 것으로 백도어 또는 편향을 도입하기 위해 LLM의 학습 데이터나 미세조정 절차를 조작하는 것으로, 대응방안으로는 믿을 수 있는 출처의 데이터 사용 및 사전 품질 검증으로 무결성을 보장하고 데이터 취약점과 편향을 제거하도록 정제 및 사전 처리 기법을 시행하는 것이다.

LLM09. LLM 생성 콘텐츠에 대한 과도한 의존이다. 부정확한 정보의 확산과 의사결정 과정에서 사람이 제시하는 의견이 감소되고 비판적 사고의 축소 등의 부작용 우려가 있다. 대응방안으로는 사람이 직접 감독하고 검토하는 프로세스를 구현하여 LLM에서 생성된 콘텐츠가 정확하고 적절하며 편견이 없는지 확인하는 것이다.

얼마 전 구글은 연례 광고 안전 보고서를 발표했다. LLM을 활용해 광고 안전 조치를 진행한 것으로 알려졌다. LLM은 대량의 콘텐츠를 신속하게 검토하고 해석하는 동시에 해당 콘텐츠를 정확히 판단한다. 기존 전통적인 인공지능 모델에 비해 정확도가 높다. 오픈AI의 헌장에는 ‘Long-term safety: make AGI safe’ 항목이 있으며, 최근 기술들을 위험기술(레드팀)로 분류해 오용 가능성을 지속 연구하고 연구자, 아티스트 그룹에게 기술을 공유하고 있다고 설명한 바 있으며, SORA에 워터마크를 삽입하겠다고 밝혔다.


▲이상용 기술사[사진=한국정보공학기술사회]
이러한 기술은 언제든 악의적인 사용자에 의해 무력화될 수 있다. LLM의 긍정적인 효과와 영향력 대비 일자리의 위협, 선거 조작, 사회의 분열 등을 꾀하는 허위 정보(페이크)가 조장하고 있어 사회적 이슈를 기하급수적으로 생성하고 악화시킨다고 비판 맞아 마땅하다. 인간은 LLM과 생성형 AI에 의해 퇴행적 진화의 시작점에 서 있는 것은 아닐까 싶다. 역진화를 통해 때로는 이미 발달된 형질의 퇴행이 종의 적합도를 증가시킨다는 연구 결과가 있다. 과연 우리가 잃은 것은 무엇이고 퇴행적 진화로 얻는 것은 무엇일까? 득과 실을 논의하기 하기에는 시기 상조일까?

당장 보안 취약성에 대한 우려와 사생활 침해 및 기밀 유지, 잘못된 정보와 허위 정보 유포 등 대중의 신뢰와 경제적 영향력들이 큰 관심을 받고 있다. 연구자와 업계 전문가들이 협력해 이러한 보안 취약점을 해결하고, 다양한 응용 프로그램에서 LLM의 안전한 설계 및 개발과 배포를 보장해야 한다. 데이터 보안, 개인정보 보호, 저작권 보호, 사생활 보호, 직업 보호를 위해 개발자, 보안 리더, 보안팀, 소속 기업의 자발적인 노력이 동반되어야 한다. 당장은 앞에 놓인 취약점과 위협과 위험을 해결해 보자.

“끊임없는 노력과 실행이야말로 퇴행적 진화의 시작이다.”
[글_ 이상용 기술사/짠컴퍼니]

필자소개_
게임회사의 개발자로 시작하여 15년 동안 몸담고 있던 금융전산실을 박차고 나와 현재 스타트업 짠컴퍼니에서 선주님을 도와 3년째 테크리드로 제2의 인생을 열심히 살아가고 있다. 그룹 화상 채팅 기반 글로벌 스타-팬 커뮤니티 라이브 플랫폼 ‘짠(JJAANN)’의 풀스택 개발자로 정신없이 신규 피처 개발 중이다.

<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>

연관 뉴스

헤드라인 뉴스

TOP 뉴스

이전 스크랩하기


과월호 eBook List 정기구독 신청하기

    • 유니뷰코리아

    • 인콘

    • 엔텍디바이스코리아

    • 이노뎁

    • 다봄씨엔에스

    • 아이디스

    • 씨프로

    • 웹게이트

    • 지오멕스소프트

    • 하이크비전

    • 한화비전

    • ZKTeco

    • 비엔에스테크

    • 비엔비상사

    • 원우이엔지
      줌카메라

    • 지인테크

    • 다후아테크놀로지코리아

    • 이화트론

    • 다누시스

    • 테크스피어

    • 렉스젠

    • 슈프리마

    • 혜성테크윈

    • 시큐인포

    • 미래정보기술(주)

    • 프로브디지털

    • 인텔리빅스

    • 경인씨엔에스

    • 트루엔

    • 성현시스템

    • 세연테크

    • 비전정보통신

    • 디비시스

    • 동양유니텍

    • 스피어AX

    • 투윈스컴

    • 아이리스아이디

    • 한결피아이에프

    • 유에치디프로

    • 위트콘

    • 주식회사 에스카

    • 포엠아이텍

    • 세렉스

    • 안랩

    • 이글루코퍼레이션

    • 엔피코어

    • 시만텍

    • 트렐릭스

    • 스텔라사이버

    • 신우테크
      팬틸드 / 하우징

    • 에프에스네트워크

    • 미래시그널

    • 케이제이테크

    • 알에프코리아

    • 유투에스알

    • 아이엔아이

    • (주)일산정밀

    • 새눈

    • 에스에스티랩

    • 이스트컨트롤

    • 태정이엔지

    • 네티마시스템

    • 구네보코리아주식회사

    • 티에스아이솔루션

    • 넥스텝

    • 한국씨텍

    • 두레옵트로닉스

    • 에이티앤넷

    • 넥스트림

    • 에이앤티글로벌

    • 현대틸스
      팬틸트 / 카메라

    • 지에스티엔지니어링
      게이트 / 스피드게이트

    • 엘림광통신

    • 보문테크닉스

    • 포커스에이치앤에스

    • 신화시스템

    • 휴젠

    • 이오씨

    • 글로넥스

    • 메트로게이트
      시큐리티 게이트

    • 세환엠에스(주)

    • 유진시스템코리아

    • 카티스

    • 유니온커뮤니티

Copyright thebn Co., Ltd. All Rights Reserved.

MENU

회원가입

Passwordless 설정

PC버전

닫기