[AI와 보안] 악성 문서 250개만 있어도 초거대 AI 모델 해킹 통로 뚫린다

오염 여부는 모델 크기와 상관없어…“악성 문서 250개면 해킹 통로 뚫린다”

[보안뉴스 김형근 기자] 고성능 AI 챗봇의 기반인 거대 언어 모델(LLMs)이 당초 생각보다 데이터 오염 공격에 더 취약한 것으로 드러났다.

미국 앤트로픽과 영국 AI 보안 연구소(UK AI Security Institute), 앨런튜링연구소(Alan Turing Institute) 연구진은 아무리 큰 LLM이라도 단지 250개의 악성 문서만 있으면 모델 전체를 손상시킬 수 있다는 사실을 발견했다.

관련 연구는 논문 공유 사이트 ‘아카이브’(arXiv)에 공개됐다.

▲AI 모델 크기에 상관 없이 모델 오염 공격에 필요한 악성 학습 데이터 수는 일정한 것으로 나타났다. [자료: arXiv]

LLM 훈련 데이터의 대부분이 공개된 인터넷에서 수집되기 때문에, AI는 데이터 오염 공격의 위험에 항상 노출되어 있다.

오랫동안 전문가들은 모델이 커질수록 악성 데이터의 비율이 줄어들기 때문에, 가장 큰 모델을 손상시키려면 엄청난 양의 데이터가 필요할 것이라고 추정해 왔다. 일종의 ‘희석 효과’를 기대한 것이다.

이번 연구는 그러한 가정에 이의를 제기한다. 모델 크기에 상관없이 오염에 필요한 악성샘플 수는 거의 일정했다. 공격자가 단지 소수의 오염된 문서만으로도 잠재적으로 심각한 피해를 줄 수 있다는 결론이다.

공동 연구팀은 6억-130억 개 사이 다양한 파라미터를 가진 LLM들을 직접 만들고, 각 모델에 100-500개 사이의 악성 파일을 삽입해 훈련시켰다.

또 악성 파일의 구성 방식이나 훈련 중 삽입 시점을 바꿔가며 다양한 조건에서 공격을 시도했다. 모델 훈련의 마지막 단계인 미세 조정(Fine-tuning) 단계에서도 공격을 반복했다.

그 결과 모델 크기는 전혀 중요하지 않다는 결론을 얻었다. 연구팀은 단 250개의 악성 파일만으로도 모든 모델에 백도어를 설치하는 데 성공한 사실을 공개했다.

가장 작은 모델보다 20배 더 많은 깨끗한 데이터로 훈련된 가장 큰 모델도 마찬가지였다. 깨끗한 데이터를 아무리 추가해도 악성코드가 희석되거나 공격이 멈추지 않았다.

연구팀은 “AI 커뮤니티가 모델을 무작정 키우는 것보다 방어책을 강화하는 데 우선순위를 두어야 한다”고 제언했다.

※ 논문 제목: Poisoning Attacks on LLMs Require a Near-constant Number of Poison Samples

[김형근 기자(editor@boannews.com)]

헤드라인 뉴스

TOP 뉴스

Copyright thebn Co., Ltd. All Rights Reserved.

시큐리티월드

회원가입

Passwordless 설정

PC버전