생성형 AI가 가드레일 우회해 공격 자동화에 활용
[보안뉴스 김형근 기자] 한 해커가 엔트로픽(Anthropic)의 생성형 AI 클로드(Claude)를 장기간 ‘탈옥’(Jailbreak) 상태로 운용하며 보안 가드레일을 우회해 멕시코 정부 기관을 공격한 정황이 드러났다.
안전장치 역할을 수행해야 할 AI가 오히려 공격 과정에 활용되면서 인공지능 보안 통제 체계의 취약성이 도마 위에 올랐다.

[출처: gettyimagesbank]
이번 공격은 2025년 12월부터 시작된 것으로 알려졌다. 해커는 반복적 프롬프트 주입을 통해 클로드의 안전 가드레일을 점진적으로 무력화했으며, 스페인어로 “버그 바운티 프로그램에 참여 중인 엘리트 해커”라는 역할을 부여하는 등 사회공학적 기법을 병행했다.
초기에는 요청을 거부하던 클로드는 지속적 설득과 맥락 변형이 이어지자 취약점 스캔 방법, 익스플로잇 코드 생성 등 실행 가능한 스크립트를 단계적으로 생성한 것으로 전해졌다. 클로드가 응답 한계에 도달할 경우 해커는 챗GPT로 전환해 측면 이동 및 탐지 회피 전략을 보완하는 방식으로 공격을 이어갔다.

▲멕시코 정부 기관 피해 추정치 [출처: Cyber Security News]
피해 규모도 상당하다. 멕시코 연방 국세청(SAT)에서 약 1억9500만건의 납세자 기록이 유출된 것으로 추정된다. 또 선거관리기구(INE)의 유권자 데이터와 여러 주 정부의 공무원 자격 증명 등 총 150GB 규모의 민감 정보가 외부로 유출됐다는 주장도 제기됐다.
해커는 고성능 인프라 없이 AI 구독 서비스만으로 공격을 수행한 것으로 알려졌다. 보안 패치가 적용되지 않은 웹 애플리케이션과 취약한 인증 체계 등 기존 인프라의 구조적 약점이 AI 기반 자동화 지원과 결합되며 공격 효율이 높아졌다는 분석이다.
클로드를 개발한 엔트로픽은 관련 계정을 즉시 차단하고, 실시간 오용 탐지 기능을 강화한 ‘클로드 4.6 오푸스’를 긴급 배포했다고 밝혔다. 다만 멕시코 정부는 일부 유출 주장에 대해 사실과 다르다는 입장을 내놓은 상태다. 한편 보안 기업 갬빗(Gambit)은 이번 사건을 단독 해커의 소행으로 분석했다.
전문가들은 생성형 AI가 공격 자동화·정교화 도구로 활용될 가능성이 현실화되고 있다며, 기술적 가드레일 강화와 함께 오남용 탐지·차단 체계의 고도화가 시급하다고 지적했다. ‘엘리트 해커’가 아닌, AI를 전략적으로 활용하는 사용자가 새로운 위협 주체로 부상하고 있다는 평가다.
[김형근 기자(editor@boannews.com)]
<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>








.jpg)





