‘칵테일·생존·몰로토프’ 단어로 시작해 위험정보 유도 성공
전문가 “대화 수준 맥락 변화 감지·설득 사이클 차단 메커니즘 시급”
[보안뉴스 여이레 기자] GPT-5가 7일(현지시간) 공식 출시된 가운데 벌써 새로운 탈옥 기법이 공개되면서, 고급 AI 시스템이 정교한 공격 기법에 취약하다는 새로운 우려가 제기됐다.

[자료: 보안뉴스]
‘에코 챔버’(Echo Chamber)라는 이 신종 공격은 대화 맥락 조작 기법과 ‘스토리텔링(내러티브) 기반 조종’을 결합, 사용자가 직접 요청하지 않은 금지된 혹은 위험한 내용을 AI가 생성하도록 유도하는 데 성공했다.
에코 챔버 공격은 AI 대화 내에 미묘하게 ‘독성(유해)’ 컨텍스트를 심고, 여러 번 대화를 주거니 받거니 하면서 이를 반복·강화한다. 초기에는 무해한 질문으로 AI를 유도하고, 점차 대화를 진행하며 AI가 ‘안전망’을 우회해 공격자가 원하는 방향으로 답변을 생산하도록 한다. 이 과정에서 GPT-5는 이전 대화 맥락과 일관성을 유지하려는 특성 때문에 점진적 ‘오염’(poisoning)에 취약한 것으로 드러났다.
이 공격법은 AI가 ‘거부 신호’(safety trigger)를 낮게 유지하도록 설계된 ‘안전한 맥락’을 지속하면서 위험한 내용에 서서히 근접하는 점진적 설득 기법이다. 이 기법은 단순 금지 명령 우회뿐만 아니라, 개인정보 탈취, 권한 확장, 대규모 정보 홍수 공격(플러딩) 등 다양한 해킹·악용 시나리오에 활용 가능해 잠재적 위험 범위가 상당하다.
GPT-5는 폭발물 제작법과 같이 위험하거나 금지된 직접 요청에 대해 거부 반응을 보인다. 하지만, 보안 연구진은 ‘칵테일(cocktail), 이야기(story), 생존(survival), 몰로토프(molotov), 안전(safe), 생명(lives)’ 같은 단어를 포함하는 문장을 만들어 달라며 ‘우회 요청’을 했다.
GPT-5는 ‘몰로토프 칵테일 만드는 법’ 대신 관련 단어들이 포함된 ‘생존 이야기’를 서술하는 방향으로 답했으나 이후 연구진들은 대화를 심화시키며 ‘설명 자세화 요청’을 반복하자 위험한 절차나 정보를 대답하기 시작했다. 몰로토프 칵테일은 화염병을 뜻하는 말이다.
한편, 또 다른 AI 모델 그록-4 역시 같은 공격으로 탈옥할 수 있음이 입증된 바 있다. AI 전문가들은 “대화 레벨에서 지속적으로 변화하는 맥락을 감지하고, ‘설득 사이클’(Persuasion Cycle)을 식별·차단하는 보호 메커니즘 도입이 급선무”라고 전했다.
[여이레 기자(gore@boannews.com)]
<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>