웹페이지·이메일 속 숨은 지침이 AI 에이전트 조종…사회공학공격과 결합 우려
[보안뉴스 김형근 기자] 22일(현지시간) 오픈AI는 블로그 포스트를 통해 아틀라스 AI 브라우저가 직면하고 있는 프롬프트 인젝션(prompt injection) 공격은 온라인 스캠이나 사회공학적 기법처럼 완전히 해결하기 어려운 숙제가 될 것이라고 고백했다.

[자료: 오픈AI]
프롬프트 인젝션이란 웹페이지나 이메일에 숨겨진 악성 지침을 통해 AI 에이전트가 사용자 의도와 다른 행동을 하도록 조작하는 공격 기법을 말한다.
10월 출시된 챗GPT 아틀라스 브라우저는 구글 문서에 적힌 짧은 문구만으로 브라우저 동작을 바꿀 수 있음이 증명되는 등 보안 취약점을 드러낸 바 있다.
또 영국 국가사이버보안센터(NCSC) 역시 이달 초, 생성형 AI에 대한 이러한 공격은 완전히 없앨 수 없으며 피해를 줄이는 것에 집중해야 한다고 경고했다.
오픈AI는 마치 ‘시지푸스의 형벌’ 같이 끝없이 반복되는 이 과제에 대응하기 위해 강화 학습으로 훈련시킨 ‘LLM 기반 자동 공격자’(Automated Attacker)라는 카드를 꺼내 들었다.
이 인공지능 해커는 시뮬레이션 환경 내에서 타깃 AI의 내부 추론 과정을 들여다보며 수백 단계에 걸친 정교한 공격 전략을 스스로 찾아낸다.
이를 통해 레드팀이 발견하지 못한 새로운 공격 패턴을 사전 파악하고, 실제 공격이 발생하기 전에 시스템을 강화하는 신속 대응 주기를 구축했다.
실제 시연 상황에서, 해커 AI는 이메일에 몰래 숨겨둔 명령어로 사용자 몰래 사직서를 발송하도록 AI를 조작했다. 하지만 보안 업데이트가 적용된 후, AI는 이러한 공격 시도를 즉각 감지하고 사용자에게 위험을 경고하며 공격을 차단했다.
그러나 보안 전문가들은 AI 에이전트가 이메일이나 결제 정보 등 민감한 데이터에 접근하는 높은 권한을 가진 만큼 위험은 상존한다고 지적한다.
보안 기업 위즈(Wiz)의 라미 맥카시 연구원은 현재 AI 브라우저가 제공하는 가치에 비해 보안 리스크가 너무 크며 사용자의 주의가 절실하다고 강조했다.
오픈AI는 피해를 줄이기 위해 에이전트에게 너무 광범위한 권한을 주기보다 구체적 지시를 내리고, 메시지 전송이나 결제를 할 때 반드시 사용자 승인을 거치게 할 것을 권고했다.
[김형근 기자(editor@boannews.com)]
<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>








.jpg)





