“AI 눈을 속여라”... 구글 딥마인드, 웹 무기화한 ‘AI 함정’ 경고

자율형 AI 에이전트의 인식·추론·행동 공략하는 6대 위협 프레임워크 공개
시맨틱 조작부터 데이터 유출 유도까지... 눈에 보이지 않는 악성 지시어 은닉

[보안뉴스 김형근 기자] 구글 딥마인드 연구진은 최근 자율형 AI 에이전트가 웹을 탐색할 때 직면하는 새로운 취약점인 ‘AI 함정’(AI Agent Traps)에 대한 연구 결과를 발표했다. 인공지능이 스스로 금융 거래를 수행하고 이메일을 관리하며 API를 호출하는 시대가 열리면서, 정보 환경 그 자체가 AI를 노리는 적대적 공격 벡터로 변모했다는 지적이다.

연구진은 AI 함정을 에이전트의 작동 아키텍처를 겨냥한 6가지 범주로 체계화했다.

‘콘텐츠 주입 트랩’은 인간의 시각적 인식과 AI의 기계적 코드 분석 사이 구조적 격차를 악용한다. 해커는 HTML 메타데이터, 투명한 CSS 텍스트, 이미지의 이진 픽셀 데이터(Steganographic) 내부에 악성 지시를 숨겨 AI 모델을 장악한다. 실험 결과 최대 86%의 시나리오에서 에이전트의 통제권이 부분적으로 탈취된 것이 확인됐다.

‘시맨틱 조작 트랩’은 명시적 명령 없이 권위 있는 문체와 편향된 표현으로 AI의 결론을 왜곡하는 기법이다. 이는 안전 필터를 우회해 악의적 지시를 정당한 교육용 가이드인 것처럼 세뇌한다.

AI의 장기 기억 저장소를 오염시키는 ‘인지 상태 트랩’은 검색 증강 생성(RAG) 지식 기반에 조작된 데이터를 주입해 에이전트가 해커의 콘텐츠를 검증된 사실로 출력하게 만든다. 연구에 따르면 단 0.1% 미만의 데이터 오염만으로도 목표 쿼리에 대해 80% 이상의 백도어 공격 성공률을 보였다.

‘행동 제어 트랩’은 에이전트가 민감한 사용자 데이터를 수집해 해커의 엔드포인트로 전송하도록 강제한다. 자식 에이전트를 생성하는 기법을 통해 58~90%에 달하는 임의 코드 실행 성공률을 기록했다.

‘시스템적 트랩’은 다중 에이전트 환경의 역학을 무기화해 시장의 플래시크래시(Flash Crash)나 대규모 서비스 거부(DoS) 사태를 유발한다.

‘참여자 개입 트랩’(Human-in-the-Loop)은 자동화 편향과 승인 피로감을 악용해, 악성 작업을 인간 운영자가 직접 승인하도록 유도하는 수법이다. 실제로 숨겨진 CSS 프롬프트가 랜섬웨어 설치 지침을 정당한 보안 패치 가이드처럼 요약해 전달한 사례도 보고됐다.

연구진은 가장 우려스러운 부분으로 악성 웹 서버가 방문자의 브라우저 속성을 분석해 AI 에이전트 여부를 식별한 뒤, 사람 눈에는 보이지 않는 프롬프트 주입 명령을 내리는 ‘동적 클로킹’(Dynamic Cloaking) 기술을 꼽았다.

이에 대응하기 위해 △적대적 훈련을 통한 모델 강화 △런타임 방어 시스템 구축 △생태계 차원의 웹 표준 등 3단계 다중 보안 체계가 필요하다고 제언했다.

[김형근 기자(editor@boannews.com)]

헤드라인 뉴스

TOP 뉴스

Copyright thebn Co., Ltd. All Rights Reserved.

시큐리티월드

회원가입

Passwordless 설정

PC버전