AI에 ‘나쁜 짓’ 시킬 수 있다...에임인텔리전스, AI 에이전트 보안 취약점 실증

2025-03-28 15:28
  • 카카오톡
  • 네이버 블로그
  • url
AI 에이전트 보안 필터는 금지어 중심, 쉽게 뚫을 수 있어
“AI의 잠재적 악용 가능성 실증...금융·의료 등 산업과 협력 확대”


[보안뉴스 조재호 기자] 직접 컴퓨터를 조작하며 자료를 찾고 문서를 열어 작업하는 등 사람 일을 대신해 주는 ‘인공지능(AI) 에이전트’들이 쏟아져 나오고 있다. 이들의 안전 설정을 뚫고 나쁜 일을 하도록 유도할 수 있다는 사실을 국내 AI 스타트업 연구진이 실증했다.

에임인텔리전스는 오픈AI의 GPT 오퍼레이터와 앤트로픽의 클로드, 구글 제미니 등 실제 AI 에이전트의 보안 취약성을 실증한 연구 결과를 28일 발표했다.

AI 에이전트가 계정 삭제나 맞춤형 피싱, 혐오 콘텐츠 게시 등 광범위한 영역에 걸쳐 악성 명령을 수행하도록 할 수 있는 보안 취약점이 있는 것으로 나타났다. 연구진이 만든 공격 프레임워크는 최대 40% 이상의 성공률을 기록했다.


▲연구진의 AI 에이전트 공격 프레임워크 구성도 [자료: 에임인텔리전스]

연구진은 실험을 위해 화면 기반의 범용 Detox2Tox 공격(SUDO·Screen-based Universal Detox2Tox Offense)이라는 공격 프레임워크를 개발했다. 이는 AI가 위험한 명령을 거절하게 하는 ‘안전 정책’을 우회해 악성 행동을 하게 만드는 방법이다.

AI가 거절하는 악성 명령을 안전한 표현으로 변환한 후 AI에게 친절하게 설명을 시킨다. 이후 시각정보까지 이해하는 ‘비전-언어’(Vision Language Model)를 활용해 컴퓨터 화면을 보면서 구체적 실행 방법을 생성하게 한다. 이후 안전한 표현의 요청을 바꿔 본래 의도한 악성 명령을 실행하게 하면 AI 에이전트는 그대로 실행한다. 연구진은 이 과정을 ‘톡시파이’(toxify)라고 이름 붙였다.

그래도 AI가 명령을 수행하지 않으면 거절한 이유를 분석해 더 정교한 방법으로 수정했다. 단순 공격 시도만으로도 24%, 방법을 수정하는 방식으로는 41%의 성공률을 보였다. 이는 컴퓨터용 AI 에이전트에 대한 공격으로는 전례 없는 수치라는 설명이다.

이 연구는 자연어처리 학회 ACL에 ‘sudo rm -rf agentic_security’라는 제목으로 발표됐다. 논문 제목은 리눅스 운영체제에서 시스템 전체를 삭제해버리는 명령어에서 따왔다. 산업계 응용과 실제 활용 사례를 다루는 연구자들의 관심을 끌고 있다고 연구진은 밝혔다.

유상윤 에임인텔리전스 대표는 “이번 연구를 통해 AI 기술이 산업과 일상에 도입되기 전 ‘안전성’이 먼저 확보돼야 한다는 점이 드러났다”며 “기존 금지어 중심의 단순한 보안 필터만으로는 문맥을 변경하거나 겉모습만 안전해 보이는 지능형 공격을 막을 수 없다”고 말했다.

이 회사는 문맥을 이해하고 의도를 파악할 수 있는 차세대 AI 보안 기술을 개발한다. 이번 연구를 바탕으로 보다 안전한 AI 활용 환경을 만들고, 금융이나 의료처럼 안정성이 중요한 산업 분야와 협력을 확대할 계획이다.

[조재호 기자(sw@boannews.com)]

<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>


헤드라인 뉴스

TOP 뉴스

이전 스크랩하기


과월호 eBook List 정기구독 신청하기

    • 가시

    • 인콘

    • 엔텍디바이스코리아

    • 핀텔

    • KCL

    • 아이디스

    • 씨프로

    • 웹게이트

    • 엔토스정보통신

    • 하이크비전

    • 한화비전

    • ZKTeco

    • 비엔에스테크

    • 아이리스아이디

    • 원우이엔지

    • 지인테크

    • 홍석

    • 이화트론

    • 다누시스

    • 테크스피어

    • 프로브디지털

    • 슈프리마

    • 인텔리빅스

    • 시큐인포

    • 미래정보기술(주)

    • 비전정보통신

    • 지오멕스소프트

    • HS효성인포메이션시스템

    • 인터엠

    • 위트콘

    • 성현시스템

    • 동양유니텍

    • 투윈스컴

    • 스피어AX

    • 다후아테크놀로지코리아

    • 한결피아이에프

    • 경인씨엔에스

    • 디비시스

    • 트루엔

    • 세연테크

    • 아이원코리아

    • 유니뷰

    • 포엠아이텍

    • 넥스트림

    • 아이닉스

    • 아이리스아이디

    • 펜타시큐리티

    • 셀파인네트웍스

    • 지코어코리아

    • 시큐아이

    • 신우테크
      팬틸드 / 하우징

    • 에프에스네트워크

    • 엣지디엑스

    • 케이제이테크

    • 알에프코리아

    • (주)일산정밀

    • 아이엔아이

    • 미래시그널

    • 새눈

    • 네티마시스템

    • 유투에스알

    • 주식회사 에스카

    • 한국아이티에스

    • 케비스전자

    • 레이어스

    • 지에스티엔지니어링
      게이트 / 스피드게이트

    • 에이앤티글로벌

    • 이스트컨트롤

    • 현대틸스
      팬틸트 / 카메라

    • 제네텍

    • 넥스텝

    • 티에스아이솔루션

    • 에이티앤넷

    • 구네보코리아주식회사

    • 엘림광통신

    • 한국씨텍

    • 포커스에이치앤에스

    • 이엘피케이뉴

    • 휴젠

    • 신화시스템

    • 글로넥스

    • 메트로게이트
      시큐리티 게이트

    • 세환엠에스(주)

    • 유진시스템코리아

    • 카티스

    • 유니온커뮤니티

Copyright thebn Co., Ltd. All Rights Reserved.

MENU

회원가입

Passwordless 설정

PC버전

닫기