“AI의 잠재적 악용 가능성 실증...금융·의료 등 산업과 협력 확대”
[보안뉴스 조재호 기자] 직접 컴퓨터를 조작하며 자료를 찾고 문서를 열어 작업하는 등 사람 일을 대신해 주는 ‘인공지능(AI) 에이전트’들이 쏟아져 나오고 있다. 이들의 안전 설정을 뚫고 나쁜 일을 하도록 유도할 수 있다는 사실을 국내 AI 스타트업 연구진이 실증했다.
에임인텔리전스는 오픈AI의 GPT 오퍼레이터와 앤트로픽의 클로드, 구글 제미니 등 실제 AI 에이전트의 보안 취약성을 실증한 연구 결과를 28일 발표했다.
AI 에이전트가 계정 삭제나 맞춤형 피싱, 혐오 콘텐츠 게시 등 광범위한 영역에 걸쳐 악성 명령을 수행하도록 할 수 있는 보안 취약점이 있는 것으로 나타났다. 연구진이 만든 공격 프레임워크는 최대 40% 이상의 성공률을 기록했다.

▲연구진의 AI 에이전트 공격 프레임워크 구성도 [자료: 에임인텔리전스]
연구진은 실험을 위해 화면 기반의 범용 Detox2Tox 공격(SUDO·Screen-based Universal Detox2Tox Offense)이라는 공격 프레임워크를 개발했다. 이는 AI가 위험한 명령을 거절하게 하는 ‘안전 정책’을 우회해 악성 행동을 하게 만드는 방법이다.
AI가 거절하는 악성 명령을 안전한 표현으로 변환한 후 AI에게 친절하게 설명을 시킨다. 이후 시각정보까지 이해하는 ‘비전-언어’(Vision Language Model)를 활용해 컴퓨터 화면을 보면서 구체적 실행 방법을 생성하게 한다. 이후 안전한 표현의 요청을 바꿔 본래 의도한 악성 명령을 실행하게 하면 AI 에이전트는 그대로 실행한다. 연구진은 이 과정을 ‘톡시파이’(toxify)라고 이름 붙였다.
그래도 AI가 명령을 수행하지 않으면 거절한 이유를 분석해 더 정교한 방법으로 수정했다. 단순 공격 시도만으로도 24%, 방법을 수정하는 방식으로는 41%의 성공률을 보였다. 이는 컴퓨터용 AI 에이전트에 대한 공격으로는 전례 없는 수치라는 설명이다.
이 연구는 자연어처리 학회 ACL에 ‘sudo rm -rf agentic_security’라는 제목으로 발표됐다. 논문 제목은 리눅스 운영체제에서 시스템 전체를 삭제해버리는 명령어에서 따왔다. 산업계 응용과 실제 활용 사례를 다루는 연구자들의 관심을 끌고 있다고 연구진은 밝혔다.
유상윤 에임인텔리전스 대표는 “이번 연구를 통해 AI 기술이 산업과 일상에 도입되기 전 ‘안전성’이 먼저 확보돼야 한다는 점이 드러났다”며 “기존 금지어 중심의 단순한 보안 필터만으로는 문맥을 변경하거나 겉모습만 안전해 보이는 지능형 공격을 막을 수 없다”고 말했다.
이 회사는 문맥을 이해하고 의도를 파악할 수 있는 차세대 AI 보안 기술을 개발한다. 이번 연구를 바탕으로 보다 안전한 AI 활용 환경을 만들고, 금융이나 의료처럼 안정성이 중요한 산업 분야와 협력을 확대할 계획이다.
[조재호 기자(sw@boannews.com)]
<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>