‘사용자 정렬 크리틱’ 도입으로 에이전트 행동 안전성 확보
[보안뉴스 김형근 기자] 구글이 크롬 브라우저에 제미나이 AI 모델을 통합하고 에이전트 기능 도입도 추진함에 따라 브라우저 사용자를 위한 AI 보안 기능도 함께 강화하고 있다.

[자료: 연합뉴스]
구글은 공격자가 사용자에게 해를 입히기 어렵게 하고 공격 비용이 많이 들도록 다층 방어를 구현, 크롬 에이전트 기능이 안전하게 사용될 수 있게 한다는 목표다.
특히 에이전트 기반 브라우저에 대한 주요 위협인 간접 프롬프트 인젝션 방어에 초점이 맞춰져 있다. 간접 프롬프트 인젝션은 데이터 유출이나 기타 원치 않는 작업을 에이전트가 수행하도록 유도하는 AI 대상 공격이다.
10일 구글에 따르면 위협 행위자는 악성 사이트, 타사 콘텐츠가 포함된 아이프레임, 리뷰 등 사용자 생성 콘텐츠를 통해 간접 프롬프트를 전달할 수 있다.
이러한 위협에 대응하기 위해 구글은 제미나이로 구축된 ‘사용자 정렬 크리틱’(User Alignment Critic)이라는 새로운 별도 AI 모델을 도입했다.
신뢰할 수 없는 콘텐츠와는 격리돼 있는 이 모델의 목적은 에이전트의 작업을 심사하고, 제안된 작업이 사용자가 지시한 목표와 일치하는지 확인하는 것이다. 이를 통해 수행 목표를 가로채 다른 작업을 하게 하거나 데이터가 유출되는 것을 막는다.

▲구글 사용자 정렬 크리틱 작업 흐름도 [자료: 구글]
구글은 기존 사이트 격리 및 동일 출처 정책 보호 기능을 ‘에이전트 오리진 세트’(Agent Origin Sets)로 확장해 손상된 에이전트가 통제를 우회할 수 있는 시나리오에 대처하고 있다. 에이전트가 현재 작업과 관련된 출처의 데이터에만 접근하도록 구조적으로 제한한다.
또 투명성과 제어 능력을 제공하기 위해 에이전트는 작업 로그를 생성하며, 결정론적 검사와 모델 기반 검사를 모두 거쳐 영향이 큰 작업 전엔 사용자 확인을 유도한다. 이 과정은 모델 오류뿐 아니라 적대적 입력에 대해서도 보호 장치 역할을 한다.
에이전트는 은행이나 의료 포털 등 민감한 사이트로 이동하거나, 구글 비밀번호 관리자를 통한 로그인, 결제 및 메시지 전송이 이뤄지기 전에 확인을 요청한다.
이와 함께 에이전트는 프롬프트 인젝션 분류기를 계획 모델의 추론과 병렬로 실행해 페이지를 검사하고 사용자 목표와 일치하지 않는 행동을 방지한다.
[김형근 기자(editor@boannews.com)]
<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>










.gif)



