“기술 발전 위해 필요한 과정이란 건 인정”
[보안뉴스 강현주 기자] 앤트로픽이 최근 발표한 AI 모델 ‘페이블’의 보안 안전장치(Guardrails)가 너무 엄격하다는 불만이 제기되고 있다.
페이블은 앤트로픽의 사이버보안 특화 모델 ‘미토스’(Mythos)의 제한적 공개 버전이다. 사이버 보안 취약점 공략에 악용될 수 있는 기능을 막았다.

[출처: 연합]
10일(현지시간) 테크 분야 외신에 따르면 이 제약에 대해 사이버보안 연구원들이 온라인을 통해 불만을 토로하고 있다.
IBM 소속 한 보안 연구원은 “페이블은 사이버보안과 조금이라도 연관성이 있는 요청은 전부 거부한다. 심지어 보안 관련 블로그 글을 읽어달라는 무해한 작업마저도 거부했다”고 밝혔다.
프롬프트가 안전장치를 작동시키면 페이블은 대화를 일시 중단하고 “보안 조치에 따라 이 메시지가 사이버보안 또는 생물학 관련 주제로 분류되어 차단되었습니다”와 같은 메시지를 띄운다는 것이다.
AI 보안 스타트업 톨모 관계자는 테크크런치(TechCrunch)와 인터뷰를 통해 “AI에게 안전한 코드를 작성해 달라고 요청하면, 이를 소프트웨어 엔지니어링의 모범 사례가 아니라 사이버보안 관련 작업으로 간주하여 모델의 성능을 강제로 다운 그레이드를 해버린다”고 밝혔다.
페이블은 안전장치에 걸릴 경우 하위 모델인 ‘클로드 오퍼스 4.8’로 자동 전환되도록 프로그래밍돼있다. 이는 단어 기반으로 작동하는 것으로 보이며, ‘사이버보안’의 어휘 범주에 속하는 단어가 조금이라도 들어가면 무조건 발동된다는 것이다.
다만 아직 초기 단계이고 앤트로픽 역시 안전장치를 조정해 나가는 과정이기 때문에 이해되는 부분이라는 게 그의 설명이다. 기술 발전을 위해 거쳐야 할 과정임을 인정한다는 것이다.
그는 “앤트로픽을 비롯한 유력 AI 기업들이 차세대 사이버보안 기업들과 더 많이 협력하면서 안전장치는 점차 진화할 것”이라며 “처음 출시할 때는 보안망을 촘촘히 쳐서 위험 요소를 최대한 잡아내고, 시간이 지나면서 안전장치를 완화하는 편이 낫다”고 말했다.
또 다른 보안 연구원은 엑스(X, 구 트위터)를 통해 “그저 코드 리뷰를 요청했을 뿐인데도 페이블의 안전장치가 작동했다”며 불만을 터뜨렸다.
이러한 안전장치들은 페이블이 악성코드를 개발하거나 소프트웨어를 해킹하는 데 악용될 위험을 줄이기 위해 도입됐다. 앤트로픽은 지난 4월 미토스를 처음 출시했을 당시, 주요 소프트웨어와 국가 기간시설의 보안을 강화하기 위한 목적의 ‘프로젝트 글래스윙’을 통해 소수의 기업 및 기관에만 모델 사용을 제한한 바 있다. 최근 앤트로픽은 15개국 수백 개의 조직으로 미토스의 접근 권한을 확대한다고 발표했다.
페이블의 안전장치에 대한 이 같은 불만에 대해 앤트로픽은 아직 특별한 답변을 내놓지 않았다.
[강현주 기자(jjoo@boannews.com)]
<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>














