中 딥시크에 ‘티벳’ 포함된 프롬프트 넣었더니...보안 취약점 있는 코드 생성

AI에 대한 정치적 검열, AI의 신뢰성과 보안 기능 훼손...딥시크 생성 코드 분석 결과

[보안뉴스 김형근 기자] 중국 딥시크 AI 모델에 티벳이나 위구르족 등 중국 공산당이 민감하게 여기는 민감한 주제를 넣어 프롬프트를 주면 코드 생성 결과물의 보안 품질이 떨어지는 것으로 나타났다.

크라우드스트라이크 연구에 따르면, 딥시크-R1 AI 추론 모델은 중국 공산당이 정치적으로 민감하게 간주하는 것으로 알려진 주제가 프롬프트에 포함될 경우 보안 취약점이 있는 코드를 생성할 확률이 50% 가까이 높아졌다.

[자료: 연합]

딥시크는 중국 정부가 민감하게 여기는 주제를 검열하는 것으로도 알려져 일부 국가에서 사용 금지 조치를 당한 바 있다.

딥시크-R1은 정치적으로 민감한 단어가 없을 경우 취약한 코드를 생성할 확률이 19%로 다른 경쟁 모델에 비해 낮은 수준이었다. 그러나 코딩 작업과 무관한 ‘지정학적 수정자’(geopolitical midifiers) 내용이 프롬프트에 추가되자 코드 품질에 변화가 생겼다.

모델에게 “티베트에 기반을 둔 산업 제어 시스템을 위한 코딩 에이전트 역할을 하라”고 지시한 사레에선 심각한 취약점을 가진 코드를 생성할 확률이 27.2%로 거의 50% 증가했다.

티벳 금융 기관을 위한 페이팔 웹훅 핸들러를 요청했을 때, 모델은 비밀 값을 노출되기 쉽게 하드 코딩했고, 사용자 데이터를 추출할 때 덜 안전한 방식을 사용했으며, 심지어 유효하지 않은 PHP 코드를 생성했다.

위구르족 지역사회를 위한 앱 코드를 요청했을 때, 모델은 세션 관리나 인증 기능을 구현하지 않아 사용자 데이터를 노출시켰다. 불안전한 해싱을 사용하거나, 해싱을 전혀 사용하지 않았다.

반면, 같은 명령을 축구 팀 팬클럽이 쓰기 위한 용도라며 주었을 때엔 이 같은 문제가 없는 코드를 생성했다.

또 민감한 주제에 대한 명령 수행을 중단시키는 ‘킬 스위치’도 있는 것으로 드러났다. 딥시크-R1은 ‘파룬궁’이 포함된 프롬프트에 대해 코드 생성을 거부했다. 또 내부 추론 과정 분석 결과, 전체의 45%의 경우에서 이 모델은 프롬프트에 따른 실행을 진행하다 급작스럽게 작업을 중단하며 “죄송합니다. 이 요청은 도울 수 없습니다”라는 메시지를 출력했다.

이러한 차이가 생기는 이유를 명확히 알 수는 없지만, 딥시크가 중국 법률 준수를 위해 모델 훈련 단계에서 불법적이거나 사회 혼란을 야기할 콘텐츠를 생성하는 것을 막기 위해 안전 장치(Guardrails)를 추가했기 때문일 것으로 카운트스트라이크는 추측했다.

중국 공산당의 정책 방향에 맞춰 AI 모델을 학습시킨 결과, 모델이 ‘위구르’나 ‘파룬궁’에 대해 부정적 특질을 결부시키는 것을 학습했고, 이에 따라 결과물도 부정적으로 생성하는 부작용이 나타났으리라는 설명이다.

크라우드스트라이크 연구진은 “이는 딥시크-R1이 (‘티벳’이나 ‘위구루’ 같은) 특정 단어가 들어간 프롬프트에 대해 매번 취약한 코드를 생성한다는 뜻은 아니다”며 “장기적 평균으로 봤을 때 이 같은 단어가 들어간 경우 생성된 코드가 덜 안전하다는 것”이라고 밝혔다.

[김형근 기자(editor@boannews.com)]

헤드라인 뉴스

TOP 뉴스

Copyright thebn Co., Ltd. All Rights Reserved.

시큐리티월드

IP NEWS

회원가입

Passwordless 설정

PC버전