1. 경제성 때문에 화제가 된 딥시크 R1.
2. 비용 줄이면서 보안성 희생된 듯.
3. 신규 인공지능 모델에 대한 보안성 평가 방법 필요.
[보안뉴스 문가용 기자] 중국 인공지능 스타트업 딥시크(DeepSeek)가 개발한 신형 추론 모델 R1의 보안 취약점이 속속 드러나고 있다. 보안 업체 시스코(Cisco)의 자회사 중 하나인 로버스트인텔리전스(Robust Intelligence)와 펜실베이니아대학 연구원들은 최근 공동으로 취약점 조사 결과 보고서를 발표하며 “저비용에 따른 보안성 희생” 가능성을 제기했다.
[사진 = 연합뉴스]
“딥시크 R1은 고급 추론 능력과 저비용 훈련 방식으로 전 세계적으로 주목을 받고 있습니다. 성능은 최첨단인데 개발 비용은 경쟁사의 그것보다 훨씬 낮아 인공지능 기술의 새 희망으로까지 언급되고 있지요. 하지만 평가 결과, 심각한 보안 결함을 가지고 있음을 알게 됐습니다.” 보고서 시작 부분의 내용이다.
R1, 어떻게 시험했는가
연구원들은 R1의 보안성을 객관적으로 파악하기 위해 오픈AI o1프리뷰(o1-preview)를 포함 여러 최첨단 인공지능 모델들을 테스트 대상으로 삼았다. 표준 레드팀 프레임워크인 함벤치(HarmBench)에서 50개 악성 프롬프트를 무작위로 골랐다. “결과적으로 총 7가지 항목, 400개 유해 행위를 포함하게 됐습니다.”
탈옥 실험을 진행하면서 여러 가지를 평가할 수 있었지만 연구원들은 공격 성공률을 가장 유의미한 지표로 삼았다. “즉 유해한 프롬프트에 대해 인공지능 모델이 얼마나 자주 속는가를 살핀 것이죠. 이는 저희만이 아니라 다른 연구자들도 흔히 택하는 테스트 방법입니다.”
실험의 일관성과 신뢰성을 확보하기 위해 모델의 온도를 가장 보수적인 설정인 0도로 고정했다. 동일한 프롬프트에 대해 모델이 일관된 출력을 제공하도록 한 것이다. “거부 감지(refusal detection)를 자동화 된 방식으로 수행했고, 인간 감독을 통해 탈옥된 응답을 추가적으로 검증하는 절차도 거쳤습니다.”
실험 결과
결과는 충격적이었다고 연구원들은 전한다. 공격 성공률이 무려 100%였던 것이다. “R1은 단 하나의 유해 프롬프트도 거르지 못했습니다. 다른 인공지능 모델들이 최소한의 방어력을 보여준 것과 상반되는 결과였습니다. 딥시크의 훈련 방식에 보안 문제가 있지 않나 의심하고 있습니다.”
계속해서 연구원들은 “후속 연구를 더 진행해야 확실해지겠지만 인공지능 훈련 비용을 낮췄을 때 다른 무엇보다 보안에서 대가를 치를 가능성이 높다는 걸 시사한다”고 짚는다. “R1 개발자들이 인공지능을 훈련시킬 때 성능만이 아니라 보안까지 고려했다면 ‘저비용 강력 모델’이라는 결과를 얻지 못했을 수도 있습니다. 뛰어난 인공지능이 출시됐을 때 보안 검증부터 해봐야 하는 이유입니다.”
모델별 공격 성공률은 다음과 같다. R1만큼 라마도 심각했다.
1) R1 : 100%
2) 라마 3.1 405B : 96%
3) GPT-4o : 86%
4) 제미나이 1.5프로 : 64%
5) 클로드 3.5 소넷 : 36%
6) o1 프리뷰 : 26%
그래서?
시스코 연구 팀은 “계속해서 추론 모델에 탈옥 공격을 시도하고, 그 발전상에 대한 후속 보고서를 발표할 예정”이라고 한다. 하지만 “기존에 알려진 탈옥 프롬프트를 대입하는 것만으로 보안 평가가 엄격히 진행되었다고는 하기 힘들다”는 것을 지적한다. “앞으로도 인공지능 모델들은 계속 출시될 겁니다. 서둘러 보안 평가 방법론과 제도를 마련해야 합니다. 현재로서 인공지능은 효율성과 성능으로만 평가되고 있으며, 이는 대단히 큰 위험으로 돌아올 가능성이 높습니다.”
R1이 어떻게 훈련됐는지, 왜 각광을 받고 있는지, 왜 그런 R1의 보안성이 상징적인 의미를 갖게 되는지, 각 유해 콘텐츠 유형별 공격 성공률은 어떻게 되는지는 2월 6일 발행되는 프리미엄 리포트를 통해 상세히 열람하실 수 있습니다.
[국제부 문가용 기자(globoan@boannews.com)]
<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>