미국 국립표준기술연구소, 인공지능 안정성 점검 도구를 무료로 배포

내가 개발하는 인공지능 모델은 안전할까? 공격에 얼마나 버틸 수 있을까? 그걸 무료로 확인할 수 있는 방법이 생겼다. NIST가 새롭게 무료 도구를 배포하기 시작했기 때문이다.

[보안뉴스 문가용 기자] 미국의 국립표준기술연구소(NIST)가 머신러닝 모델들의 안전성과 복구력을 실험할 수 있게 해 주는 소프트웨어 도구를 개발해 오픈소스로 풀었다. 인공지능을 겨냥한 여러 가지 유형의 공격에 대처할 수 있게 해 주는 도구라고 한다. NIST에 따르면 이 도구의 이름은 디옵트라(Dioptra)인데, NIST는 이와 함께 인공지능 안전 가이드라인도 발표했다.

[이미지 = gettyimagesbank]

현재 디옵트라는 깃허브를 통해 배포되는 중이다. 검색엔진에서 dioptra라는 이름과 github를 같이 검색하면 어렵지 않게 찾을 수 있다. 현재까지 공개된 내용에 따르면 디옵트라는 크게 세 가지 유형의 공격에 대하여 방어력을 발휘할 수 있다고 한다. 이는 과거 NIST가 정리하여 공개한 “머신러닝 공격 유형”과도 관련이 이 있다. NIST는 1) 회피, 2) 오염, 3) 오라클이라는 세 가지 키워드를 가지고 머신러닝을 방어해야 한다는 내용의 가이드라인을 발표한 바 있다.

간단한 배경 설명
1) 회피(evasion) : 이 공격의 목적은 인공지능이 엉뚱한 답변을 내놓도록 하는 것이다. 인공지능에 입력하는 데이터에 노이즈를 더한다는지 등의 방법이 사용된다. 즉 입력값을 엉뚱하게 하여 엉뚱한 답이 나오도록 하는 것을 말한다.

2) 오염(poisoning) : 인공지능 모델의 정확도를 떨어트리는 것을 목표로 하고 있는데, 주로 모델의 훈련 데이터를 변경시키고 조작하는 방법으로 이를 달성한다. 아예 훈련 단계에서부터 인공지능을 망가트리는 것이라고 할 수 있다.

3) 오라클(oracle) : 오라클 공격이란, 인공지능 모델을 역설계(리버스 엔지니어링)하여 훈련 데이터를 추론하고 알아내는 기법이다. 그렇게 함으로써 민감한 데이터에 대한 통찰력을 이끌어낼 수 있다.

디옵트라는 이 세 가지 유형의 공격을 모두 염두에 둔 채 개발됐다고 NIST는 설명한다. 또한 원래는 이미지 분류에 능한 인공지능 모델을 방어하기 위해 개발됐지만, 음성 인식 등 다른 유형의 인공지능에도 접목시킬 수 있게 되었다고 밝혔다.

디옵트라로 무엇을 할 수 있나?
디옵트라를 사용했을 때 사용자는 무엇보다 세 가지 유형의 공격들 중 어떤 것이 어느 정도로까지 실험의 대상이 되는 인공지능 모델에 영향을 줄 수 있는지 가늠할 수 있게 된다고 NIST는 설명한다. 또한 여러 가지 방어 전략이 어느 정도로 효과를 거둘 수 있는지 역시 확인이 가능하다. 디옵트라는 모듈 구성으로 설계되었기 때문에 필요에 따라 다양한 설정으로 실험을 진행할 수 있다. 모델을 바꾼다거나, 훈련용 데이터셋을 교환하거나, 공격 전략이나 방어 전략을 바꿔보는 식으로 말이다.

이번 패키지의 가장 큰 특징 중 하나는 인공지능 모델과 관련된 모든 사람들이 편리하게 사용할 수 있도록 만들어졌다는 것이다. 직접 모델을 개발하는 개발자나, 사용자나, 구매자나, 독립 테스터나 감사 인력 모두 여기에 포함된다. “사용자 친화적인 웹 UI가 적용됐습니다. 파이선 플러그인과도 호환이 되고, 따라서 여러 가지 조합을 구성해볼 수 있습니다.”

또한 실험과 관련된 이력들도 추적이 가능하다. 어떤 입력값을 넣었는지, 어떤 자원을 사용했는지 등을 나중에도 점검할 수 있게 된다는 것이다. 이는 보다 효과적이고 창의적인 방어법 개발에 도움이 될 것이라고 NIST는 설명했다. “단일 장비에도 구축할 수 있지만 테넌트가 다수 존재하는 환경에서도 구축이 가능합니다. 거의 모든 경우의 수에 대비할 수 있습니다.”

NIST는 무료 도구와 함께 각종 리스크 관리 전략에 관한 가이드라인도 공개했다. 특히 인공지능의 선용 가능성과 악용 가능성 모두를 염두에 둔 내용이 담겨져 있다고 하며, 9월 9일까지 일반 대중들의 의견을 접수한다고 한다. 해당 사안을 검토한 후에 누구라도 의견을 남길 수 있다.

3줄 요약
1. NIST, 인공지능 안전 점검 도구 무료로 배포 시작.
2. 세 가지 대표적인 공격 유형에 대하여 모델의 안전성을 점검할 수 있음.
3. 가이드라인도 공개해 대중들의 의견을 접수 받는 중.
[국제부 문가용 기자(globoan@boannews.com)]

헤드라인 뉴스

TOP 뉴스

Copyright thebn Co., Ltd. All Rights Reserved.

시큐리티월드

IP NEWS

회원가입

Passwordless 설정

PC버전