[주말판] 인공지능 시대, 떠오르는 데이터 프라이버시 관련 우려 사항

인공지능이 득세하고 있으며, 이 때문에 각종 데이터 프라이버시 문제가 제기되고 있다. 이미 현실 속에서 나타난 문제들도 존재한다. 데이터 프라이버시와 관련하여 인공지능은 우리에게 어떤 질문을 던지고 있을까?

[보안뉴스 문정후 기자] 요 몇 년 계속해서 많은 기업들과 소비자들의 민감한 쟁점이 되고 있는 ‘데이터 프라이버시’는 그리 간단한 개념이 아니다. 게다가 특정 데이터의 프라이버시 문제와 엮여 있는 사람들도 대단히 많다. 개인, 기업, 정부가 데이터의 수집, 공유, 활용, 저장 모든 단계에 관여되어 있으니 말이다. 여기에 인공지능이 추가되면서 데이터 프라이버시 분야는 더욱 복잡해졌다.

[이미지 = gettyimagesbank]

인공지능이 나타나면서 왜 데이터 프라이버시 분야는 더 복잡해졌을까? 관련 전문가들과 기업 경영진들, 법조계 종사자들이 이 부분을 구체적으로 설명하며 어떤 식으로 해결해야 하는지를 짚었다. 다음 몇 가지를 살펴보도록 하자.

1. 데이터 수집
국제프라이버시전문가협회(IAPP)에서 발행한 보고서에 의하면 전 세계 소비자들 중 57%가 “인공지능을 활용해 개인정보를 수집하고 처리하는 건 프라이버시에 위협이 된다”고 느낀다고 한다. 먼저는 인공지능이 제대로 기능을 발휘하기 위해 필요한 데이터의 양이 너무나 많다는 것이 문제다. 그 많은 데이터를 인공지능훈련 업체들은 어디서 구하는 걸까? 수집한 후에 제대로 보관하고 삭제하긴 하는 걸까? 어떤 식으로 활용하는 걸까?

인공지능이 여러 가지로 등장하고, 또 인공지능이 사용하는 데이터셋이 점점 커지면서 이런 질문들에 답을 한다는 것이 점점 더 어려운 일이 되고 있다. 더 많은 데이터를 더 빠르게 흡입하고 훈련해야 하다보니 그 과정 중에 민감한 개인 식별 정보 같은 것들이 휘말려 들어갈 가능성도 점점 높아지고 있는 상황이다. 인공지능이 활성화 되면 될수록 이러한 불안감이 쌓이는 걸 말릴 수 없다.

데이터 과학 분야 전문 업체인 베르타(Verta)의 CEO 마나시 바르탁(Manasi Vartak)은 “시스템 개발자들이 데이터를 어느 정도 걸러내는 시도를 할 수 있지만 모든 훈련용 데이터에서 개인 식별 정보를 말끔하게 제거할 수 있지는 않다”고 설명한다. “또한 인공지능이 소비한 데이터를 ‘잊어버리게’ 만드는 것 역시 매우 힘듭니다. 그러니 시작부터 불필요한 데이터를 제거하고 인공지능을 훈련시켜야 하는데, 이 역시 어렵죠. 해결이 필요한 과제입니다.”

2. 투명성과 추적 가능성
우리가 인공지능과 조우할 때는 언제인가? 하루를 살고 인터넷과 각종 디지털 기술을 이용하면서 이 구분을 명확히 할 수 있을까? 기술이 점점 발전하고, 특히 인공지능이 사람을 닮아가면서 인공지능과의 조우 지점을 명확히 구분하는 게 어려워지고 있다. 2022년 10월 정신 건강 앱인 코코(Koko)는 약 4천 명의 사용자들을 대상으로 실험을 진행했다. 사용자들의 질문에 답을 할 때 인공지능의 답을 일부에게 제공한 것이다. 하지만 당사자들은 그 사실을 전혀 눈치 채지 못했다.

이렇게 ‘내가 인공지능과 대화하고 있다’는 사실을 모르는 것이 투명성 문제 중 하나이고, 다른 하나는 인공지능과 대화하고 있다는 걸 안다고 해도 그 인공지능이 나에게서 어떤 데이터를 가져가는지를 모른다는 것이 두 번째 투명성 문제다. “건너편에서 나에 대해 정보를 수집하는 게 기계인지 아닌지, 기계라면 뭘 가져가는지 모른다는 건 데이터 프라이버시를 크게 위협하는 문제입니다. 심지어 수집된 데이터가 어떤 식으로 처리되는지 추적할 수도 없지요. 인공지능은 블랙박스이니까요.” 로펌 위더스(Withers)의 파트너 도론 골드스타인(Doron Goldstein)의 설명이다.

3. 인공지능은 블랙박스다
인공지능은 일종의 블랙박스다. 데이터가 그 안으로 들어가 처리가 되는 것은 맞는데 어떤 데이터가 어떤 과정과 논리로 처리되는지 알 수가 없다. 골드스타인은 “즉 어떤 개인정보가 어느만큼 알고리즘 안으로 들어가 처리되었는지, 그래서 나온 결과가 왜 그렇게 되는지 정확히 알 수가 없는 게 현재 상황”이라고 말한다. “결국 인공지능이 프라이버시에 위협이 될 만한 요소를 가지고 있는 게 분명하긴 한데, 어느 정도나 위협이 되는지 평가할 수는 없다는 뜻입니다.”

인공지능의 이러한 특성은 ‘평가를 하기 어렵다’는 차원에서만 문제가 되는 것이 아니다. 보이지 않기 때문에 데이터가 제대로 삭제되는지 관리하기도 어려워지고 정보 수정 요청에 응하는 것도 불가능한 것이 된다. “예를 들어 기업이 실수로 인공지능을 부정확한 데이터로 훈련을 시켰다는 사실을 나중에 알게 되었다면 어떨까요? 그 데이터는 삭제하거나 수정해야 하겠지요. 하지만 인공지능이 블랙박스라는 특성을 가지고 있는 이상, 이를 수행한다는 건 매우 어려워집니다.” 로펌 베이커봇츠(Baker Botts)의 파트너 매튜 베이커(Matthew Baker)의 설명이다.

bnh.ai라는 로펌의 수석 과학자 패트릭 홀(Patrick Hall)의 경우도 비슷한 문제를 제기한다. “누군가 자신의 정보가 인공지능의 훈련 데이터로 활용되고 있다는 걸 알고 삭제를 요구하면 어떻게 될까요? 기업 입장에서 여기에 응할 수 있을까요? 삭제를 제대로 했다면 인공지능 알고리즘에 어떤 영향을 줄까요? 대체 정보는 어디서 찾아야 할까요? 기업은 반드시 삭제를 해야 하는 걸까요? 그리고 그 후에 있을 리스크는 온전히 감수해야 하는 걸까요? 우리가 답을 찾아야 할 문제들이 아직 많이 남아 있습니다.”

4. 동의
우리는 보통 온라인에서 뭔가 활동을 할 때 자주 정보를 공유해야 하는 상황에 접하게 되는데, 그럴 때마다 ‘선택권’이 주어진다. 어떤 것을 선택하든 결과가 뒤따른다. 보통은 그러한 결과를 이해하고 있기 때문에 선택을 할 수 있는데, 인공지능이 여기에 엮인다면 이야기가 사뭇 달라진다. “사용자의 동의를 얻을 수 있냐 없냐의 문제가 아닙니다. 사용자가 동의를 하더라도 충분히 내용을 인지하고서 동의를 하게 되느냐의 문제죠. 맹목적인 동의, 이해를 기반으로 하지 않는 동의는 나중에 문제가 될 소지가 큽니다.” 베이커의 설명이다.

이미 사용자 개개인들과 기업들은 인공지능을 매우 흥미로운 방법들로 활용하는 중이다. 그러나 활용법을 안다고 해서 인공지능의 작동 방식을 다 이해하고 있는 건 아니다. “데이터를 인공지능 시스템에 입력할 때, 인공지능은 그 데이터를 통해 더 훈련되어지고 더 정교해집니다. 이 공식을 모르고 있거나 간과하는 사람들이 아직 많습니다. 여기서부터 생기는 각종 리스크들이 발생할 거라고 봅니다.” 스탠포드대학 인간중심인공지능기관 제니퍼 킹(Jennifer King) 교수의 설명이다.

5. 데이터 유출과 침해
데이터가 의도치 않게 외부로 새나가는 일은 꽤나 큰 문제로 이어질 수 있다. 인공지능과 대화를 하다가 이런 실수를 흔히 저지른다. 예를 들어 삼성 직원 일부가 챗GPT에 코드를 업로드하다가 실수로 일부 민감 정보를 포함시키기도 했었다. “인공지능 훈련 정보에 개인 식별 정보가 포함되는 것과 마찬가지의 일이죠. 이 때문에 인공지능에 주입하는 데이터는 철저하게 검토해야 할 필요가 있습니다. 이미 이런 맥락의 실수가 수없이 많이 저질러지긴 했지만요.” 바르탁의 설명이다.

심지어 챗GPT를 개발한 오픈AI(OpenAI)마저도 데이터 침해 사고를 겪은 바 있다. 지난 3월 갑자기 챗GPT의 서비스를 임시 중단하며 “오픈소스 라이브러리에서 문제가 발생해 일부 사용자들이 다른 사용자의 채팅 히스토리를 볼 수 있게 되었”기 때문이라고 이유를 밝혔다. 이런 사건이 그 한 번으로 끝날 것으로 보이지는 않는다.

6. 악성 행위자들
이렇게 인공지능에 개인정보 및 개인 식별 정보가 어쩔 수 없이 들어간다는 사실을 안 전 세계 수많은 해커들이 가많이 있을 리 없다. 이들은 어떻게 해서든 그 블랙박스를 열고 개인정보를 가져갈 것이다. IT 기업 하이퍼사이언스(Hyperscience)의 CTO 토니 리(Tony Lee)는 “이미 사이버 공격자들은 ‘개인화 된’ 사이버 공격을 실시할 수 있다”고 강조한다. “친구나 가족의 음성을 그대로 사용해 사기를 치는 수법이 이미 실현되고 있죠. 이러한 방면에서의 기술 발전은 빨라질 것이고, 그러므로 기업들은 대책을 빠르게 마련해야 할 것입니다.”

바르탁 역시 생성형 인공지능이 특정 인물을 그대로 흉내 낼 것이라고 예측하며 “이미 특정 인물의 사진이나 영상을 매우 진짜처럼 만들 수 있다는 건 모두가 알고 있을 것”이라고 지적한다. “딥페이크 기술이 빠르게 발전하고 있습니다. 이미 꽤나 정교한 수준으로 음성도 흉내 낼 수 있고, 모습도 흉내 낼 수 있습니다. 음성 데이터나 이미지 데이터가 어느 정도만 확보되면 인공지능이 이런 콘텐츠를 만들 수 있습니다. 그러니 인공지능에 어떤 데이터를 넣느냐가 점점 더 중요한 문제가 됩니다.”

7. 허상의 답변들
인공지능은 강력한 도구임이 분명하다. 하지만 어떤 데이터가 주입되느냐에 따라 인공지능은 강력하게 유용한 도구가 될 수 있고, 강력하게 오류만 내는 도구도 될 수 있다. “최근 인공지능 모델들이 ‘상상 속의’ 대답을 내는 경우가 많습니다. 그 동안 학습한 데이터들을 가지고 통계를 내고, 그것을 바탕으로 가장 가능성이 높은 응답을 하는 것이죠. 그렇기 때문에 학습을 하는 데이터의 정확도가 그 무엇보다 중요한 것입니다.” 보안 업체 원스팬(OneSpan)의 CTO 윌 라살라(Will LaSala)의 설명이다.

“이런 식의 허상이 인공지능의 답변들 속에 있다는 것 자체가 데이터 프라이버시라는 측면에서 그리 좋은 것은 아닙니다. 만약 그러한 허상의 답변들 속에 프라이버시를 침해할 만한 가능성들이 내재된다면 어떻게 할까요? 간단한 문제가 아닙니다. 법적인 측면에서 꽤나 복잡해질 수 있습니다.” 킹의 설명이다.

실제 이런 맥락에서 문제가 생긴 적이 있다. 한 변호사가 챗GPT를 활용해 법정 싸움에 사용할 문건을 작성한 적이 있는데, 챗GPT는 가짜 판례를 가상으로 만들어 제공했던 것이다. 이 때문에 그 변호사는 큰 망신을 당했다고 전해진다. 챗GPT가 한 사용자를 대상으로 가짜 기소문을 만들었던 사건도 있었다.

글 : 캐리 팔라디(Carrie Pallardy), IT 칼럼니스트
[국제부 문정후 기자(globoan@boannews.com)]

헤드라인 뉴스

TOP 뉴스

Copyright thebn Co., Ltd. All Rights Reserved.

MENU

회원가입

PC버전