인공지능 기업들에 데이터를 넘기지 마세요, 공짜로는요

인공지능을 개발하는 일부 대형 테크 업체들이 몸집을 부풀리는 건 우리가 너무 관대해서다. 그들이 덩치를 불리도록 우리가 너무나 퍼주고 있는 게 많다.

[보안뉴스 = 킷 머커 CEO, Plainsight Technologies] 인공지능 덕분에 ‘기술로 구현 가능한 것이 무엇인가?’에 대한 우리의 기존 관념들이 부리나케 깨지고 있다. 그러면서 각종 업무 프로세스와 비즈니스 시나리오들 역시 산산조각 나는 중이고, 새로운 것들이 개발되고 있기도 하다. 특히 최근 등장한 대형 언어 모델(LLM)과 대형 시각 모델(LVM)이 이러한 ‘파괴’와 ‘생산’의 속도를 높이고 있다.

[이미지 = gettyimagesbank]

그렇다고 인공지능을 등에 업고 가는 모든 길이 찬란하지는 않다. 인공지능이 가진 공통적인 위험이 도사리고 있기 때문인데, 그건 바로 ‘데이터 보안’이다. 인공지능 모델을 개발해 훈련시키고 싶어 안달인 기업이나, 각종 생성형 인공지능의 가능성을 시험해보고 싶은 기업, 각 임직원들이 어떻게 인공지능을 활용하고 있는지 크게 신경 쓰지 않는 기업들 모두 인공지능에 온갖 데이터를 아낌없이 쏟아붓고 있다. 그 데이터들은 대부분 인공지능 기술을 제공한 업체로 가게 된다. 현재 조용히 세상이 모든 데이터가 인공지능 개발사들로 흘러가고 있다.

이와 비슷한 일은 과거에도 종종 있었다. 클라우드 기술이 본격적으로 상용화 되었을 무렵에는 드롭박스(Dropbox)가 기업들의 데이터를 싹 다 가져간다는 비판을 받았었다. 지금은 개발자들의 공용 플랫폼처럼 되어버린 깃허브(GitHub)도 이런 논란에 시달린 적이 있다. 코로나 초기에 줌도 데이터 보안과 관련된 사고를 여러 번 겪으며 보안 구멍 취급을 받기도 했었다. 그러면서 그 기업들은 향상되는 모습을 보여주며 사용자들의 신뢰를 쟁취했다. 이제 인공지능의 차례가 된 것이라고 할 수 있다.

인공지능과 데이터 공유하기
인공지능 알고리즘에 기업 데이터를 넘기는 것에는 근본적인 의문이 따라붙을 수밖에 없다.
1) 왜 굳이, 언젠가 나의 경쟁 상대가 될지도 모르는 기업의 인공지능을 나의 데이터로 훈련시켜야 하는가?
2) 공공의 안전을 도모하는 데 사용될 인공지능 알고리즘이라면, 왜 훈련 데이터를 공개하지 않는가? 그런 데이터라면 특정 업체의 인공지능 기술을 발전시키는 것 뿐만 아니라 여러 곳에 공유하는 게 더 올바르지 않는가?

그렇기 때문에 우리는 점점 인공지능 업체들에 투명성을 요구하게 됐다. 지금 인공지능 기술이 가진 위험성과 우려들을 해소하려면 인공지능 서비스를 제공하는 업체들이 투명해지는 게 최선이다. 어떤 식으로 데이터를 수집하는지, 수집의 목적이 무엇인지, 어떻게 활용하고 있으며 활용 후 어떻게 처리하는지 등을 모두 알릴 필요가 있다. 그래야 기업들이 보다 안심하고 적극 데이터를 제공하기 시작할 것(즉 인공지능을 활용하기 시작할 것)이다.

그런 후 투명성에서부터 한 발 더 나아가야 한다. 인공지능을 활용하는 기업들이라면 필연적으로 데이터를 제공할 수밖에 없다는 그 한계에도 손을 대야 하기 때문이다. 그건 바로 데이터에 대한 통제 권한을 데이터를 제공한 기업에 주는 것이다. 사용자 기업이 제공한 데이터를 나중에 어떻게 처리하는지를 데이터를 제공하는 쪽에서 결정할 수 있도록 해야 한다. 제3자에게 넘기거나 판매하는 등의 행위를 인공지능 개발사가 마음대로 정할 수 있는 지금의 구조에는 문제가 있다.

데이터에 대한 통제권을 사용자 기업이 가져간다는 점에 있어서 인공지능 서비스 업체와 협상을 통해 하는 것도 사실 말이 되지 않는다. 데이터의 주인이 모든 것을 결정할 수 있는 게 맞다. 인공지능 서비스 업체는 이미 사용자 기업의 데이터를 통해 자신의 알고리즘을 훈련시킬 수 있었다는 것만으로 충분히 얻을 걸 얻은 것이다. 남의 데이터로 자신의 알고리즘을 훈련까지 시켰으면서, 그 데이터의 후속 처리까지 알아서 결정한다? 지나치다.

데이터를 생성하고 보유하고 있는 기업들은 기부자들이 아니다. 그래야 할 필요도 없다. 게다가 이미 수많은 데이터들을 인공지능 개발사들은 허락 없이 가져다 썼다. 인터넷을 통해 공개된 기사들과 소설들과 음악과 미술 작품들을 무수히 활용했고, 그래서 이미 인공지능 개발사들은 온갖 저작권 침해 문제로 시달리고 있다. 재판 결과가 아직 확실히 난 건 아니지만, 남의 콘텐츠를 허락 없이 활용했으며, 그로 인해 단단해진 서비스를 유료로 제공하고 있다는 건 분명한 사실이다. 그런데도 데이터의 처리 문제를 사용자 기업과 협상할 수 있다는 건 말이 되지 않는다.

데이터 유출로부터 안전해지기
데이터를 보호하고, 그 데이터와 얽혀 있는 개개인을 보호하는 건 모든 기업의 책무다. 인공지능을 개발하고 있는 기업들도, 그 인공지능 서비스를 이용하고 있는 기업들도 이 책무에서 자유롭지 못하다. 양측은 데이터와 관련하여 제어권한 문제를 조속히 해결해야 한다. 데이터를 누가 어떤 권한을 가지고 어떻게 처리할 것인지를 정리하지 못한다면, 그 시간 동안 애꿎은 사용자들만 피해를 보게 된다.

그러므로 사용자 기업들은 제일 먼저 데이터를 무조건 인공지능 기업에 넘기는 행위를 중단해야 한다. 데이터는 자산이다. 왜 자신의 자산을 다른 기업들에 아무런 대가도 없이 넘기는가? 그것이 얼마나 큰 손해인지를 인지해야 한다. 회사 예산을 다른 기업에 막 공유하지 않는 것과 마찬가지다. 인공지능 업체들이 무료로 받고 있는 혜택이 어마어마하다는 걸 인지하고, 사용자 기업들과 사회 전체에 보다 투명하게 다가올 때까지 그래야 한다.

글 : 킷 머커(Kit Merker), CEO, Plainsight Technologies
[국제부 문정후 기자(globoan@boannews.com)]

헤드라인 뉴스

TOP 뉴스

Copyright thebn Co., Ltd. All Rights Reserved.

MENU

회원가입

Passwordless 설정

PC버전