[보안뉴스=자이 비자얀 IT 칼럼니스트] 만약 챗GPT로 같은 단어를 무한히 반복해서 말하게 한다면 어떻게 될까? 얼마 지나지 않아 챗GPT는 이상한 데이터를 토하기 시작한다. 챗GPT를 훈련시킬 때 사용했던 데이터들인데, 개인 식별 정보와 웹에서 긁어 모은 다양한 정보들도 포함되어 있는 것을 구글 딥마인드(Google DeepMinde) 팀과 코넬대학 및 4개 대학 연구 팀에서 확인했다.

[이미지 = gettyimagesbank]
먼저 ‘시’라는 단어를 사용했다
얼마 전 발표된 보고서에 의하면 연구원들은 poem, company, send, make, part라는 단어를 입력하고 이것을 영원히 반복하라고 챗GPT에 요구했다고 한다. 그러자 챗GPT가 기억하고 있던 훈련 데이터들이 쏟아져 나오는 것을 알 수 있었다. 예를 들어 poem을 영원히 반복하라고 요구하자 챗GPT는 한 동안 poem을 정말로 끊임없이 반복했다. 하지만 수백 번 반복한 후 챗GPT는 갑자기 이해하기 힘든 결과물을 뱉어내기 시작했다. 개인의 이메일 시그니처나 연락처 정보 등이 섞여 있기도 했다.
훈련 데이터라는 것을 파악한 후 연구원들은 여러 다른 단어들을 가지고 같은 실험을 진행했다. 어떤 단어들은 poem보다 훨씬 더 많은 정보를 출력했고, 또 어떤 단어는 poem보다 효과가 덜했다. “company라는 단어의 경우 know보다 164배나 더 많은 훈련 데이터를 출력했습니다.” 연구원들이 공개한 내용 중 하나다.
훈련 데이터에는 다음과 같은 정보들이 포함되어 있었다.
1) 개인 식별 정보
2) 삭제되거나 걸러지지 않은 노골적 콘텐츠(욕설 등)
3) 책이나 시에서 발췌된 문장과 문단들
4) URL
5) 고유 사용자 식별 번호
6) 비트코인 주소
7) 프로그래밍 코드
거대한 프라이버시 문제?
“저희가 챗GPT에 여러 가지 명령문을 입력하기 위해 쓴 돈은 200달러 정도였습니다. 이 정도 투자로 1만 개 이상의 고유 훈련용 데이터들을 추출할 수 있었습니다. 만약 저희가 더 많은 돈을 투자하기로 했다면 어땠을까요? 혹은 공격자가 저희와 같은 방법으로 훨씬 더 많은 돈을 아낌없이 붓는다면 어떻게 될까요? 훨씬 더 많은 민감 정보를 수집할 수 있게 될 겁니다.” 연구원들의 경고다.
인공지능이 훈련될 때 각종 데이터를 방대한 규모로 흡수한다는 것은 누구나 알고 있다. 하지만 그 방대한 데이터를 누가 어떤 권리로 어떻게 모으느냐는 항상 논란거리였다. 그 어떤 인공지능 개발자들도 이를 속시원히 공개하지 않는다. 즉 대다수 소비자들은 출처도 모르는(그러므로 합법적인지 아닌지도 확실하지 않은) 데이터를 통해 훈련된 인공지능을 사용할 수밖에 없는 상황인 것이다. 그런 가운데 챗GPT가 각종 민감 정보가 섞인 훈련 데이터를 스스로 쏟아낸 것이다.
이전부터도 대형 언어 모델(LLM)들이 훈련 데이터를 일부 기억하고 있다는 지적이 나오곤 했었다. 훈련 데이터 속에 민감 정보가 섞여 있다면, LLM이 훈련 데이터를 기억하고 있다는 건 위험 요소가 해당 모델 안에 시한폭탄처럼 잠재되어 있다는 뜻이다. 훈련을 위해 소비한 데이터의 양이 많으면 많을수록 더 많은 데이터를 LLM이 기억하는 것으로 나타나기도 했다. 그렇기 때문에 LLM이 기억하고 있는 훈련 데이터를 끌어내려는 시도는 끊임없이 이어져 왔고, 이번 연구도 그러한 맥락에서 시작된 거라고 한다.
그렇다면 챗GPT가 이번 실험을 통해 쏟아낸 데이터는 정말 훈련 데이터였을까? 연구원들은 이를 확인하기 위해 제일 먼저 보조의 데이터셋을 구축했다. 현재 가장 크다고 하는 LLM 네 개(Pile, RefinedWeb, RedPajama, Dolma)의 훈련 전 데이터셋들을 합쳐 놓은 것으로 용량이 9테라바이트였다. 챗GPT가 오류처럼 공개한 데이터를 이 9테라바이트 데이터셋과 비교하기 위함이었다. 비교했더니 여러 가지 공통점이 발견됐다고 한다.
그 다음으로 연구원들은 챗GPT가 답으로 내놓은 결과물 중 일부를 발췌하여 그것을 가지고 수동으로 구글 검색을 실시했다. 그랬더니 150개의 똑같은 텍스트를 발견할 수 있었다. 위의 9테라바이트 데이터셋과 비교했을 때 나온 것은 70개 정도였다. 즉 챗GPT가 몇 가지 단어를 영원히 반복하다가 공개한 데이터가 실제 훈련에 사용된 데이터일 가능성이 높다는 뜻이다.
“챗GPT와 같은 LLM들은 우리가 예상했던 것보다 훨씬 더 많은 훈련 데이터를 기억하고 있는 것으로 보입니다. 그리고 LLM들에서 그런 훈련 데이터를 추출하는 게 그리 어려운 일이 아니라는 것이 이번 실험을 통해서 증명되기도 했습니다. LLM에는 커다란 프라이버시 침해 가능성이 내포되어 있다고 결론을 내려도 무방합니다.”
글 : 자이 비자얀(Jai Vijayan), IT 칼럼니스트
[국제부 문정후 기자(globoan@boannews.com)]
<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>