[보안뉴스 문정후 기자] 디지털 기술과 생태계에 관심을 가진 사람들은 대부분 ‘추적’이라는 개념에 대해 어느 정도 알고 있을 것이다. 주요 소셜미디어들을 비롯해 대형 온라인 플랫폼들이 사용자들을 추적해 각종 성향을 파악하고, 이를 통해 맞춤형 광고를 내보내는 사업 모델은 이미 악명이 높으며, 소비자들과 정부 기관이 한 목소리로 이를 비판하고 있기도 하다. 기업들은 ‘알맞은 광고를 내보내기 위한 정보’라고 주장하고 있지만 그 안에는 성별, 취향, 행동 패턴 등 각종 민감 정보가 포함되어 있기 때문에 문제이며, 기업들의 주장은 씨알도 안 먹히는 상황이다.
[이미지 = gettyimagesbank]
추적, 추적, 추적
그럼에도 기업들은 여러 가지 방식으로 이 ‘추적’을 포기하지 않고 있다. 게다가 정부 기관이나 소비자들도 ‘추적’이 무조건 나쁜 것이며 악의적 행위라고 규정하지 않는다. 같은 광고를 봐도 내가 마침 필요했던 것들을 보게 된다면, 그래서 실제 구매로 이어져 필요를 채울 수 있다면 누이 좋고 매부 좋고 광고 플랫폼도 좋은 것 아니겠는가. 실제 현재의 기조는 ‘소비자의 동의를 얻어낸다면 추적해도 좋다’이지, ‘모든 추적 행위를 무조건 배척한다’가 아니다. 소비자와 시장을 파악하고 싶다면 조사해도 되지만 그 소비자와 시장이 그 조사에 응할 때나 가능하다는 것이다.
추적을 필요로 하는 건 아마존이나 구글, 메타와 같은 빅테크만이 아니다. 크고 작은 앱 개발사들도 추적을 통해 사용자의 데이터를 수집한 뒤 이를 광고주에 판매하거나 추가 마케팅에 활용하기 위함이다. 그래서 이런 기업들은 주로 두 가지 방법 중 하나를 택하려는 편이다. 사용자의 동의를 (교묘하게) 구하거나, 추적 기술을 숨긴 채(혹은 노골적으로 위법이 아닌 형태로 만들어) 서비스나 제품을 출시하는 것이다.
그 서비스나 제품이 특정 플랫폼에서 돌아가는 앱이라면 이 추적 행위를 ‘제3자 추적’이라고 한다. 보통 매체들이나 법정에서 문제를 삼는 것은 대부분이 이 제3자 추적이다. 음악 검색 애플리케이션인 샤잠(Shazam)에서 문제가 됐던 것도 바로 이 ‘제3자 추적’이고, 페이스북이나 트위터와 같은 소셜미디어 애플리케이션에서 이뤄졌던 추적도 역시 제3자 추적이다. 이런 추적은 해당 애플리케이션을 사용하지 않는다면 기능 발휘가 되지 않는다.
하지만 애플리케이션이 아니라 애플리케이션이 실행되는 장비 그 자체에 추적 기능이 있다면 어떨까? 그렇다면 어떤 애플리케이션을 쓰느냐 마느냐와 상관 없이 추적이 일어날 수 있게 된다. 이것을 우리는 ‘제2자 추적’이라고 부른다. 2017년 스마트 TV 제조사인 비지오(Vizio)와 스마트 TV에 ACR(뒤에 더 설명을 이어간다) 기술을 제공하는 회사 인스케이프(Inscape)가 ‘제2자 추적’ 때문에 고발을 당해 법정 공방을 펼친 바 있는데, 최근 유니버시티칼리지런던, 캘리포니아대학교 데이비스, 마드리드카를로스3세대학의 연구원들이 삼성과 LG의 스마트 TV들에서도 같은 문제가 발견됐다고 주장하고 나섰다.
이 사안의 핵심 기술 중 하나는 ACR이다. ‘자동 콘텐츠 인식(Automatic Content Recognition)’을 줄인 말인데, 사용자의 콘텐츠 소비 패턴을 독특하게 추적하여 프로파일링 하는 기술이라고 볼 수 있다. 이번 연구를 진행한 대학 연구원들의 보고서에 의하면 ACR은 “주기적으로 TV 화면에 표시되는 콘텐츠를 캡처하고, 이를 콘텐츠 라이브러리와 대조하여 특정 시간에 어떤 콘텐츠가 화면에 표시되고 있는지 확인하는 방식으로 구현된다”고 한다. 참고로 이 기술은 음악 검색 앱인 샤잠(Shazam)과 유사한 것으로 알려져 있다.
“이미 스마트 TV 생태계에서 발생하는 제3자 추적에 대한 연구는 여러 차례 존재해 왔었습니다. 하지만 말 그대로 ‘제3자에 의한 추적’이었지요. TV에서 문제가 되는 앱을 삭제하면 해결되는 문제였습니다. 하지만 TV라는 플랫폼에서 자체적으로 수행하는 추적에 대해서는 여태까지 깊은 연구가 이뤄지지 않았습니다. 이번 연구에서는 스마트 TV 내에 탑재되어 있는 ACR 클라이언트와, 그 클라이언트와 통신하는 ACR 서버 간의 네트워크 트래픽을 블랙박스 방식으로 검사하는 방식을 채택했습니다.” 연구원들의 설명이다.
사용자들의 화면을 주기적으로 캡처하는 ACR 기술이 발생시키는 트래픽을 분석함으로써 연구원들은 다음 몇 가지를 확인하려고 했다.
1) 사용자가 TV를 시청하는 방식에 따라 ACR 추적이 다양하게 일어나는가? (여기서 시청 방식이란, 지상파 방송, 스트리밍, HDMI 연결 등을 말한다.)
2) 스마트 TV에서 제공하는 개인정보 보호 기능이 ACR에 어떤 영향을 미치는가?
3) 지역이나 국가별로 ACR 추적 방식에 차이가 있는가? 있다면 어떤 차이인가?
“이 실험은 스마트 TV 생태계에서 가장 큰 제조사로 꼽히는 삼성과 LG의 주요 제품들에서 진행됐습니다.” 연구원들의 설명에 따르면 스마트 TV는 전 세계적으로 널리 보급되는 중이라고 한다. 현재 가정의 75% 정도가 스마트 TV를 사용하고 있을 정도이며, 현재 판매되는 TV 제품 중 대다수가 스마트 TV이다. “그 중에서도 두 회사가 만드는 제품들의 인기가 높은 편입니다. 삼성은 타이젠(Tizen), LG는 웹OS(WebOS)와 같은 플랫폼을 보유하고 있기도 합니다.” 즉 두 회사의 제품에서 특별한 문제가 제보돼서 실험을 시작한 게 아니라는 뜻이다. 게다가 삼성과 LG만 스마트 TV에 ACR 기술을 적용하는 게 아니라는 걸 연구원들은 강조했다.
스마트 TV와 ACR?
이번에 발표된 보고서에 의하면 스마트 TV의 추적 방식은 크게 두 가지로 나뉜다고 한다. 위에서 설명한 제3자 추적과 제2자 추적이 바로 그것이다. “제3자 추적은 전통적인 웹 및 모바일 추적과 유사한 방식입니다. 스마트 TV 앱 개발자가 추적 라이브러리나 SDK를 앱에 포함시키는 것이죠. 사용자와 관련된 데이터 혹은 사용자의 장비와 관련된 데이터를 수집하여 또 다른 제3자와 공유하는 것이 보통입니다. 제2자 추적은 스마트 TV 플랫폼이 운영 체제를 통해 직접 수행하는 것을 말합니다. 그러므로 특정 몇 개 앱을 추려낸다고 해서 해결되는 게 아닙니다.”
[이미지 = gettyimagesbank]
그리고 그 제2차 추적을 위해 스마트 TV 제조사들이 가장 흔히 사용하는 기술이 바로 ACR이라고 한다. 즉 ACR이 그 자체로 불법적인 요소는 아니라는 것이다. 이에 대한 보다 상세한 설명을 보고서로부터 인용하자면 다음과 같다. “ACR은 주기적으로 화면의 프레임이나 오디오를 캡처하고, 이를 기반으로 콘텐츠의 지문을 생성해 ACR 서버로 전송하는 기술입니다. 그러면 전송된 정보를 데이터베이스에 저장된 정보와 대조할 수 있게 되죠. 서로의 지문이 일치할 경우 ACR 서버는 스마트 TV에서 어떤 콘텐츠가 재생되고 있는지 정확히 파악할 수 있습니다. 그러면 스마트 TV 제조사는 사용자를 특정 시청자 그룹으로 분류하고, 이를 바탕으로 맞춤형 광고를 노출시킬 수 있게 됩니다.”
결국 ‘콘텐츠에 대한 지문 정보’가 교환된다는 건데, 이 지문 정보란 게 정확히 무엇일까? 보고서에 따르면 “콘텐츠의 해시 값”이라고 한다. “해시 값을 주고 받는 것이기 때문에 정확한 식별이 되지 않는다고도 볼 수 있지만 실상은 그렇지 않습니다. 사용자의 시청 습관에도 개인 식별 기능성이 내재되어 있기 때문입니다. 해시만으로 익명화의 본분을 다했다고 하기는 어렵다는 것이죠.”
상기했다시피 ACR 추적 기술은 샤잠의 음악 인식 기술에서 시작됐다. 그 기술이 다양한 모습으로 응용되어 콘텐츠를 식별하는 것으로 발전했다. 2012년 다이렉티비(DirecTV)와 비글(Viggle)이 ACR을 TV 생태계에 탑재시키기 시작했고, 삼성의 경우 엔서즈(Enswers)라는 ACR 전문 회사와 파트너십을 맺고 ACR을 자사 스마트 TV 제품들에 집어넣기 시작했다. LG는 다음 해인 2013년 또 다른 회사인 코그니티브네트웍스(Cognitive Networks)와 협력해 ACR을 도입했고, 소니는 삼바티비(Samba TV)와 협력해 자체 ACR을 개발해 사용했다. 2014년 비지오와 로쿠(Roku)도 ACR을 활용하기 시작했다.
그 때부터 이미 ACR의 정보 침해에 대한 우려의 목소리가 나왔다. 그러다가 2017년 미국의 연방거래위원회가 비지오의 ACR 활용 사례를 문제 삼았다. 정확히는 비지오가 ACR로 확보한 고객 데이터를 제3자에게 허락 없이 판매했다며 소송을 건 것이다. 제3자는 광고가 필요했던 업체로 비지오 고객들에게 맞춤형 광고를 내보내는 데 이 데이터를 활용했다고 한다. 범죄적 요소는 없었다는 건데, 그렇다 한들 고객의 민감한 정보를 동의 없이 판매했다는 것 자체를 위원회는 용인하지 않았다. 그래서 비지오는 고객들에게 명확히 고지하고, 고객들이 원하면 거절할 수 있는 옵트아웃 옵션을 제공하는 것으로 합의를 보았다.
“그렇다고 문제가 해결된 건 아닙니다. 왜냐하면 옵트아웃 절차가 매우 복잡하기 때문입니다. 옵트아웃을 하고 싶다가도 지쳐서 중도에 포기할 수 있습니다. 또한 추적의 종류도 갖가지인데, 추적을 하던 업체들은 이를 일부러 복잡하게 분류해서 사용자가 한 가지 추적에 대해 옵트아웃 옵션을 활성화 하더라도 여전히 다른 종류의 정보가 수집되도록 일을 꾸밀 수도 있습니다. 즉 단 한 번의 클릭이나 승락으로 모든 종류의 추적이 중단되는 기능은 보기 힘들다는 겁니다. 게다가 기술 업체가 실제로 그런 추적 기능을 완전히 제거했는지, 혹은 어딘가 숨겨두었는지 100% 확신할 수도 없지요.”
스마트 TV의 실태, 어떻게 조사했나
연구원들은 ACR 추적 기술을 분석하기 위해 스마트 TV에서 데이터를 수집하고 실험을 진행할 수 있는 전용 인프라를 구축했다고 한다. 이 연구 및 분석은 영국과 미국에서 별도로 진행됐으며, 나중에 결과 값을 비교함으로써 지역별 혹은 국가별 차이가 있는지를 확인하기도 했다. 먼저 연구원들이 구성한 인프라의 구성 요소는 다음과 같다.
[이미지 = gettyimagesbank]
1) 접근점(AP) 서버 : 서버는 모든 IT 인프라의 심장과 같다. 각 TV 별로 하나의 서버를 연결해 접근점 역할을 하게 했다. 또 전용 와이파이 카드를 사용해 스마트 TV를 연결했다. 유선 네트워크 인터페이스를 통해 인터넷에 접속하도록 했고, 이를 통해 ACR 도메인과 연결되도록 했다. 서버에는 IoT 장치에서 발생하는 네트워크 트래픽을 확보할 수 있는 소프트웨어가 설치되어 있었다.
2) 스마트 TV : 이번 실험에서는 삼성과 LG의 스마트 TV 모델들을 대상으로 삼았다. 다른 이유는 없고 각각 시장 점유율을 23%, 18%를 기록하고 있는 생태계 강자들이기 때문이다.
3) 스크립트 : 서버에서 직접 실행되는 일련의 스크립트를 마련했다. 이 스크립트를 통해 스마트 TV를 자동으로 제어하고 다양한 테스트를 수행했으며 네트워크 트래픽을 분석했다. 넷플릭스 앱을 여는 등의 특정 기능을 수행하는 스크립트, 실험이 정확히 수행되었는지 확인하는 스크립트 등이 활용됐다. 또한 네트워크 분석을 위한 전용 스크립트도 적극 사용했다.
위와 같이 인프라를 구성한 뒤 연구원들은 TV와 서버 간 발생하는 다양한 트래픽을 캡처할 수 있었다고 한다. 데이터를 복호화 하지 않은 채 분석하기 위해 강력한 분석 도구를 활용하는 것을 잊지 않았다고 연구원들은 강조하기도 했다. “트래픽 캡쳐 준비를 마치면 스마트 TV를 원격에서 켰습니다. 전원을 넣는 이 단순한 단계가 실험에서 매우 중요했습니다. 대부분의 DNS 요청이 장치 활성화 후 몇 초 이내에 전송되기 때문이죠. 이를 통해 관련 도메인 이름을 식별할 수 있었습니다. 그 후 본격적인 실험이 약 1시간 동안 진행됐습니다. 실험 후에는 TV를 끄고 네트워크 트래픽 캡쳐 역시 종료됩니다. 이 모든 과정은 자동으로 처리됐습니다.”
이 실험은 총 6가지 시나리오로 진행됐다고 한다.
1) 스마트 TV 전원이 켜진 상태이긴 하지만 홈 화면만 유지된다. 이를 아이들(Idle)이라고 부른다.
2) TV 내 안테나를 통해 지상파 채널을 시청한다. 이를 리니어(Linear)라고 부른다.
3) 삼성과 LG TV를 통해 제공되는 플랫폼인 패스트(FAST, 광고 기반 무료 스트리밍 서비스)를 통해 방송을 시청한다. 이를 패스트(FAST)라고 부른다.
4) 넷플릭스나 유튜브와 같은 OTT 앱을 사용하여 콘텐츠를 스트리밍 한다. 이를 OTT라고 부른다.
5) 노트북이나 게임 콘솔 장비를 TV와 HDMI로 연결하여 TV를 활용한다. 이를 HDMI라고 부른다.
6) 휴대폰이나 노트북으로 유튜브 콘텐츠를 스트리밍한 후 스마트 TV 화면으로 단순 미러링을 한다. 이를 스크린캐스트(Screen Cast)라고 부른다.
각 시나리오는 다시 네 가지 상태로 나눠서 실험을 진행했다. 다음과 같다.
1) 로그인하고 광고 추적을 수락한 상태
2) 로그아웃했지만 광고 추적을 수락한 상태
3) 로그인했지만 광고 추적을 거부한 상태
4) 로그아웃하고 광고 추적도 거부한 상태
실험 결과는 어땠나
실험 결과 LG 제품들은 ACR이 활성화 됐을 때 주로 알폰소(Alphoso)라는 회사가 운영하는 단일 도메인에 연결되는 것을 알 수 있었다고 한다. “알폰소는 LG 광고 솔루션을 관리하는 기술 업체입니다.” 삼성의 경우, 제품들이 여러 가지 ACR 도메인에 접속한다는 사실이 밝혀졌다. “하지만 이 도메인 전부 삼성 그룹에 속해 있었으며, 삼성의 자체 ACR 추적 기능과 연계되어 있었습니다.”
[이미지 = gettyimagesbank]
네트워크 트래픽을 분석한 결과, LG의 ACR 도메인은 주로 네덜란드 암스테르담에 위치한 서버로 연결됨을 알 수 있었다. 그러면서도 영국과 유럽연합이 설정한 각종 규제를 위반하지 않을 수 있었던 것으로 분석됐다. 반면 삼성의 ACR 도메인은 영국 런던과 네덜란드 암스테르담, 미국 뉴욕에 위치한 서버로 연결되었다. “이는 영국 사용자의 TV 시청 관련 정보가 미국으로 전송될 수 있음을 의미합니다. 즉 각 지역별로 다른 개인정보 보호 규정이 모두 적용될 가능성이 높다는 뜻이죠. 다만 LG나 삼성이나, 영국과 미국 사이 데이터 교환을 허용하는 데이터프라이버시프레임워크(Data Privacy Framework, DPF)에 가입되어 있었습니다. 따라서 불법적인 일이 자행되고 있지는 않았음을 확인했습니다.”
네트워크 트래픽의 빈도를 분석한 결과, LG와 삼성 모두 같은 시나리오에서 ACR 트래픽이 가장 많이 발생했다. “리니어와 HDMI 시나리오에서 ACR 트래픽이 가장 많았습니다. 공중파를 볼 때에나 HDMI로 장비를 연결할 때 ACR 클라이언트가 콘텐츠를 인식하고, 네트워크 트래픽을 적극 생성했다는 뜻입니다. 반면 OTT나 스크린캐스트 시나리오의 경우 ACR 클라이언트의 활동량이 줄어들었습니다.”
왜 이런 현상이 나타날까? “OTT 앱의 경우 저작권 문제로 ACR이 화면 캡쳐를 수집하지 않을 가능성이 높아 보입니다. 혹은 OTT 서비스 제공자가 사용자의 개인정보를 보호하려고 이런 수단을 막았을 수도 있습니다. 예를 들어 OTT 최강자인 넷플릭스의 경우 하드웨어 제조사들에게 ACR이 활성화되지 않게 요구하는 것으로 알려져 있습니다. FAST 플랫폼에서도 비슷한 이유로 ACR이 제한되는 것일 수 있습니다. 지상방송의 경우 방송사가 광고주와 계약하여 ACR을 허용하는 경우가 많습니다. 그런 것이 반영된 결과라고 보입니다.”
하지만 실제 스마트 TV 사용자들에게 중요한 건 ‘상태별’ 실험 결과일 것이다. “사용자의 로그인 상태나 옵션 활성화 혹은 비활성화 여부가 ACR에 어떤 영향을 미치는지 알아보는 게 중요했습니다. 먼저 로그인 상태와 로그아웃 상태를 비교했는데, 그 결과 사용자가 로그인을 하든 하지 않던 ACR에 유의미한 변화를 가져다주지 않는 것으로 분석됐습니다. 삼성이나 LG 모두 로그인 했을 때와 로그아웃 했을 때의 ACR 데이터 양이 대동소이 했거든요. 이는 ACR 추적이 사용자 계정이 아니라 TV 광고 ID 혹은 IP 주소를 기반으로 작동할 가능성이 높다는 것을 의미합니다.”
옵션을 활성화 했을 때나 비활성화 했을 때는 어땠을까? 기능이 정상적으로 작동하고 있음이 확인됐다. “광고와 추적을 비활성화 했더니 ACR 관련 도메인으로 가는 네트워크 트래픽이 완전히 사라졌습니다. 삼성이나 LG 모두 사용자의 옵션을 가지고 교묘한 장난을 치지 않았다는 것을 뜻합니다. 제대로 작동하고 있었습니다.”
미국과 영국이라는 ‘국가간 차이’도 존재했다. 영국은 GDPR의 영향을 받는 나라이고 미국은 CCPA 등 또 다른 규정들을 보유하고 있기에 데이터 처리 방식에 대한 허용 정도가 달라서 나타나는 현상으로 추정된다. “두 국가 모두 리니어, FAST, HDMI 시나리오에서 ACR 트래픽이 높았습니다. 미국의 경우 FAST 시나리오와 리니어 시나리오 모두에서 ACR 트래픽이 많이 발생했는데, 이는 미국과 영국의 FAST 운영 정책 혹은 기조가 다르다는 걸 나타냅니다. 미국은 FAST 플랫폼에서도 ACR을 더 많이 허용하는 듯합니다.”
하지만 ‘상태별 분석’에서 두 나라는 비슷한 양상을 보였다. “두 나라 모두에서 사용자의 옵트아웃이 미치는 영향이 가장 확실하다는 걸 알 수 있었습니다. 로그인이나 로그아웃 상태는 큰 영향을 미치지 않았습니다. 결국 어느 나라에 있든 사용자가 옵트아웃을 적극적으로 활용해야 추적에서 벗어날 수 있음을 뜻합니다.”
이 결과는 어떤 의미를 갖는가?
제3자 추적에만 집중되어 있었던 ‘추적 분석과 연구’가 제2자 추적으로도 확장되어야 한다는 사실을 제시했다는 것에 가장 큰 의의가 있다고 연구원들은 이번 연구에 대해 스스로 밝히고 있다. “누구나 추적을 싫어합니다. 하지만 세상에 다양한 종류의 추적이 있다는 것을 알지는 못합니다. 이런 연구를 통해서 그 모든 추적 행위에 대해 알릴 수 있어야 합니다. 그래야 제도가 바뀌고 제조 방식이 바뀌고 소비자가 보호 받는 정도가 바뀝니다.”
[이미지 = gettyimagesbank]
연구원들은 “HDMI 방식으로 TV를 단순 모니터로만 사용했을 때에도 ACR이 작동한다는 점에 충격을 받았다”고 말한다. 제조사들과 광고주들이 소비자들에 대해 얼마나 속속들이 알고 싶어하는지를 드러내는 결과라고 해도 과언이 아니다. “하지만 옵트아웃이 제대로 작동하고 있었음을 알아낸 것도 커다란 성과입니다. 시장에서 가장 힘이 세다 하는 업체 두 곳이 소비자들에게 확실한 선택지를 제공한다는 것이 고무적입니다. 광고 추적이 싫다면 반드시 옵트아웃을 실행하길 바랍니다.”
연구원들은 “후속 연구가 이어져야 한다”고 강조하기도 했다. “단 두 나라만 비교했을 뿐인데도 차이가 나타났습니다. 그렇다는 건 각 나라들마다 다른 방식으로 ACR이 작동하고 있을 가능성이 높다는 뜻이 됩니다. 각 나라별로 저희 같은 연구원들이 스마트 TV 실태를 조사할 필요가 있습니다. 그래서 누가 어떤 상태에서 어떤 정보를 수집하는지 알고, 필요하다면 끊어낼 수 있어야 하겠지요. 또한 이번 연구에서는 ACR 네트워크 트래픽의 페이로드를 상세히 분석하지는 않았습니다. 더 고급화 된 중간자 공격을 기획하면 이 점도 보완할 수 있을 겁니다. ACR 추적 데이터가 실제 스마트 TV에 나타나는 광고와 어떤 연관성을 얼마나 가지고 있는지도 저희는 아직 세부적으로 알지 못하죠. 이 역시 더 연구해야 할 내용입니다.”
[국제부 문정후 기자(globoan@boannews.com)]
<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>