취약점 굳이 뽑자면 모션 센서에 대한 접근이 너무나 쉽다는 점
[보안뉴스 문가용 기자] 핸드폰을 도청하는 새로운 방법이 발견됐다. 안드로이드 기반 장비의 보드에 탑재되어 있는 가속도계(동작 센서)를 활용해 사용자의 대화 내용을 추론하는 방식이다. 이 공격의 이름은 ‘스피어폰(Spearphone)’이라고 하는데, 이는 ‘Speech privacy exploit via accelerometer-sensed reverberations from smartphone loudspeakers’의 준말이다. 한국어로 번역하면 ‘스마트폰 확성기의 가속도계에서 발생하는 반향을 통한 대화 프라이버시 공격’ 정도가 되겠다. 앨라배마대학과 러트거즈대학의 연구진들이 개발했다고 한다.
[이미지 = iclickart]
연구원들에 따르면 “핸드폰을 ‘스피커폰’ 모드로 사용하면, 스피커를 통해 나오는 모든 소리 기반 콘텐츠를 가속도계를 통해 음파 반향의 형태로 접수할 수 있다”고 한다. “또한 가속도계는 항상 켜져 있으며, 가속도계로부터 생성된 데이터를 앱에 제공할 때 사용자의 동의를 받아야 하는 것이 아니므로, 가짜 앱이나 웹사이트를 통해 이 반향 관련 정보를 실시간으로 취득하는 건 쉬운 일입니다. 이 정보를 공격자 서버에 기록하고 분석하면 대화 내용을 추론할 수 있습니다.”
음파 정보 수집
연구진들이 실험을 진행한 건 세 가지 안드로이드 폰 모델들로, LG의 G3, 삼성 갤럭시 노트 4, 삼성 갤럭시 S6다. 세 모델 전부 가속도계와 스피커가 가까이 붙어 있어서 선택됐다. “음성 반향(speech reverberation)이 생성되는 건, 스마트폰의 본체가 강제 진동의 원리(principle of forced vibrations)로 인해 진동을 할 수밖에 없기 때문입니다. 쉽게 말해 피아노의 소리판과 비슷한 것이죠. 이 반향 정보를 기록하면, 음성을 직접 녹음하지 않고도 비슷한 효과를 낼 수 있습니다.”
이 음파 정보를 통해 알아낼 가능성이 높은 건 1) 발화자의 성별, 2) 발화자의 신원, 3) 발화자가 말한 단어들이다. 음성 인식 기술이나 음성 재구성 기술을 사용했을 때의 이야기다. “공격자의 입장에서 앱의 권한을 어떻게든 조작하면 가속도계의 정보를 가져갈 수 있게 됩니다. 사용자들이 앱 권한을 꼼꼼하게 살피지 않기 때문에, 권한 설정을 공격자 편하게 하는 건 그리 어려운 일이 아니기도 합니다.”
연구원들은 “이 기술의 근간이 되는 취약점을 굳이 하나 꼽자면, 안드로이드와 같은 현대 모바일 플랫폼의 경우, 모션 센서를 통해 기록된 정보들에 무제한으로 접근할 수 있다는 사실 그 자체”라고 말한다. “예를 들어 피싱 공격이나 소셜 엔지니어링 등을 통해 피해자를 속여 공격자가 조작한 악성 앱을 설치하게 했거나 악성 웹사이트에 방문하게 했다고 합시다. 그러면 피해자가 보지 못하게 배경에서 자바스크립트를 가지고 모션 센서를 추적할 수 있게 됩니다. 웹사이트나 애플리케이션 모두 특정 결과 값을 기록했다가 공격자에게 전송하는 기능을 가져갈 수 있고요.”
그런 원리라면 사실 전화기 통화 내용만 위험한 건 아니다. 각종 미디어 앱을 통해 어느 정도 크기로 재생되는 음향 정보라면 이론상 모두 유출의 가능성을 안고 있게 된다. “기기에 탑재되어 있는 모션 센서들을 공격함으로써 장비에서 재생된 소리 파일이나 영상 파일에 대한 정보도 훔쳐낼 수 있습니다. 적어도 피해자가 어떤 소리 파일이나 영상 파일을 재생했으며, 어떤 성질의 콘텐츠가 재생되었는지 파악할 수 있게 됩니다.” 이 역시 도청과 비슷한 효과를 낼 수 있다고 연구원들은 설명했다.
그렇기에 위험해질 수 있는 건 구글 어시스턴트(Google Assistant)나 삼성 빅스비(Samsung Bixby)처럼, 사용자가 입력한 음성 명령을 다시 한 번 스피커를 통해 재생하는 인공지능 서비스들이다. 위에 설명된 것처럼 센서들에 기록된 정보를 탈취함으로써 피해자가 어떤 명령을 주로 내리는지 알 수 있고, 따라서 사용자에 대한 더 깊은 정보를 가져갈 가능성이 높아진다.
모션 센서 데이터 분석
모션 센서로부터 데이터를 가져오는 데 성공했다면, 그 다음은 분석이다. 연구원들은 “스피어폰 공격의 경우, 성별 분류, 발화자 분류, 담화 분류를 통해 대화의 프라이버시를 침해하는 것이 핵심”이라고 말한다. “신호 처리(signal processing), 머신러닝 등을 통해 실행할 수 있는 분석 유형입니다.”
공격자 입장에서 성별 분류를 하게 되면 여러 대화 샘플들 중 피해자의 것으로 예상되는 후보들을 절반으로 줄일 수 있게 된다. 그러므로 추적 대상이 되는 사람을 보다 정확하게 가려낼 수 있다. 성별 자체가 공격의 목적이 될 때도 성별 분류가 큰 힘을 발휘할 수 있다. “사회 시스템에 따라 특정 성이 억압되기도 하죠. 그것도 굉장히 치명적인 방법을 동원해서요. 그런 시스템에서 성별 분류는 매우 위험한 기술이 될 수 있습니다.”
발화자 분류는 공격자들에게 훔치거나 엿들은 대화 내용에 대한 보다 풍부한 배경 정보를 제공한다. 대화를 나눈 두 사람이 누군지 알게 되면, 내용을 더 쉽고 깊게 파악할 수 있다는 것이다. 혹은 한 사람만 알아도, 상대편을 파악하는 데 도움이 될 수 있다. “담화 분류는 대화 내용 자체를 알게 해줍니다. 어쩌면 가장 치명적일 수 있습니다. 그러나 가장 어려운 분석 기술이기도 합니다.”
위험 가능성, 어떻게 줄일까?
이런 위험성을 줄이려면 OS 제작자들이 센서에 대한 접근 권한 자체를 손 봐야 한다. 즉 최종 사용자들이 문제에 대한 근본적인 해결을 위해 할 수 있는 일이 거의 없다는 것이다. “그러나 OS 개발사들에게도 쉽지 않은 문제입니다. 센서에 대한 접근 권한을 사용자가 제어하게 한다는 건, 사용을 그만큼 불편하게 만든다는 뜻이거든요. 애플리케이션 하나하나가 모션 센서에 대한 접근을 사용자에게 허락을 받도록 해도 마찬가지고요. 심지어 사용자들이 허용 내용을 꼼꼼하게 살피지도 않으니, 이용성을 저하시킨 만큼의 효과가 나오는 것도 아닐 테고요.”
그래서 연구원들이 생각해낸 건 하드웨어 재설계다. “장비를 만들 때 모션 센서들이 스피커로부터 발생하는 진동을 감지할 수 없도록 조치를 취하는 겁니다. 예를 들어 내부 스피커를 진동이 잘 되지 않는 물질로 만들거나, 센서와 스피커 사이의 거리를 충분히 벌려 놓는다거나 하는 식으로 말입니다. 그러면 사용이 불편해지는 일이 없겠죠.”
현재 삼성과 LG 측은 이 연구에 대한 입장을 발표하지 않은 상태다.
3줄 요약
1. (하필) 삼성과 LG 스마트폰을 가지고 한 실험 통해 스피어폰이라는 방법 개발됨.
2. 스피커폰으로 소리가 날 때 기체에서 발생하는 진동을 모션 센서가 감지하는데, 이 정보를 공격자가 가져갈 수 있음.
3. 가져간 정보를 고급 분석 기술로 분석하면, 발화자가 누군지, 성별이 무엇인지, 대화 내용이 뭔지 파악 가능함.
[국제부 문가용 기자(globoan@boannews.com)]
<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>