[보안뉴스= 강맹수 KDB 산업기술리서치센터 연구위원] 스마트 스피커는 차세대 사용자 인터페이스인 음성인식 인터페이스를 활용하기 위한 최적의 플랫폼으로 꼽힌다. 컴퓨터와 대화하듯이 명령을 내려 활용할 수 있는 스마트 스피커는 음성인식과 합성, 자연어처리를 위한 고도의 인공지능 기술이 융합되고 방대한 통합 지식 데이터베이스 구축과 운영 기술이 결합한 서비스를 제공한다.
이에 따라 스마트시티에서도 음성인식 스마트 스피커의 플랫폼으로써의 가능성에 주목하고 있다. 여기에서는 산업은행 산업기술리서치센터에서 발표한 ‘스마트 스피커 시장 동향과 전망 보고서’를 토대로 스마트 스피커 시장 동향과 전망을 정리해 본다.

[사진=dreamstime]
2018년 상반기 전 세계 스마트 스피커 판매량은 전년동기 대비 197% 증가한 2,500만 8,000대를 기록했다. 아마존이 2014년 11월 세계 최초로 스마트 스피커를 출시한 이래 시장을 주도해 왔으나, 올해 들어 구글이 판매량 기준으로 세계 시장점유율 1위를 탈환했다.
중국에서는 알리바바, 샤오미, 바이두가 스마트 스피커 시장에서 빠르게 점유율을 높이고 있다. 국내에서는 SK텔레콤이 ‘누구’를 2016년 9월 출시한 이래 KT가 ‘기가지니’, 네이버가 ‘클로바, 카카오가 ’카카오 미니‘를 선보이며 경쟁하고 있다.
세계 스마트 스피커 시장은 이미 초기 수용 단계를 지나 초기 대중화 단계로 발전하고 있으며 초기 보급 단계를 지나 본격 서비스 경쟁 시기로 접어들고 있다. 스마트 스피커 메이커들의 플랫폼 경쟁이 활발하게 전개되고 새로운 킬러 서비스와 다양한 제품들이 등장하는 등의 양상이 전개될 것으로 예상된다.
전 세계 스마트 스피커 시장은 연평균 30% 내외로 성장해 2022년에는 2017년 대비 약 3.5배 증가한 87억 1,000만달러 규모로 성장할 전망이다. 올해 전 세계 스마트 스피커 판매량은 최소 5,000만대에서 최대 8,000만대에 이를 것으로 보인다.
미국이 초기 대중화 단계로 진입했고, 독일과 영국도 2019년에는 초기 대중화 단계에 이를 것으로 예상된다. 신기술이 확산되는 과정은 초기 수용, 초기 성숙, 초기 대중화, 후기 대중화, 말기 수용 단계의 5단계로 구분한다. 초기 수용 단계는 보급률 16%까지, 초기 대중화 단계는 16~50%까지다.

▲전 세계 스마트 스피커 판매 대수 (단위 : 백만대)자료=카날리스 2018]

▲전 세계 스마트 스피커 도입 단계[자료=보이스봇]
스마트 스피커 등장 배경과 잠재적 가능성
음성 인터페이스는 터치의 한계를 극복하기 위한 대안이었다. 스마트폰과 함께 등장한 터치 인터페이스는 기존의 입력 장치인 키보드나 마우스, 물리적 버튼, 스타일러스 펜의 한계를 극복했다. 터치 방식은 별도의 물리적 입력 장치 없이 누구나 직관적으로 스마트폰을 사용할 수 있도록 만든 혁신적인 기술이었지만, 누군가에게 문자를 보내거나 스마트폰의 설정을 변경할 때마다 여러 단계를 거쳐야 하고 사용 중에는 스마트폰에서 눈과 손을 뗄 수 없는 것이 단점이다.
반면 음성 인터페이스는 터치보다 직관적이다. 사람이 대화하듯이 컴퓨터에 명령을 내리고 다양한 기능을 활용할 수 있는 가장 자연스러운 인터페이스다. 그래서 음성인식 스마트 스피커는 음성 인터페이스를 활용하기 위한 최적의 플랫폼으로 꼽힌다. 그럼에도 스마트폰에서는 대부분 음성보다 터치로 더 빠르게 원하는 결과를 얻을 수 있는 데다 사용자들이 음성인식 인터페이스 사용 과정에서 프라이버시 노출을 꺼렸기 때문에 실제 활용이 활발하지 않았다.
실제로 시장조사기관 보이시스(Voysis)가 2018년 5월 미국 성인 1,200명을 대상으로 진행한 조사에 따르면, 스마트 스피커 사용자의 65% 이상은 최소 1주일에 한 번 이상 음성인식 인터페이스를 사용하는 반면, 스마트폰 보유자의 약 80%는 음성인식 인터페이스를 한 번도 사용하지 않거나 아주 가끔만 사용하는 것으로 나타났다. 이처럼 실제 활용은 아직 미미하지만, 스마트 스피커는 다양한 인공지능(AI) 기술과 방대한 통합 지식 데이터베이스(DB)를 구축하고 활용하는 기술 융합 창구로서의 잠재적 가능성이 높다.
스마트 스피커, 차세대 대표 인터페이스 플랫폼
스마트 스피커가 사용자의 말을 듣고 사람처럼 답하기 위해서는 음성인식과 자연어 처리, 음성합성을 위한 고난도의 AI 기술이 필요하다. 음성인식은 사람의 말을 텍스트로 변환하는 기술로 음성인식 인터페이스를 사용하는 스마트 스피커의 기반기술이다. 사람마다 서로 다른 발음과 상황에 따른 같은 단어의 다른 발음 등의 다양한 문제로 구현이 쉽지 않았으나 딥러닝의 발전으로 현재는 개별 단어 단위에서 인식률이 95%에 이른다.
스마트 스피커는 주변 소음이나 음악과 사람의 음성을 분리하기 위해 여러 개의 마이크를 내장해 전처리하는 과정을 거친다. 아마존 에코는 7개의 내장 마이크로 주변 소음을 제거한다.
자연어 처리는 사람의 말을 기계가 이해하도록 만드는 AI 기술로 텍스트 문장에서 핵심어를 추출해 명령 도메인과 구체적인 요청사항을 구분한다.
“방탄소년단의 히트곡을 찾아줘”라는 명령을 들으면 ‘음악’ 도메인에서 ‘방탄소년단이란 뮤지션이 부른 노래’를 찾아 ‘음악 앱을 실행하라’는 뜻으로 해석하는 과정을 거치게 되는 것이다. 다만 아직은 문장을 사람처럼 이해하는 것은 불가능해 학습되지 않은 영역은 대응하지 못하는 한계가 있다.
음성명령에 적절하게 응답하기 위해서는 통합 지식 DB를 구축하고 검색과 텍스트 요약, 개인화 추천 기술들을 적용해야 한다. 통합 지식 DB는 사용자의 질의에 응답하기 위한 필수적인 기초 데이터 집합으로 적용범위가 넓을수록 다양한 명령에 대응할 수 있다. SK텔레콤은 ‘누구’의 작동을 위해 2억 5,000건의 트리플(객체, 속성, 값으로 구성된 데이터 형식)을 구축했다.

▲<표> 스마트 스피커의 기술 구성[자료=KDB 산업기술리서치센터]
클라우드에서 구현되는 스마트 스피커 AI 플랫폼
스마트 스피커의 AI 플랫폼은 클라우드에서 작동한다. 개별 기기는 웨이크업(Wake-up) 명령 인식과 음성 데이터 전처리만 담당하며, 웨이크업 명령 처리를 제외한 음성인식은 클라우드에서 구동한다. 자연어 처리 모듈, 사용자 명령과 서비스 매칭, 음성합성 기능도 클라우드 상에서만 구현된다. 음성합성이란 스마트 스피커가 사람과 자연스럽게 대화할 수 있도록 텍스트 문장을 사람이 말하듯 소리로 변환하는 기술이다.
클라우드에서 스마트 스피커의 AI 플랫폼 작동하도록 하면 새로운 기능을 사용자가 별도의 업그레이드 없이도 이용할 수 있기 때문에 서비스 확장에도 유리하다. 클라우드를 통해 다양한 외부 개발자와의 협업이 쉬워지고 스마트 스피커를 AI 플랫폼으로 활용하는 것도 가능하다.
스마트 스피커 시장, 구글·아마존 양강 구도
전 세계 스마트 스피커 시장은 아마존과 구글이 자체 음성인식 인터페이스를 바탕으로 주도해가고 있다. 아마존은 에코와 연동되는 2만개 이상의 제품을 확보해 가장 광범위한 생태계를 구축했다. 구글의 구글홈은 뛰어난 AI 기술을 바탕으로 현재 유일하게 이중언어를 동시에 지원한다. 애플의 홈팟은 스피커 음질이 우수해 음악 감상에는 장점이 있지만, 음성인식 AI인 시리의 자연어 이해 성능이 구글홈보다 미흡하다.
스마트 스피커 시장의 가장 큰 경쟁요소는 가격이다. 구글과 아마존은 적극적인 할인판매를 통해 보급률을 높이는 전략을 실행하고 있으며, 스피커 제조사들은 음악감상에 특화된 제품으로 틈새시장을 개척하고 있다. 중국의 시장점유율 상위 3개사인 알리바바, 샤오미, 바이두도 저가 정책과 할인 판매를 통해 시장에 안착하고 있다. 바이두가 2017년 출시한 레이븐 H(224달러)는 실패했지만 최근 출시한 샤오 두(1만 5,000원)는 가격을 대폭 할인해 중국내 점유율을 넓히고 있다.

▲<표> 주요 스마트 스피커 기업[자료=KDB 산업기술리서치센터]
다양한 조사에서 가구당 평균 스마트 스피커 보유대수는 일관되게 1.5~2대로 나타났다. 미국과 영국이 독립적으로 진행된 조사에 따르면 전체 사용자의 2/3는 스마트 스피커를 1대만 보유하고 있었고, 약 20%는 2대, 나머지는 3대 이상을 보유하고 있었다.
보이스봇( Voicebot.ai)의 미국 스마트 스피커 사용자 조사에 따르면 가구당 평균 보유대수는 약 1.8대였으며, 영국의 여론조사업체 유고브(YouGov)의 조사에서는 영국의 스마트 스피커 사용자들이 가구당 평균 1.5대 이상을 보유하고 있는 것으로 드러났다.
스마트 스피커는 장소를 이동하는 것이 불편하기 때문에 적극적인 사용자들은 장소마다 기기를 추가로 설치하는 경향을 보였으며, 거실과 부엌, 침실의 순으로 사람이 많이 모이는 곳부터 설치됐다. 현재의 주요 스마트 스피커 사용목적은 음악감상이나 간단한 명령을 실행하는 것으로 제한적이나 향후 활용 영역이 넓어진다면 가구당 보유대수는 더욱 늘어날 수 있다. 개인별 추천기능이 향상되면 개인별로 스마트 스피커를 보유할 가능성도 있다.

▲국가별(완쪽)과 국내(오른쪽) 스마트 스피커 점유율 전망[자료=KDB 산업기술리서치센터]
국내 스마트 스피커 시장, 세계 5위
국내 스마트 시장 규모는 2018년말 기준 세게 5위권 수준이다. 시장조사회사 카날리스는 2018년 말 전 세계 스마트 스피커 누석 설치 대수는 약 1억대이며 한국은 이 중 3%를 차지할 것으로 추산했다.
국내 스마트 스피커 시장은 통신사업자인 SK텔레콤과 KT가 주도하고 있다. 2017년 말 기준 국내 스마트 스피커 판매량은 100만대로, KT의 기가지니가 50만대, SK텔레콤의 누구가 40만대를 판매했다. 통신사업자는 IPTV 이용자를 중심으로 시장을 확대하고 있으며, 네이버와 카카오는 자사의 캐릭터를 활용해 차별화 전략을 구사하고 있다. 삼성전자는 올해 음질을 강조한 스마트 스피커 갤럭시홈을 출시할 계획이다.

▲국내의 주요 스마트 스피커[자료=KDB 산업기술리서치센터]
국내 이용자들은 해외와 비슷하게 음악 감상이나 일기예보, 간단한 대화, 정보 검색, 알람 설정 등에 스마트 스피커를 주로 사용한다. 국내에서는 IPTV와 연계한 패키지 판매에 따라 TV 조작과 관련된 기능도 많이 사용한다. 그러나 이용 만족도는 50%를 넘지 않는다. 소비자 불만족 이유는 음성인식이 잘 안되기 때문으로, 한국어는 영어보다 음성인식과 자연어 처리 기술 개발이 까다롭다.
[글_ 강맹수 KDB 산업기술리서치센터 연구위원]
<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>