“음성인식, 물리보안 등 활용분야 다양”

2017-02-24 00:00
  • 카카오톡
  • 네이버 블로그
  • url
[인터뷰] 한국전자통신연구원 자동통역 연구실 김상훈 자동통역언어지능연구실장

border=1

[시큐리티월드 김성미 기자] 우리나라의 음성인식 역사는 한국전자통신연구원(ETRI)의 역사와 같이한다고 해도 과언이 아니다. ETRI는 지난 25년 동안 응용 영역을 달리하면서 음성인식을 꾸준히 연구해왔다. 그 결과물이 2012년 선보인 자동통역 서비스 ‘지니톡(GinieTalk)’과 지난 연말 내놓은 음성인식을 활용한 인공지능(AI) 기술인 ‘엑소브레인(Exobrain)’이다. ETRI 김상훈 실장을 통해 음성인식 기술 현황과 활용분야 등에 대해 들었다.

자동통역언어지능연구부는 어떤 연구를 수행하는지 궁금합니다
석박사급 50여 명으로 구성된 연구진이 세계적으로 최근 이슈가 되고 있는 음성인식과 인공지능(AI) 등 음성과 언어를 활용하는 분야를 집중 연구하고 있습니다. 대표적인 성과로는 2012년 공개해 장안의 화제가 된 자동통역 서비스 지니톡과 지난 연말 EBS 장학퀴즈에서 인간과 대결해 압승을 거둔 엑소브레인 AI 기술도 있습니다. 이 AI 기술의 핵심은 인간 수준의 문장·문법 분석력입니다. 올해 지니톡은 평창동계올림픽에서 한국어-8개국(영어, 중국어, 일본어, 독일어, 스페인어, 불어, 러시아어, 아랍어) 자동통역 시범 서비스를 제공하게 되며, 엑스브레인은 금융, 법률 등 실생활에 도움이 되는 서비스를 개발할 계획입니다.

‘지니톡’을 소개해 주시기 바랍니다
자동통역은 서로 다른 언어를 사용하는 사람 간에 의사소통을 가능하게 하는 고난도 융·복합 기술입니다. 1980년대 후반부터 자동통역 기술 개발이 시작됐고 컴퓨터의 급속한 발전과 함께 1990년대부터 본격화 됐습니다, 크게 3가지 핵심기술로 구성되는데 음성인식, 자동번역, 음성합성 기술입니다.

현재 음성인식은 구글 알파고에 적용된 AI 기술인 딥러닝(Deep Learning)과 대량의 학습 데이터를 적용하여 특정 응용영역에서는 사람이 인지하는 수준까지 도달했으며, 자동번역은 최근 신경망 기반의 기계 번역(NMT : Neural Machine Translation) 기술의 적용으로 사람이 직접 번역한 것처럼 보일 정도로 놀라울 정도로 발전하고 있습니다. 음성합성은 1990년대 초 규칙기반 합성에서 2000년대부터 대용량 음성 데이터 기반 음편조합 방식 기술이 주도해 거의 원음에 가까운 고품질 합성음을 생성해내고 있습니다. 현재 사람과의 대화에 필요한 감정표현, 대화체 운율 등에 개발이 이뤄지고 있습니다.

지니톡은 2012년 공개 당시 1주일 만에 100만 다운로드를 기록했고, 네이버 실시간 검색 1위를 하는 등 장안의 화제가 됐습니다. 2013년에는 일본어와 중국어로 언어를 확장했습니다. 현재 지니톡은 여행과 일상생활에서 수만~수십만 단어를 인식할 수 있고, 음성 인식률 90%, 통역률 80%에 달할 정도로 정확한 통역률을 자랑하고 있습니다. 2014년 인천 아시안게임에서도 지니톡 기반의 자동통역 앱 ‘인천광역시 통역비서’가 다운로드 1만 4,400여 회를 기록하며 주목받았습니다.

네이버 파파고와의 차별점은 무엇입니까
요즘은 기술적 차별점을 얘기하기가 무척 어렵습니다. 세계적으로 유수한 업체간 기술 수준과 서비스 형태가 평준화되고 있고, 인간의 신경을 모방한 딥러닝 기술의 대중화로 대량의 학습 데이터, 고성능 컴퓨터만 있으면 누구라도 음성인식이나 자동번역 기술을 만들 수 있는 시대가 됐기 때문이지요. ETRI든 구글이든 네이버든 기술적 차별성을 찾기가 점점 어려워지고 있는 것이 현실입니다.

그러나 딥러닝 기술을 적용하기 위해서는 정제된 데이터의 대용량 확보가 중요해지므로 ETRI는 학습 데이터를 자동으로 정제하는 핵심 기술을 확보해 음성인식, 통번역 성능을 점진적으로 개선하고 있습니다. 데이터베이스 자동정제 기술은 외부적으로 잘 드러나지 않는 기술이지만 매우 중요한 핵심 기술이고 ETRI만이 가지고 있는 차별화 요소입니다.

사실 ETRI는 국내업체가 개발한 파파고를 경쟁기술로 생각지는 않습니다. 파파고가 더 나아지도록 ETRI가 기술적 지원을 하고, 국산 기술이 외산 기술보다 우위에 있길 바랍니다. 현재 지니톡은 한국어에서 영·중·일어 외에 유럽어까지 양방향 통역이 가능합니다. 올해는 네트워크 없이도 통역이 가능한 단말탑재형 통역기술을 상용화합니다. ETRI는 차별화된 기술로 머지않아 이어셋 하나만 끼면 외국인과 자유롭게 대화할 수 있는 시대를 열려 합니다.

지니톡에 적용한 ‘음성인식’은 어떤 기술인지요
우리나라의 음성인식 역사는 ETRI의 역사와 같이한다고 해도 과언이 아닙니다. 지난 25년 동안 응용영역(전화망, PC, 로봇, 텔레매틱스 등)을 달리하면서 음성인식을 꾸준히 연구해왔지만 10년 주기로 기술적 부침도 많이 겪었습니다. 1980년대만 해도 숫자음 10개 정도의 단어 인식을 했고, 90년대 들어 수천 단어급 명령어 인식을 했지요. 현재는 거의 무제한 어휘를 인식하는데 문제가 없고 자연스럽게 발성을 문장을 인식하는 수준까지 왔습니다.

지니톡에 적용하는 음성인식 기술은 딥러닝과 HMM(Hidden Markov Model) 통계기반 기술이 결합한 방식입니다. 실시간으로 인식이 수행되기 위한 네트워크 구조도 최적화돼 있으며 잡음에 강인한 음향 모델과 문법을 기술하는 통계기반 n-gram 기술, 사람이 발성한 음성구간을 정확히 찾아내는 음성끝점검출 등 핵심 기술로 이뤄져 있습니다. 이러한 요소 기술들은 대부분의 인식 엔진도 유사하나 개별 기술의 성능을 좌우하는 노하우가 녹아 있다고 보면 되고, 요소 기술들의 결합을 통해 다국어 대상 단어인식률 정확도 90% 이상에 이르고 있습니다.

현재는 말하는 사람의 모국어 식별과 음성을 통한 성별 구분 기술 등을 지니톡에 적용중입니다. 외국어 전문지식이 없어도 자동통역 개발이 가능한 기술도 연구 중입니다.

음성인식의 활용 폭은 얼마나 넓은가요
가깝게는 내비게이션 주소 인식, 자동차 전자장치 제어, 집에서 사용하는 사물인터넷(IoT) 제어, 가전 제어, AI 비서와의 대화, 장애인을 위한 음성 딕테이션(Dictation)과 방송콘텐츠 자동 자막화, 금융분야의 콜센터 녹취, 외국인과의 언어소통을 위한 AI, 외국어 발음 평가, 자동통역 등 활용 분야는 참 다양합니다.

물리보안 업계에서도 화자식별이나 화자인식 등을 접목할 수 있습니다. 물리보안 업계와 음성인식 전문 업체와 협업을 통해 사업화를 추진할 수도 있을 것 같네요. 특히, IoT에서 음성인식은 매우 중요한 기술입니다. 집안 구석구석에 배치되는 IoT를 쉽게 제어할 수 있게 하거나 보안이 필요한 응용 분야에서는 접근이 인가된 목소리만 인식하게 할 수도 있겠지요.

현재 ETRI는 사람의 목소리를 잘 알아듣는 기능구현에 목적을 두고 있습니다. 당장은 보안관련 응용(한 사람의 목소리를 잘 구별하는 것 등) 기술 개발을 하고 있지는 않으나 이는 어렵지 않습니다. 그러나 보안은 거의 100%의 정확도를 담보해야 하므로 기존 물리보안의 완결성을 좀 더 높이는 데나 편의성을 향상하는 것에 제한을 둘 수밖에 없을 것 같습니다.
[월간 시큐리티월드 2017년 2월호 통권 241호(sw@infothe.com)]

연관 뉴스

헤드라인 뉴스

TOP 뉴스

이전 스크랩하기


과월호 eBook List 정기구독 신청하기

    • 씨프로

    • 인콘

    • 엔텍디바이스코리아

    • 핀텔

    • 아이비젼

    • 아이디스

    • 씨프로

    • 웹게이트

    • 엔토스정보통신

    • 하이크비전

    • 한화비전

    • ZKTeco

    • 비엔에스테크

    • 지오멕스소프트

    • 원우이엔지

    • 지인테크

    • 홍석

    • 이화트론

    • 다누시스

    • 테크스피어

    • TVT코리아

    • 슈프리마

    • 인텔리빅스

    • 시큐인포

    • 미래정보기술(주)

    • 세연테크

    • 비전정보통신

    • 트루엔

    • 경인씨엔에스

    • 한국씨텍

    • 성현시스템

    • 아이원코리아

    • 프로브디지털

    • 위트콘

    • 다후아테크놀로지코리아

    • 한결피아이에프

    • 스피어AX

    • 동양유니텍

    • 포엠아이텍

    • 넥스트림

    • 펜타시큐리티

    • 에프에스네트워크

    • 신우테크
      팬틸드 / 하우징

    • 옥타코

    • 네이즈

    • 케이제이테크

    • 셀링스시스템

    • 네티마시스템

    • 아이엔아이

    • 미래시그널

    • 엣지디엑스

    • 인빅

    • 유투에스알

    • 제네텍

    • 주식회사 에스카

    • 솔디아

    • 지에스티엔지니어링
      게이트 / 스피드게이트

    • 새눈

    • 에이앤티글로벌

    • 케비스전자

    • 한국아이티에스

    • 이엘피케이뉴

    • (주)일산정밀

    • 구네보코리아주식회사

    • 레이어스

    • 창성에이스산업

    • 엘림광통신

    • 에이앤티코리아

    • 엔에스티정보통신

    • 와이즈콘

    • 현대틸스
      팬틸트 / 카메라

    • 엔시드

    • 포커스에이아이

    • 넥스텝

    • 인더스비젼

    • 메트로게이트
      시큐리티 게이트

    • 엠스톤

    • 글로넥스

    • 유진시스템코리아

    • 카티스

    • 세환엠에스(주)

Copyright thebn Co., Ltd. All Rights Reserved.

시큐리티월드

IP NEWS

회원가입

Passwordless 설정

PC버전

닫기