[보안뉴스 김성미 기자] “인공지능(AI)은 최근 상당한 기술 진보를 이뤘지만, 아직도 사람과 비교하기엔 수준이 낮습니다. 현재로썬 10점 만점에 3점 정도를 줄 수 있을 것 같습니다.” 박종열 한국전자통신연구원(ETRI) SW콘텐츠연구소 지능정보연구본부 시각지능연구그룹장은 “AI에 대한 진실과 오해가 많다”며 이같이 말했다.
[사진=보안뉴스]
박 그룹장은 사람을 대체할 기술로 높은 관심을 받는 AI에 대해 “AI는 사람을 보완해 줄 뿐 완전한 대체는 불가능하다”고 말한다. ETRI에서 시각 인공지능(시각지능) ‘딥뷰(Deep View)’를 연구하는 그에게 AI와 영상분석의 미래에 대해 들어봤다.
ETRI 시각지능연구그룹은 어떤 연구를 하시나요
저희는 지능정보연구본부가 개발 중인 지능형 소프트웨어(SW) 기술인 시각지능(딥 뷰)과 언어지능(엑소브레인), 청각지능(지니톡) 중에서 시각지능 연구를 맡고 있습니다. 사진과 비디오를 보고 사람 수준으로 읽을 수 있는 기술을 개발하고 있습니다. 사람이 사물을 보고 직관적으로 이해하거나 한참을 들여다보면서 세밀하게 이해하는 과정이 있듯이 저희도 외형을 직관적으로 이해하는 것과 세밀하게 이해하는 기술을 개발하고 있습니다.
언어·시각·청각지능을 융합한 연구가 진행될 가능성도 있을 것 같습니다
본부 차원에서 엑소브레인과 지니톡, 딥 뷰의 3개 지능을 묶은 장기과제를 올해부터 시작했습니다. 세 지능을 묶으면 자율 성장이 가능해집니다. 이를 통해 물리보안에서는 사람이 담당하는 온·오프라인 업무를 융합해 대체함으로써 효율성을 높일 수 있을 겁니다. 노동집약적 업무는 기계가 대체하고, 사람이 해야만 하는 업무만 사람이 맡는 것이 가능해지는 것이죠.
AI 연구자로서 기계가 사람을 100% 대응하는 완전한 ‘무인’은 불가능하다고 생각합니다. 사람의 뛰어난 능력을 기계가 전부 커버할 수는 없습니다. 지금의 AI 연구 트렌드는 기계가 사람보다 잘하는 것을 더 잘하게 하는 것입니다. 멀리 보는 데는 사람의 눈보다 망원렌즈가 더 뛰어난 것과 같은 논리입니다.
사람이 육안으로 영상을 감시하는 것은 대단히 피로도가 높은 노동집약적 일입니다. AI가 이 일을 맡는다면 사람보다 작업 집중도가 높으므로 효율이 높아집니다. AI는 사물 분별력이 사람보다 뛰어나다는 평가를 받습니다. 사람이 맨눈으로 볼 때 긴가민가한 것도 AI가 볼 때는 정확도가 95% 정도에 이릅니다.
영상보안과 AI의 접목이 가시화되는 것 같습니다. 지능형 영상관제 기술은 어느 단계에 도달했습니까
AI가 가장 활발하게 적용되는 분야가 영상분석이 아닌가 생각합니다. 기술적 해결이 어려웠던 것들이 풀리면서 관련 전문가들이 더욱 활발한 활동을 하고 있습니다. 영상분석에 대한 기반기술을 확보하면 활용할 분야가 많습니다. 점차 영상을 이해하는 기술 연구가 확대되고 수준도 높아지고 있습니다. 현재는 기초와 기반기술의 가능성을 확인하고 응용분야로 넘어가고 있는 단계입니다. 점수로 얘기한다면 10점 만점에 3점을 줄 수 있습니다.
현재 진행 중인 딥 뷰 연구에 대해서도 말씀해주시죠
딥 뷰는 AI 중에서도 사물을 보고 이해하는 시각지능 개발 과제입니다. 2014년에 시작해 올해 연구 4년 차에 접어들었습니다. 올해로 1단계 사업을 완료하고 내년부터 2단계 사업에 들어갑니다. 시각지능을 이용하면 사진이나 영상에 나타나는 다양한 사물을 인식하고 이들의 관계를 분석해 상황을 이해할 수 있습니다.
딥러닝이 동영상 연구에 적용이 활발해진 것은 최근의 일입니다. 그동안은 사진 등 정지 영상을 중심으로 연구를 해왔습니다. 딥뷰도 스틸 이미지부터 연구를 시작해 사물의 인식과 분별 정확도를 높여 왔습니다. 사람이 사물을 보고 이해하는 것은 사물을 인식한 다음 이것이 어떤 행동을 하고 어떤 방식으로 움직인다는 것인데, 이를 이해하는 것을 AI가 할 수 있게 만드는 작업입니다.
딥 뷰 연구에서 어려운 점은 무엇입니까
연구를 위한 참고서인 학습용 실제 상황 영상을 확보하는 것이 어렵습니다. 사람은 사물의 일부분만 봐도 무엇이라고 금세 파악해내지만 AI가 하나의 사물을 인식하기위해서는 최소 1,000~1만장의 데이터를 학습해야 합니다. 현재로썬 확보된 데이터가 절대적으로 부족합니다. 설령 원하는 상황에 대한 데이터가 확보된다 해도, 카메라의 설치 각도와 높이·조도·날씨에 따라 영상에 적용해야 하는 기술이 달라지기 때문에 다양한 기술적 확장도 필요합니다.
영상에 대한 사생활 침해와 저작권 문제도 이슈중 하나입니다. 컴퓨팅 파워의 한계도 있습니다. 머신러닝은 사실 기계 싸움입니다. 최근 딥러닝 전용 워크스테이션 기업으로 꼽히는 구글이나, 마이크로소프트, 페이스북, 바이두 등은 수백 대 컴퓨팅 파워를 기반으로 연구를 진행하기 때문에 연구 속도가 빠릅니다. 중국이 최근 영상 분야에서 괄목할만한 성장을 한 것도 대규모 투자 덕입니다.
정부에서 4차 산업혁명 대비한 지능정보화 사회 실현에 앞장서겠다고 밝혔는데, 이 사업의 핵심은 지능형 영상관제입니다
정부에서 지능형 영상관제 기술을 중요하게 인식하는 것은 기술 개발을 통해 해결하려는 문제가 국민의 안전과 안보와 직결되기 때문입니다. 지능형 영상관제의 요소 기술은 다른 분야에서도 활용할 수 있기 때문에도 확보할 필요가 있지요. 실제 글로벌 마켓 분석을 보면 지능형 영상분석 기술의 성장세가 매우 높고 파급효과도 큰 것으로 나오고 있습니다.
딥뷰는 실생활에 어떻게 접목될 수 있나요
딥뷰는 우선 2가지를 실생활에 접목하려고 합니다. 첫 번째는 지능형 CCTV에 접목해 영상분석을 지원하는 것이죠. 일정 시간 이내에 반응하는 시스템으로는 접목할 수 있습니다. 현 연구 단계에서는 실시간 영상분석을 고려하고 있지 않지만, 나중에는 이를 위해 성능을 향상할 겁니다. 또 다른 접목 분야는 방송 분야입니다.
방송 프로그램의 등장인물이나 배경을 인식할 수 있다면, VOD·방송 광고·홈쇼핑 등과 연계해 시청자가 원하는 상품을 검색하거나 맞춤형 방송 알람 등도 가능합니다. 장기적인 관점에서는 사람처럼 방송을 보고 배워서 사람과 같은 수준의 지식을 갖는 것도 가능할 것입니다.
끝으로 시각지능 연구 목표에 대해서 말씀해 주시죠
딥뷰 과제를 통해 더 정확하고 더 정밀하게 사물과 행동을 이해하는 기술을 개발하려 합니다. 장기적인 관점에서 시각지능이 사람의 눈과 같이 빠르게 배우고 성장할 수 있게 하는 것이지요. 올해는 1단계 사업이 끝나는 시점으로 10만장(또는 1시간) 분량의 이미지를 10분 안에 처리하는 것이 목표입니다. 2단계는 사업화, 3단계는 이 기술의 세계적 활용이 목표입니다. 3단계에서는 30만장을 10분 안에 분석해낼 수 있을 겁니다.
시각지능은 다른 AI와는 달리 사람을 묘사해내는 것이 큰 과제입니다. 최근 많은 연구가 이뤄지면서 상당한 기술 성장을 이룩했지만 사람과 비교하면 아직도 낮은 수준입니다. 점차 성장하는 기술로 바라보고 기대해 주시기 바랍니다.
[김성미 기자(sw@infothe.com)]
<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>