.jpg)
아날로그 사진을 디지털화 할 때 사진에 있는 상처나 얼룩, 사진에 찍혀 있는 이용할 의도가 없는 필요하지 않은 물체를 영상에서 제거해 그 영역을 위화감 없이 자연스럽게 복원함으로써 영상의 이용 가치를 향상시키는 영상 복원(인페인팅)에 대한 연구를 소개한다. 영상 복원에 대한 연구분야에는 인터넷상 다수의 영상을 데이터베이스로 사용하는 연구나 동영상 속 불필요한 것을 제거하는 연구도 있으나 이번 원고에서는 1장의 정지 영상만을 사용한 영상 복원방법의 대표적인 연구와 거기에 이용되고 있는 요소기술을 소개한다.
가와이 노리히코┃나라첨단과학기술대학원대학
2000년에 개최된 국제회의 SIGGRAPH에서 ‘Image Inpainting’1)이라는 논문이 발표된 이후 영상 속 결손영역을 복원하는 연구가 활발하게 이루어지기 시작했다. 그러나 그 이전부터 영상 속 결손을 자연스럽게 복원하는 것을 목적으로 한 연구는 일본에서도 이루어져 왔다2) 3). 최근에는 Adobe사의 Photoshop에 ‘컨텐츠에 따른 내용 인식 채우기(Content Aware Fill)’로 영상 복원이 구현되고 있으며 일반에게도 점점 더 보급되고 있다.
이러한 영상 복원기술은 경년 열화나 재해 등으로 인해 상처나 얼룩이 생겨버린 사진의 복원이나 사진을 웹상에 업로드 할 때 프라이버시 보호, 팸플릿 등에서 사진을 이용할 때 불필요한 것의 제거 등 다양한 목적으로 이용될 수 있을 것이다. 그러나 이번 원고에서 소개하는 1장의 정지 영상만을 사용하는 영상 복원방법에서는 제거 대상물의 실제 배경을 복원하는 것이 아니라 어디까지나 주변의 정보를 이용해서 위화감이 없이 자연스러운 배경 텍스처를 생성하는 것이 목적이기 때문에 이용 용도에 따라서는 주의가 필요하다.
영상 복원분야에서도 인터넷상 다수의 영상을 데이터베이스로 사용하는 연구나 동영상 속 불필요한 것을 제거하는 연구도 있지만 이번 원고에서는 1장의 정지 영상만을 사용하는 연구 및 거기에 이용되고 있는 요소기술에 대해서 소개한다.
▒ 정지 영상의 결손 복원
1장의 정지 영상만을 사용하는 결손 복원방법은 근방 화소 휘도의 매끄러운 정도에 근거하는 접근과 영상 내 텍스처 패턴의 유사성에 근거하는 접근으로 분류된다. 아래에서는 각각의 대표적인 방법을 설명하고 그 아이디어에 대해서 살펴본다.
근방 화소 휘도의 매끄러운 정도에 근거하는 접근
이 접근의 대표적인 문헌으로서는 앞에서 소개한 Bertalmio 등의 연구1)를 들 수 있다. 이 방법은 결손 영역 내에 인접하는 화소값이 에지방향을 따라 매끄럽다고 하는 아이디어에 근거해 에지방향에 따라 화소값이 매끄럽게 전파되도록 반복해서 화소값을 갱신해 결손을 복원한다. 그림 1은 이 방법을 사용한 결과를 제시한 것이다. 그림과 같이 긁힌 상처와 같은 미세한 영역에 대해서는 양호한 결과를 얻을 수 있다. 그러나 크기가 큰 결손영역을 대상으로 했을 경우에는 결손영역 내부에서 미세한 모양을 가지는 텍스처를 재현할 수 없기 때문에 큰 결손영역의 복원에는 적합하지 않다. 이 때문에 최근 연구되고 있는 영상 복원방법은 아래에 기술하는 텍스처 패턴의 유사성에 근거하는 방법이 많은 부분을 차지하고 있다.
텍스처 패턴의 유사성에 근거하는 접근
이 접근에서는 결손영역 내에 존재할 것으로 추측되는 배경·물체와 유사한 배경·물체가 동일 영상 내에 존재한다는 가정을 근거로 해 결손영역 내 텍스처를 영상 속 다른 영역 텍스처를 이용해서 생성하는 것으로 결손영역을 복원한다. 이러한 방법은 유사한 텍스처를 탐색해 순차적으로 결손영역 내에 복사하는 접근과 전체 최적화에 의한 접근으로 크게 나눌 수 있다. 아래에 각각의 대표적인 연구를 설명한다.
순차적인 복사에 의한 복원
Criminisi 등4)은 결손영역의 경계에 국소적인 패치를 설정하고 그 패치와 가장 유사한 패치를 이미지 내에서 탐색해 그것을 결손영역 내에 복사한다.
이것을 결손영역이 모두 사라질 때까지 반복하는 것으로 결손영역 전체를 복원한다. 그림 2는 이 방법에 의한 결과 예를 제시한 것이다. 그림과 같이 비교적 큰 결손영역에 대해 복잡하고 자연스러운 텍스처를 대상영역 내에 생성할 수 있다. 그러나 순차적으로 복사를 하는 접근에서는 국소적으로는 위화감이 없는 자연스러운 텍스처를 생성할 수 있지만 복사순서에 따라 결과가 크게 달라져 영상에 따라서는 처리 종반에 텍스처가 위화감 없이 자연스럽게 연결되지 않는 곳이 생긴다. 이 때문에 최근에는 다음에 기술하는 복사 순서에 의존하지 않는 전체 최적화에 의한 방법이 활발하게 연구되고 있다.
전체 최적화에 의한 복원
Wexler 등5)은 결손영역을 포함하는 국소적인 패치와 영상 속 결손영역 외 패치의 유사도 가중치 합계에 근거하는 에너지 함수(목적함수)를 최소화하는 것으로 결손영역을 복원한다. 이것은 결손영역 내 임의의 국소적인 영역에서 결손영역 외의 텍스처와 유사하도록 텍스처를 생성하면 결손영역 전체를 위화감 없이 자연스럽게 복원할 수 있다는 생각에 근거를 두고 있다. 구체적인 처리로는 결손영역을 포함하는 국소 패치와 가장 유사한 패치를 영상 내에서 탐색하는 처리와 대응된 패치의 가중치 평균에 의해 결손영역 내의 화소값을 갱신하는 처리를 에너지가 수렴될 때까지 반복한다. 그림 3은 이 방법에 의한 결과 예를 제시한 것이다. 그림과 같이 전체 최적화에 의해 위화감 없이 자연스러운 텍스처가 생성되는 것을 알 수 있다. 또, 이 방법의 일부가 Adobe사 Photoshop의 ‘컨텐츠에 따른 내용 인식 채우기’에 이용되고 있다.
또, 최근의 발표문헌6)∼8)에서도 Wexler 등5)의 방법에 근거해 확장된 방법이 많다. 필자들이 제안한 방법6)에서는 동일영상 중에는 구조는 같지만 밝기가 다른 텍스처가 많이 존재한다는 생각으로부터 텍스처의 밝기변화를 허용한 복원을 하고 있다(그림 4). 또, 이 방법7)은일반적인 영상에 찍히는 물체에는 대칭성이나 동일구조의 스케일 변화가 존재한다는 생각으로부터 텍스처의 기하학적 변환을 허용한 복원을 하고 있다(그림 5). 그러나 일반적인 사진은 카메라의 촬영위치에 의존하고 텍스처 패턴에 다양한 기하학적 변화가 존재해 완전히 자동으로 적절한 기하학적 변환 파라미터를 추정하기는 어렵다. 그 때문에 이 방법8)에서는 사용자가 간단한 입력을 통해 기하학적 구조를 추정하고 그것을 이용해서 위화감없이 자연스러운 텍스처를 생성하고 있다(그림 6).
이렇게 전체 최적화에 의한 방법은 다양한 영상에 있어서 양호한 결과를 얻을 수 있지만 이들 방법에 사용되고 있는 에너지 최소화 방법은 반드시 최적해를 얻을 수 있다는 보증이 없으며 국소적으로 답이 보이지 않거나 부자연스러운 결과가 얻어지는 경우도 있다. 또, 영상 내에서 유사한 텍스처를 탐색하는 처리에서 영상 전체 영역을 탐색했을 경우 영상의 해상도에 따라서는 방대한 시간이 걸리게 된다. 그 때문에 이 문제를 완화하는 방법이 각 연구에서 채용되고 있다. 아래에서는 그 방법으로서 2개의 요소기술을 소개한다.
① 고속 탐색방법
유사 텍스처 패턴의 탐색처리에서는 결손영역을 포함하는 국소 패치 내 화소값 열(쿼리)과 유사한 패치를 결손영역 이외 영역(데이터베이스)에서 찾는 최근방 탐색의 문제라고 생각할 수 있다. 최근방 탐색은 트리구조를 사용한 방법 등 다양한 방법이 지금까지 연구돼 오고 있는데 영상 복원을 대상으로 했을 경우에 차원 수는 패치 사이즈에 대응하고 탐색공간의 크기는 이미지의 해상도에 대응한다. 예를 들면 유사도 산출에 사용하는 패치 사이즈가 9×9화소이고 영상의 해상도가 100만화소라고 하면 81차원의 공간에서 100만으로부터 결손영역의 화소 수만 제외한 개수의 데이터에서 가장 유사한 데이터를 찾는 문제가 된다. 이 때문에 지금까지의 최근방 탐색방법은 실용적인 소프트웨어로 사용되기 위한 처리속도로서는 충분하지 못했다.
이것에 대해 화소값의 유사도 뿐만 아니라 결손영역 내 인접하는 화소끼리와 그것들의 화소가 대응되는 결손영역 외 화소끼리의 상대적인 위치관계를 고려한 PatchMatch9)라고 불리는 탐색방법이 제안되었다. 구체적인 처리의 일례로서는 왼쪽 위에서 오른쪽 아래를 향해 래스터 스캔(Raster Scan)을 하면서 결손영역 내 각 화소에 대한 결손영역 외 화소를 차례로 대응시켜가는 경우 그림 7에 나타내는 것과 같이 어떤 결손영역 내 화소(i-1, j)가 결손영역 외 화소(p, q)에 대응돼 있다고 하면 결손영역 내 인접 화소(i, j)에 있어서는 화소(p+1, q)에 대해 유사도를 계산한다.
마찬가지로 화소(i, j-1)가 화소(s, t)에 대응돼 있다고 하면 화소(s, t+1)에 대해서도 유사도를 계산한다. 또, 해당 화소(i, j)가 전체 최적화의 반복처리에 있어서 전회의 탐색으로 대응돼 있던 화소에 대해서도 유사도를 계산한다. 그 다음에 여기까지에서 가장 유사도가 높은 결손영역 외 화소를 중심으로 하는 일정범위 내 랜덤 1화소에 대해 유사도를 계산한다. 이것을 범위를 축소시키면서 몇 회 반복한다. 마지막으로 이 중에서 유사도가 가장 높은 화소를 화소(i, j)에 대응하는 화소로 결정한다. 만약 영상 전체를 탐색했을 경우에는 결손영역 내 1화소에 대해 해상도에 따라 수백만 회의 유사도 비교를 할 필요가 있지만 PatchMatch에서는 해상도에 거의 의존하지 않아 수 회 정도의 비교만으로 끝난다. 또, 그럼에도 불구하고 결과에의 영향이 적은 것은 논문9)에 게재돼 있는 결과에서 확인할 수 있다. 이 때문에 이 탐색방법이 제안되기 전에는 1장의 영상에 대한 영상 복원에 수 십 분의 시간이 필요했지만 이 탐색방법으로 단 몇 초에 결과를 출력할 수 있게 되었다.
또, 인접 화소의 상대적인 위치관계뿐만 아니라 대칭성이나 스케일 변화 등 텍스처의 기하학적인 변환도 고려한 일반화된 PatchMatch10)도 제안돼 있으며 문헌7)에서 이용되고 있다. 일반적으로 텍스처의 기하학적 변환을 허용하면 탐색공간이 방대하게 늘어나게 되지만 이것을 이용하면 그 문제는 완화된다.
② 멀티 스케일 처리
수식을 이용한 최적화 문제로 영상 복원을 다루는 방법에 있어서 추구하는 파라미터의 수가 결손영역의 화소수에 의존하기 때문에 결손영역이 클 경우에는 최적해를 쉽게 구할 수 없고 처리비용도 많이 든다. 이 문제를 해결하기 위해서 많은 방법으로는 멀티 스케일 처리가 이용되고 있다. 구체적으로는 그림 8에 나타내는 것과 같이 우선 원래의 영상을 단계적으로 축소한 영상 피라미드를 작성해 두고 가장 축소한 영상에 대해 복원처리를 한다.
그 다음에 그 복원결과를 다음 층의 초기값으로 시용한다. 여기에서는 단순하게 복원 텍스처를 다음 층 결손영역의 초기 텍스처로 이용할 뿐만 아니라 결손영역의 각 화소와 결손영역 외 화소의 대응관계를 다음 층의 초기 대응관계로 사용한다. 이 처리를 원래의 스케일 영상까지 반복하는 것으로 복원을 한다. 이것으로 처리의 고속화를 꾀할 수있고 대국적이며 동시에 국소적으로 자연스러운 텍스처를 생성할 수 있다.
이번 원고에서는 1장의 정지화상만을 사용하는 영상 복원의 대표적인 연구와 거기에 이용되고 있는 요소기술을 소개했다. 여러 문헌의 실험결과를 보는 한 얼핏 모든 영상에 대해 양호한 결과를 얻을 수 있을 것 같아 앞으로의 연구과제가 한정돼 있는 것처럼도 보인다. 하지만 실험에 이용되는 영상은 제안방법이 효율적으로 작용할 수 있는 특징적인 영상일 경우가 많아 일반적인 사진으로 양호한 결과를 얻을 수 있는 경우는 제한적일 수도 있다. 이 때문에 앞으로도 여러 가지 이미지를 잘 관찰해 법칙 등을 생각하면 더 좋은 영상 복원방법을 개발할 수 있을 것이다.
참고문헌
1) M.Bertalmio, G.Sapiro, V.Caselles and C.Ballester, “Image Inpainting”, Proc. SIGGRAPH2000, pp.417 - 424(2000)
2) 마에다 히로유키, 다카하시 겐이치, 오타 마사미쓰, “결손 영상 복원처리의 한 방식”, 전자정보통신학회 논문지, Vol. J69-D, No.1, pp.91-97 (1986)
3) 쇼지 겐지, “텍스처 영상에 있어 결손부 복원의 한 방법”, 전자정보통신학회 논문지, Vol. J71-D, No.9, pp.1701 - 1708(1988)
4) A.Criminisi, P.Perez and K.Toyama, “Region Filling and Object Removal by Exemplar-Based Image Inpainting”, IEEE Trans. Image Processing, Vol.13, No.9, pp.1200 - 1212(2004)
5) Y.Wexler, E.Shechtman and M.Irani, “Space-Time Completion of Video”, IEEE Trans. Pattern Analysis and Machine Intelligence, Vol. 29, No.3, pp.463 - 476(2007)
6) 가와이 노리히코, 사토 도모카즈, 요코야 나오카즈, “텍스처의 밝기 변화와 국소성을 고려한 패턴 유사도를 사용한 에너지 최소화에 의한 영상 복원”, 전자정보통신학회 논문지, Vol. J91-D, No.9, pp.2293 - 2304(2008)
7) S.Darabi, E.Shechtman, C.Barnes, D.B.Goldman, P.Sen, “Image Melding: Combining Inconsistent Images usinPatch-based Synthesis”, ACM Trans. Graphics, Vol.31, No.4, pp.82:1 - 82:10(2012)
8) J.Huang, J.Kopf, N.Ahuja and S.B.Kang, “Transformation Guided Image Completion”, Proc. Int. Conf. Computational Photography, pp.1 - 9(2013)
9) C.Barnes, E.Shechtman, A.Finkelstein and D.B.Goldman, “PatchMatch: A Randomized Correspondence Algorithm for Structural Image Editing”, ACM Trans. Graphics, Vol.28, No.3, pp.24:1 - 24:11(2009)
10) C.Barnes, E.Shechtman, D.B.Goldman and A. Finkelstein “The Generalized PatchMatch Correspondence Algorithm”, Proc. European Conf. Computer Vision, pp.29 - 43(2010)
11) 가와이 노리히코, “영상 속 불필요한 것을 제거하기 위한 영상 인페인팅”, 영상정보미디어학회 학회지, Vol.67, No.8, pp.666 - 669(2013)
[월간 시큐리티월드 통권 제206호(sw@infothe.com)]