하루에 논문 한편씩, 핵심만 읽고 요약하기 : Paper 09



Paper Link : Link (CVPR2020) / Project Page



1. Abstract

해당 논문에서는 네트워크 구조나 데이터셋에 상관없이 CNN이 생성한 이미지를 실제 이미지로부터 구별할 수 있는 "universal"한 detector를 만드는 것이 가능한지에 대해 의구심을 가지었습니다. 이것을 확인하기 위하여, 오늘날 흔히 사용되는 11개의 CNN 기반 이미지 생성 모델 (ProGAN, StyleGAN, BigGAN, CycleGAN, StarGAN, GauGAN, DeepFakes, cascaded refinement networks, implicit maximum likelihood estimation, second-order attention super-resolution, seeingin-the-dark)으로부터 가짜 이미지로 구성된 데이터셋을 수집하였습니다. 주의 깊게 설계된 전처리, 후처리, 그리고 data augmentation 방법을 통해서 단 하나의 특정 CNN 이미지 생성기 (ProGAN)에 대해서만 학습된 classifier가 학습 과정에 보지 못한(unseeen) 구조, 데이터셋, 그리고 학습 방법에 대해서도 매우 일반화가 잘 된다는 것을 보여주었습니다. 이러한 발견은 오늘날 CNN이 생성한 이미지들이 실제같은 이미지처럼 생성되는 것을 방해하는 어떤 일관된 시스템적인 결함 (some common systematic flaws)을 갖고 있을 수 있다는 흥미로운 가능성을 보여줍니다.




2. Introduction

Abstract에서 언급했던 것과 같이 위의 그림 중 가장 왼쪽에 있는 ProGAN에 대해서만 학습된 classifier가

나머지 columns에 해당하는 다양한 다른 모델으로부터 생성된 이미지들을 구별할 수 있다는 것을 제안합니다.




3. A dataset of CNN-based generation models

실험에 사용한 모델과 데이터셋에 대한 자세한 내용입니다.





4. Detecting CNN-synthesized images

위의 그래프는 Zhang et al.의 방법과 논문에서 제안하는 방법(Ours, Blur+JPEG)을 비교한 결과입니다.

경향성에 대해서는 아래 그래프를 통해서 정리하도록 하겠습니다.




각 Augmentation에 따른 결과를 모델별로 비교한 그래프입니다.

시도한 augmentation은 총 5가지로 아래와 같습니다.


(1) No aug : augmetatnion을 적용하지 않음.

(2) Blur only : 50%의 확률로 gaussian blur (sigma ~ Uniform[0,3])

(3) JPEG : 50%의 확률로 OpenCV와 PIL (Python Image Library)을 이용하여 JPEG-ed

(4a) Blur + JPEG (0.5) : 50%의 확률로 blurred와 JPED-ed 

(4b) Blur + JPEG (0.1) : 10%의 확률로 blurred와 JPED-ed 


위의 그래프를 확인해보면 super-resolution과 DeepFake를 제외하고는
augmentation이 성능을 높였습니다.





데이터의 다양성 (class의 개수)에 따른 결과를 모델별로 비교한 그래프입니다.

대부분의 경우에서 데이터셋의 다양성이 높아질수록 detector의 성능이 높아진 것을 확인할 수 있습니다.






High-pass filtered image를 이용한 frequency 분석 결과입니다.

합성된 이미지는 대부분 주기적인 패턴 (점 혹은 선)이 보이는 것을 확인할 수 있습니다.





5. Discussion

- CNN으로부터 합성된 이미지들은 일관된 결함을 갖고 있음을 제안하였습니다.

- 그러한 결함들은 간단한 classifier로 확인할 수 있습니다.

- 하지만 이러한 경향들은 계속 지속되지는 않을 것입니다.

- 합성된 이미지를 detect하는 것은 문제의 일부에 불과합니다. 기술적, 사회적, 그리고 법률적으로 다양한 전략을 이용한 효과적인 해결책이 필요합니다.