하루에 논문 한편씩, 핵심만 읽고 요약하기 : Paper 08



Paper Link : Link (CVPR2020)





1. Abstract

GAN (Generative Adversarial Network)의 남아있는 가장 중요한 문제 중 하나는 실제 이미지로부터 구별이 불가능하며 물체의 모양이나 texture가 globally 그리고 locally 일관성있는 이미지를 만드는 것입니다. 이러한 문제를 해결하기 위하여 U-Net을 기반으로 하는 discriminator를 제안합니다. 제안된 U-Net 기반의 discriminator는 generator로 하여금 픽셀 마다의 자세한 피드백을 제공해줄 수 있습니다. 이와 더불어 U-Net discriminator가 semantic하고 구조적인 (structural) 차이에 더욱 집중할 수 있도록 유도하는 per-pixel consistency regularization 기법을 제안합니다. 새로운 discriminator는 standard distribution과 image quality 측면에서 SOTA를 달성하였습니다.



2. Introduction

위의 그림은 학습 도중에 U-Net GAN 모델이 생성한 이미지들(첫줄)과

그에 해당하는 U-Net discriminator의 픽셀별 피드백(둘째줄)입니다.


또한 각 사진들은 고정된 noise vector로부터

각기 다른 학습 진행 정도 마다 만들어진 결과입니다.


둘째줄의 결과에서 픽셀이 밝을 수록 discriminator의 confidence score가 real에 가까운 것입니다.


여기서 U-Net discriminator가 generator에게 매우 자세하고 구조적으로 일관성 있는 결과를
제공해주고 있다는 것을 확인할 수 있습니다.

예를 들어, 부자연스럽게 비대한 남자의 이마가 fake로 인식되었고

해당 부분이 학습이 진행되면서 개선된 것을 확인할 수 있습니다.





3. U-Net GAN Model

위의 그림은 U-Net GAN의 구조를 나타낸 것입니다.

U-Net GAN은 이미지 전체에 대한 global level과 각 픽셀에 대한 local level 모두에서

input image를 분류합니다.

점선으로 표현된 encoder와 decoder 사이의 skip-connection을 통해

output layer의 channels은 고차원의 정보와 저차원 정보 (high- and low-level information)를 모두 반영할 수 있습니다.




Discriminator의 loss는 아래와 같습니다.




Generator의 loss는 아래와 같습니다.






다음으로 Consistency Regularization에 대해 살펴보겠습니다.


잘 학습된 discriminator라면 class-domain-altering 변형에 대해서 픽셀별 예측 결과가 동일해야 합니다.

이러한 성질을 보장하기 위하여 discriminator에 CutMix를 활용한 consistency regularization을 적용합니다.


CutMix augmentation과 CutMix 이미지에 대한 U-Net discriminator 예측 결과를 나타낸 것입니다.

첫번째 줄 : 실제 이미지와 가짜 이미지

두번째 줄 : samples real/fake CutMix ratio 

셋째 줄 : CutMix ratio에 해당하는 binary mask M (흰색이 real이고 검은색이 fake)

넷째 줄 : 실제 이미지와 가짜 이미지를 이용해 만든 CutMix 이미지

다섯째 줄 : U-Net Discriminator의 real/fake segmentation maps

여섯째 줄 : 예측된 classification score




이러한 Consistency Regularization에 사용되는 loss는 아래와 같습니다.





위에서 언급한 3가지 loss를 모두 종합한 최종 loss는 아래와 같습니다.





4. Experiments