하루에 논문 한편씩, 핵심만 읽고 요약하기 : Paper 01


Paper Link : https://arxiv.org/abs/2005.08104 (CVPR 2020)



1. Abstract
: 최근에 weakly supervised setting에서 semantic segmentation의 성능을 높이려는 새로운 시도가 점점 늘어나는 추세입니다. 하지만 대부분 모델의 complexity가 증가와 복잡한 여러 단계(multi-stage)의 학습을 필요로 했습니다. 해당 논문에서는 한 단계(single stage)로 image-level annoation만으로 semantic mask를 학습하는 방법을 제안합니다.


Image-level annotation만 이용하여 학습한 high-quality semantic masks 결과가 각 사진의 왼쪽,

Ground truth mask가 각 사진의 오른쪽입니다.

해당 예시에는 후처리(post-processing)이 적용되지 않았습니다.



 

2. Model


네트워크는 일반적으로 사용되는 U-Net style의 segmentation network에

self-supervised learning을 위한 nGWP와 PAMR이 추가된 구조입니다.


nGWP와 PAMR은 아래에서 보다 더 자세히 다루도록 하겠습니다.



2.1) A new class aggregation function

: nGWP (normalized Global Weighted Pooling)



기존의 GAP-CAM과 달리 nGWP는 classification loss를 mask generation에 다시 사용하기 때문에
joint training으로 인하여 segmentation mask의 quality를 향상시킬 수 있었다고 합니다.




2.2) A local mask refinement module

: PAMR (Pixel-Adaptive Mask Refinement)


생성된 mask에 대해서 바로 loss를 계산하고 최종 mask를 predict하는 것이 아니라

mask refinement 역할을 하는 PAMR을 두어 성능을 더욱 높였습니다.


위의 figure를 보면, 각 픽셀에 대하여 RGB 공간에서 주변(neighbours)과의 근접성(proximity)을 측정하는 affinity kernel을 계산합니다.

이렇게 얻은 affinity kernel을 semantic mask에 adaptive convolution을 통하여 적용함으로써

더욱 정제된(refined) 결과를 얻어낼 수 있다고 합니다.



3번째 열은 PAMR을 통하여 refinement되기 이전의 prediction 결과로 boundary에 대한 정확도가 떨어지는 것을 볼 수 있습니다.

하지만 4번째 열의 PAMR으로 정제된 결과는 boundary 부분이 훨씬 자연스러워지고 정확해졌습니다.




2.3) A stochastic Gate


Stochastic gate에 대해서는 해당 글에서는 간략하게 소개하도록 하겠습니다.

기존에 사용되던 DeepLabv3+가 figure에서 빨간색으로 표시된 부분이고

해당 논문에서 stochastic gate를 추가하여 수정한 부분이 파란색으로 표시된 부분입니다.


변경된 부분에서 가장 핵심은 AdIN(AdaIN)을 통하여 deep features에서 뽑아낸 global한 정보들을 shallow features에 추가해주었다는 것입니다.





3. Result