[Review] Learning Visual Context by Comparison (하루논문 P11)

2020. 8. 14. 00:08

하루에 논문 한편씩, 핵심만 읽고 요약하기 : Paper 11

Paper Link : Link / Github (ECCV 2020 Spotlight)

1. Abstract

X-ray 이미지에서 질병(disease)을 발견하는 것은 중요하지만 매우 어려운 task입니다. 이러한 task를 해결하기 위한 최근 방법들은 흉부(chest) X-ray 이미지의 다양한 특성들을 활용하지만, 가장 중요한 특성 중 하나가 여전히 무시되고 있습니다. 해당 특성은 바로 '이미지 내의 관련 영역들 사이의 비교의 필요성'입니다. 해당 논문에서는 목표로 하는 대상(object of interest)과 대상 주변의 영역(corresponding context) 사이의 차이를 감지하는 Attend-and-Compare Module(ACM)을 제안합니다. 이러한 모듈은 기존의 딥러닝 모델에 끼워넣을 수 있습니다. 평가(evaluation)를 위해서 저자들은 해당 모듈을 3개의 흉부 X-ray 인식 task와 COCO object detection & segmentation task에 적용하였으며 일관된 성능 향상을 확인하였습니다.

Keywords : Context Modeling, Attention Mechanism, Chest X-Ray

2. Introduction

기존의 방법들과 달리, 해당 논문에서는 영상의학과(radiology) 레지던트가 어떻게 수련되는지에 집중하여 '영상의학과 의사(radiologist)가 X-rays를 판독하는 방법처럼 네트워크를 모델링하면 어떨까?'라는 물음을 가졌습니다. 영상의학과 의사가 흉부 X-ray를 판독할 때, 질병이 원인일 가능성이 있는 양쪽 폐의 비대칭성(asymmetry)이나 semantic하게 연관된 영역들 사이의 변화에 초점을 두고 영상 속 영역들을 비교합니다. Figure 1은 이러한 과정의 예시를 나타낸 그림입니다. 그리고 Abstract에서 언급하였던 것과 같이 논문의 저자들은 위와 같은 방법으로 영상의학과 의사가 X-ray를 판독하는 방법을 Attend-And-Compare Module (ACM)을 통해 딥러닝 모델에 반영하였습니다.

Contributions : 논문의 주된 contributions을 요약하면 아래와 같습니다.

1. 영상의학과 의사가 흉부 X-ray를 판독하는 방법으로 영상 내의 다른 영역들을 비교하는 ACM이라는 새로운 context module을 제안하였습니다.
2. ACM은 multiple comparative self-attentions를 반영하며 각 self-attention 사이의 차이점들은 recognition task에 도움을 줍니다.

3. ACM의 효과를 다양한 네트워크 구조를 가지고 3개의 chest X-ray 데이터셋과 COCO detection & segmentation 데이터셋에 대하여 실험하였습니다.

3. Attention-and-Compare Module

ACM은 목표로 하는 대상(object of interest)와 대상 주변의 비교할 만한 영역들을 추출하고 두 영역 간 비교 결과를 원본 이미지 feature에 강화시킵니다. 또한, ACM은 가볍고, 독자적으로 효과를 내며(self-contained) 또한 유명한 backbone 구조에 끼워넣을 수 있습니다. 3개의 과정으로 구성된 ACM을 아래와 같이 나타낼 수 있습니다.

은 입력 feature 를 출력 feature 로 연결하는 transformation 입니다.
와 는 둘 중 하나가 목표로 하는 대상(object of interest)이고 다른 하나가 대상 주변의 영역(corresponding context)입니다. ACM은 둘 중 하나를 다른 하나로 빼어 줌으로써 두가지를 비교하고 비교 결과를 추가 channel re-calibration 과정을 통해 원본 feature 에 추가합니다.

< Object of Interest and Corresponding Context >

먼저, 입력 feature map을 normalize하여 를 만들며
이때 는 의 C차원 평균 벡터입니다. (C는 채널의 수)

모든 입력 features에 의해 공유되는 학습 파라미터 에 의해 와 가 생성되기 때문에

더욱 안정된 학습을 위해 이러한 normalization을 추가하였다고 합니다.

이때 는 아래와 같이 계산되며 도 동일한 구조로 를 이용하여 계산됩니다.

이때, 은 1x1 convolution의 가중치(weights)입니다.

위의 연산은 아래와 같이 해석될 수 있습니다.

1. single-channel attention map을 얻기 위해 feature map 에 1x1 convolution을 적용
2. Attention map을 normalize 하기 위해 softmax 적용
3. 마지막으로 normalized map을 이용하여 feature map 에 weighted average를 적용

와 는 의 중요한 영역들을 나타내는 features 입니다.

이렇게 얻은 를 원본 feature에 더해줌으로써 comparative information이 feature 내에서 더욱 뚜렷하게 구별될 수(more distingushiable) 있어집니다.

< Channel Re-Calibration >

아래의 연산을 통해 channel re-calibrating feature 를 얻어냅니다.

이렇게 얻어낸 는 특정 채널의 영향을 줄이기 위해(scale-down) 에 곱해집니다.

는 하고자 하는 task에 유의미한 channel을 표시(marking)해주는 것으로도 해석할 수 있습니다.

< Group Operation >

단일 모듈만으로 여러 영역들의 관계를 모델링하기 위하여 group-wise 연산을 사용하였습니다.

모든 convolution을 group convolution으로 대체하였습니다.

입력과 출력이 개의 channel-wise 그룹으로 나누어지며 이때 는 로 나타낼 수 있으며

이때 g번째 group에서 얻은 는 아래와 같습니다.

< Loss Function >

ACM은 를 모델링하여 이미지 내부 정보를 비교하기 때문에

그 사이의 다양성(diversity)를 보장하기 위해 내적(dot product)에 기반한 orthogonal loss를 제안하였습니다.

여기서 는 채널의 수입니다.

Orthogonal loss를 최소화시키는 것은

와 사이의 유사성(similarity)를 감소시키는 것으로 해석할 수 있습니다.

Orthogonal loss를 포함한 최종 loss는 아래와 같습니다.

여기서 는 네트워크에 포함된 ACM의 수이고
는 orthogonal constraint의 영향을 조절하는 상수입니다.

(값은 실험적으로 확인한 0.1으로 설정했다고 합니다. - Ablation Study 참고)

< Placement of ACMs >

Contextual 정보를 다양한 단계(level)의 feature representation에 포함하기 위하여

backbone network에 ACM을 여러개 끼워넣었다고 합니다.

ResNet에는 SE module과 같이 각 Bottleneck block의 끝에 모듈을 추가하였습니다.

DesNet은 ResNet의 Bottleneck block보다 더 많은 DenseBlock을 포함하고 있기 때문에,

DesNet의 경우 every other three DenseBlock에 ACM을 추가하였습니다.

논문의 저자들은 ACM을 추가할 위치와 추가할 개수는 최적화하지 않았다고 합니다.

4. Experiments

< Emergency-Pneumothorax (Em-Ptx) Dataset >

< Nodule (Ndl) Dataset >

< CXR14 Dataset >

< COCO Dataset >

< Qualitative Results >

'Paper Review' 카테고리의 다른 글

[Review] PolarMask: Single Shot Instance Segmentation with Polar Representation (하루논문 P13) (0)	2020.09.14
[Review] Multi-Domain Image Completion for Random Missing Input Data (하루논문 P12) (0)	2020.08.23
[Review] Rethinking Pre-training and Self-training (하루논문 P10) (0)	2020.07.14
[Review] CNN-generated images are surprisingly easy to spot... for now (하루논문 P09) (0)	2020.07.10
[Review] A U-Net Based Discriminator for Generative Adversarial Networks (하루논문 P08) (0)	2020.07.02

COMMENT

[Review] Learning Visual Context by Comparison (하루논문 P11)

'Paper Review' 카테고리의 다른 글

티스토리툴바