하루에 논문 한편씩, 핵심만 읽고 요약하기 : Paper 06


Paper Link : https://arxiv.org/pdf/2006.04388.pdf



1. Abstract

One-stage detector를 바탕으로 한 object detection은 기본적으로 dense classification과 localization (bounding box regression)으로 이루어져 있습니다. 일반적으로 classification은 Focal loss로 최적화되고 box location은 Dirac delta 분포에서 학습이 됩니다. One-stage detector의 최근 트렌드는 localization이 얼마나 잘 되었는지를 측정하는 branch를 독립적으로 두는 것입니다. 해당 논문은 앞서 언급한 3가지 기본 요소 (quality estimation, classification 그리고 localization)의 representations를 탐구합니다. Localization quality와 classification의 joint representation 형성을 위하여 quality estimation과 class prediction을 병합하였고 box locations의 불규칙적인 분포를 나타내기 위한 벡터를 사용하였습니다. 향상된 representation을 통하여 실제 데이터의 유연한(flexible) 분포를 정확하게 반영하였으며 연속적인 label을 갖게 되었습니다. 그리고 이산적인(discrete) 형태인 기존 Focal loss을 확장하여(generalize) 더욱 학습이 잘 되는 연속적인(continuous) Generalized Focal Loss (GFL)을 제안합니다. 이러한 방법을 통하여 COCO test-dev에서 ResNet-101을 backbone으로 사용하여 45.0%의 AP로 SOTA를 달성했습니다. 아래의 링크에서 코드와 pre-trained model을 확인하실 수 있습니다.


Official code : https://github.com/implus/GFocal







2. Introduction


(a)는 기존의 모델에서의

classification branch와 localization quality branch (IoU/centerness score)를 나타낸 그림입니다.


그림에서 확인할 수 있듯이 기존의 방법에서는 학습 과정에서는

classification과 quality estimation이 완전히 독립적으로 최적화되지만,

테스트를 할 때에는 각 branch의 output이 joint하여 최종 NMS score를 계산합니다.




(b)는 논문에서 제시하는 방법으로,

classification과 quality estimation을 학습과 테스트 과정 모두에서 joint해줌으로써

둘 사이의 상관성을 매우 강하게 갖도록 유도합니다.






기존의 방법에서 얻은 결과들은 왼쪽의 (a)와 같이, classification score는 매우 낮은 배경 영역에 대해

predicted quality score는 매우 높은 비정상적인 경우를 갖습니다.


이와 달리 이 논문에서 제안한 방법은 (b)의 초록색 점들을 보면 알 수 있듯이, classification score와

localization score가 같도록 강제해줌으로써 기존의 모델에서 겪는 위험성을 피할 수 있었습니다.






3. Method



해당 논문에서는 기존 FL(Focal Loss)를 개선시킨 QFL(Quality FL)와 DFL(Distribution FL)을 제안하고

이 두 가지를 하나의 함수로 합친 GFL(Generalized FL)을 제안합니다.





0. Original Focal Loss (FL)






1. Quality Focal Loss (QFL)


아래와 같이 기존 FL의 두 가지 부분을 확장시켰습니다.
-Cross Entropy part의 를 complete version인 로 확장

-Scaling factor part 를 estimation 와 continuous label 의 L1 distance 로 대체


* Multi-class implementation을 위하여 sigmoid 연산자 로 multiple binary classification 적용







2. Distribution Focal Loss (DFL)


기존의 방법들은 대부분 bounding box regressed label 를 Dirac delta distribution으로 나타내었기 때문에

를 적분 형태로 나타내면 아래와 같았습니다.




해당 논문에서는 이와 같은 prior를 정해두는 것 대신에

 아래와 같이 을 얻도록 하여 General distribution 를 직접적으로 배우도록 설계하였습니다.




이때 학습하고자 하는 label의 분포는 연속적이지 않고 이산적이므로 아래와 같이 나타낼 수 있습니다.



이때 네트워크로 하여금 label  주변의 값들에 빠르게 집중할 수 있도록

에 가장 가까운 두 개의 값인 와 의 확률을 높여주었습니다.



이러한 내용들을 QFL의 cross entropy part에 적용하면 아래와 같습니다.


편의를 위해 를 로 표현




아래는 기존 방법들과의 비교를 잘 정리해둔 표입니다.







3. Generalized Focal Loss (GFL)


QFL과 DFL을 하나의 일반적인 형태로 합친 결과인 GFL은 위의 식으로 나타낼 수 있습니다.




결국 GFL을 바탕으로 Dense Detector를 학습할 때의 loss function을 아래와 같습니다.







4. Experiment