본문 바로가기

PR113

[3줄 vision] Distribution Alignment: A Unified Framework for Long-tail Visual Recognition(CVPR'21)

Paper: https://bit.ly/3zODgYx

PR113 Facebook group: https://www.facebook.com/groups/565858127904979

 

1. Long-tail visual recognition task는 최근 2-stage model로 연구됨

  - Representation learning(denote as $f$) -> Classifier head learning(denote as $h$)

  - 1st stage learning에서는 괜찮은 representation이 나오는데, classifier 단계에서 improvment가 필요하다!

    - Due to "Biased decision boundary"

      - 3.1 empirical analysis 참고

 

2. 먼저 $f$와 $h$를 같이 학습키시고, 다음 stage에서 $f$는 fix, $h$만 학습시킴 -> 이 때 $h$의 성능을 더 끌어올려보자

  - 2가지 방법 제시(Adaptive calibration function, Distribution alignment strategy w/ generalized re-weighting)

  - 1. Adaptive calibration function

    - 1st stage에서 학습된 $h$의 output probability $s$와, 그걸 조금 calibration한 결과 $z$를 weighted sum

    - Data별로 얼마나 calibration이 되어야 하는지는 trainable confidence sigma 통해 결정

  - 2. Distribution alignment strategy w/ generalized re-weighting

    - 위 function을 통해 나오는 predicted probability distribution이 어떤 reference distribution이랑 비슷해야 함

      - 둘 간 분포를 KL-divergence를 통해 줄임

    - 이 때 reference distribution으로 원래 data category 분포를 그대로 사용하지 않고, reciprocal distribution을 사용

      - 이걸 generalized re-weight strategy라고 이름붙임...

 

3. 2nd stage에서 classifier head를 re-training하는게 아니기 때문에 이 때 필요한 hyperparameter를 많이 줄일 수 있음

  - Long-tail data를 더 많이 학습시키거나 할 필요 없음

  - 기존 classifier head를 재학습 시키는 방식보다 정확도 상승

  - 다양한 backbone model과 결합했을 때 모두 기존보다 정확도 상승