Paper: https://bit.ly/3zODgYx
PR113 Facebook group: https://www.facebook.com/groups/565858127904979
1. Long-tail visual recognition task는 최근 2-stage model로 연구됨
- Representation learning(denote as $f$) -> Classifier head learning(denote as $h$)
- 1st stage learning에서는 괜찮은 representation이 나오는데, classifier 단계에서 improvment가 필요하다!
- Due to "Biased decision boundary"
- 3.1 empirical analysis 참고
2. 먼저 $f$와 $h$를 같이 학습키시고, 다음 stage에서 $f$는 fix, $h$만 학습시킴 -> 이 때 $h$의 성능을 더 끌어올려보자
- 2가지 방법 제시(Adaptive calibration function, Distribution alignment strategy w/ generalized re-weighting)
- 1. Adaptive calibration function
- 1st stage에서 학습된 $h$의 output probability $s$와, 그걸 조금 calibration한 결과 $z$를 weighted sum
- Data별로 얼마나 calibration이 되어야 하는지는 trainable confidence sigma 통해 결정
- 2. Distribution alignment strategy w/ generalized re-weighting
- 위 function을 통해 나오는 predicted probability distribution이 어떤 reference distribution이랑 비슷해야 함
- 둘 간 분포를 KL-divergence를 통해 줄임
- 이 때 reference distribution으로 원래 data category 분포를 그대로 사용하지 않고, reciprocal distribution을 사용
- 이걸 generalized re-weight strategy라고 이름붙임...
3. 2nd stage에서 classifier head를 re-training하는게 아니기 때문에 이 때 필요한 hyperparameter를 많이 줄일 수 있음
- Long-tail data를 더 많이 학습시키거나 할 필요 없음
- 기존 classifier head를 재학습 시키는 방식보다 정확도 상승
- 다양한 backbone model과 결합했을 때 모두 기존보다 정확도 상승