Paper: https://arxiv.org/pdf/2211.14729.pdf
PR113 Facebook group: https://www.facebook.com/groups/565858127904979
1. Knowledge Distillation(KD)이 추천에서 많이 쓰이는데, 역시나 popularity bias가 걸려있다!
- 보아하니... teacher가 만드는 soft label에 bias가 걸려있는게 원인인 것 같다!
- 기존 KD methods의 성능 향상 요인은 popular items를 매우 잘 예측하기 때문
- 그런데 teacher가 biased되는 원인이 워낙 많아서... unbiased teacher 대신 debiasing이 되는 KD strategy를 쓰자!
2. 기존 KD는 teacher의 ranking 결과를 가지고 pos/neg pair를 만들어서 학습하는데, 이 pair가 biased
- Bias를 제거하기 위해 popularity에 따라 partition을 만들고, 각 partition에서 pos/neg pair를 만들어 학습에 사용
- 각 partition에 들어가는 items의 popularity가 비슷하도록 split
- 이걸로 bias가 제거되냐? Causal inference 관점에서 논문 내 lemma 1에 따르면 되더라!
- 전제조건은, 각 partition 내 item popularity가 비슷해야 하는데, 이게 되도록 partition을 만들어둠
3. 실험 돌려보니까, 기존 KD method에 비해 proposed model은 unpopular items 성능도 많이 끌어올림
- 중간에 unbiased teacher 대신 debiasing KD strategy가 낫다고 이야기 했는데, 실험으로 보여줌
- 근데 보통 popular/unpopular 나누는 기준을 논문에 적어두는데 여긴 왜 없지...?
- 작년에 causal inference + popularity bias 가지고 재미 많이 본 연구실인데(Xiangnan He), 이제는 KD까지도 건드리네...
- SIGIR'22에 popularity bias를 biased/unbiased 모델 2개의 KD로 해결한 논문을 저기서 이미 쓰긴 함