본문 바로가기

PR113

[3줄 Recsys] Unbiased Knowledge Distillation for Recommendation(WSDM'23)

 

Paper: https://arxiv.org/pdf/2211.14729.pdf

PR113 Facebook group: https://www.facebook.com/groups/565858127904979

 

1. Knowledge Distillation(KD)이 추천에서 많이 쓰이는데, 역시나 popularity bias가 걸려있다!

  - 보아하니... teacher가 만드는 soft label에 bias가 걸려있는게 원인인 것 같다!

    - 기존 KD methods의 성능 향상 요인은 popular items를 매우 잘 예측하기 때문

  - 그런데 teacher가 biased되는 원인이 워낙 많아서... unbiased teacher 대신 debiasing이 되는 KD strategy를 쓰자!

 

2. 기존 KD는 teacher의 ranking 결과를 가지고 pos/neg pair를 만들어서 학습하는데, 이 pair가 biased

  - Bias를 제거하기 위해 popularity에 따라 partition을 만들고, 각 partition에서 pos/neg pair를 만들어 학습에 사용

    - 각 partition에 들어가는 items의 popularity가 비슷하도록 split

    - 이걸로 bias가 제거되냐? Causal inference 관점에서 논문 내 lemma 1에 따르면 되더라!

      - 전제조건은, 각 partition 내 item popularity가 비슷해야 하는데, 이게 되도록 partition을 만들어둠

 

3. 실험 돌려보니까, 기존 KD method에 비해 proposed model은 unpopular items 성능도 많이 끌어올림

  - 중간에 unbiased teacher 대신 debiasing KD strategy가 낫다고 이야기 했는데, 실험으로 보여줌

 

  - 근데 보통 popular/unpopular 나누는 기준을 논문에 적어두는데 여긴 왜 없지...?

  - 작년에 causal inference + popularity bias 가지고 재미 많이 본 연구실인데(Xiangnan He), 이제는 KD까지도 건드리네...

    - SIGIR'22에 popularity bias를 biased/unbiased 모델 2개의 KD로 해결한 논문을 저기서 이미 쓰긴 함