[3줄 Safety] ProPILE: Probing Privacy Leakage in Large Language Models(NeurIPS'23, spotlight)

1. AI Safety 관련해서 evaluation 방법론이 많이 나오고 있는데, 그 중에서 privacy는 특히 evaluation하기가 좀 애매하다.

- Output 내 개인정보가 정말 valid한가?

- 개인정보가 어느 정도까지 들어가있을 때 unsafe한가?

2. Probing methods

- 1. Training data만 알고 있을 때, 모델에 찔러보자

- 2. Training data 및 model weight, gradient까지 접근 가능할 때, soft prompt tuning으로 개인정보를 뽑아낼 수 있는 soft prompt를 학습시켜보자.

- Metric으로는, 정답 개인정보가 그대로 들어있는지, given prompt tokens가 있을 때 정답 개인정보가 나올 likelihood, n번 찔렀을 때 k명 기준으로 얼마나 개인정보가 나오는지

3. Privacy 관련 leaderboard를 만약 만든다고 했을 떄,

- Training data에 접근조차 못하는 경우가 있을텐데 어떻게 해야할까?

- Jailbreak 느낌으로 개인정보가 output에 포함되도록 하는 prompt set을 잘 만들어야 하나?

- 개인정보가 꼭 들어가있지 않더라도, 뭔가 그러한 정보를 제공해야 한다는 의미가 담겨있기만 해도 위험한가?

- Output에 주민번호가 들어가있는데 만약 123456-1234567과 같은 syntatic data 느낌이 물씬 풍기는 예시가 들어가있어도 위험한가? 아니라면, random data와 실제 data 간 구분은 어떻게 해야할까?

[3줄 LLM] Rethinking Optimization and Architecture for Tiny Language Models(Arxiv, Feb 24) (0)	2024.02.18
[3줄 Recsys] Mitigating Popularity Bias in Recommendation with Unbalanced Interactions: A Gradient Perspective(ICDM'22) (0)	2023.01.13
[3줄 Recsys] Unbiased Knowledge Distillation for Recommendation(WSDM'23) (0)	2022.12.31
[3줄 Recsys] Model-Agnostic Counterfactual Reasoning for Eliminating Popularity Bias in Recommender System(KDD'21) (0)	2022.09.25
[3줄 Recsys] Interpolative Distillation for Unifying Biased and Debiased Recommendation(SIGIR'22) (0)	2022.06.14

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

cieske