Paper: https://arxiv.org/abs/2307.01881
PR113 Facebook group: https://www.facebook.com/groups/565858127904979
1. AI Safety 관련해서 evaluation 방법론이 많이 나오고 있는데, 그 중에서 privacy는 특히 evaluation하기가 좀 애매하다.
- Output 내 개인정보가 정말 valid한가?
- 개인정보가 어느 정도까지 들어가있을 때 unsafe한가?
2. Probing methods
- 1. Training data만 알고 있을 때, 모델에 찔러보자
- 2. Training data 및 model weight, gradient까지 접근 가능할 때, soft prompt tuning으로 개인정보를 뽑아낼 수 있는 soft prompt를 학습시켜보자.
- Metric으로는, 정답 개인정보가 그대로 들어있는지, given prompt tokens가 있을 때 정답 개인정보가 나올 likelihood, n번 찔렀을 때 k명 기준으로 얼마나 개인정보가 나오는지
3. Privacy 관련 leaderboard를 만약 만든다고 했을 떄,
- Training data에 접근조차 못하는 경우가 있을텐데 어떻게 해야할까?
- Jailbreak 느낌으로 개인정보가 output에 포함되도록 하는 prompt set을 잘 만들어야 하나?
- 개인정보가 꼭 들어가있지 않더라도, 뭔가 그러한 정보를 제공해야 한다는 의미가 담겨있기만 해도 위험한가?
- Output에 주민번호가 들어가있는데 만약 123456-1234567과 같은 syntatic data 느낌이 물씬 풍기는 예시가 들어가있어도 위험한가? 아니라면, random data와 실제 data 간 구분은 어떻게 해야할까?