본문 바로가기

PR113

[3줄 Safety] ProPILE: Probing Privacy Leakage in Large Language Models(NeurIPS'23, spotlight)

Paper: https://arxiv.org/abs/2307.01881

PR113 Facebook group: https://www.facebook.com/groups/565858127904979

 

1. AI Safety 관련해서 evaluation 방법론이 많이 나오고 있는데, 그 중에서 privacy는 특히 evaluation하기가 좀 애매하다.

  - Output 내 개인정보가 정말 valid한가?

  - 개인정보가 어느 정도까지 들어가있을 때 unsafe한가?

 

2. Probing methods

  - 1. Training data만 알고 있을 때, 모델에 찔러보자

  - 2. Training data 및 model weight, gradient까지 접근 가능할 때, soft prompt tuning으로 개인정보를 뽑아낼 수 있는 soft prompt를 학습시켜보자.

  - Metric으로는, 정답 개인정보가 그대로 들어있는지, given prompt tokens가 있을 때 정답 개인정보가 나올 likelihood, n번 찔렀을 때 k명 기준으로 얼마나 개인정보가 나오는지

 

3. Privacy 관련 leaderboard를 만약 만든다고 했을 떄,

  - Training data에 접근조차 못하는 경우가 있을텐데 어떻게 해야할까?

    - Jailbreak 느낌으로 개인정보가 output에 포함되도록 하는 prompt set을 잘 만들어야 하나?

  - 개인정보가 꼭 들어가있지 않더라도, 뭔가 그러한 정보를 제공해야 한다는 의미가 담겨있기만 해도 위험한가?

  - Output에 주민번호가 들어가있는데 만약 123456-1234567과 같은 syntatic data 느낌이 물씬 풍기는 예시가 들어가있어도 위험한가? 아니라면, random data와 실제 data 간 구분은 어떻게 해야할까?