-
[Paper Review] On Provable Copyright Protection for Generative ModelsPaper Review 2024. 5. 26. 23:28
Privacy를 지키기 위해 DP라 불리는 Differential Privacy가 주로 사용됩니다.
하지만 이 방법은 성능의 한계가 뚜렷해 적극적으로 사용하기 힘듭니다.
이의 대안으로 본 논문은 Copyright 개념을 제시하며
Privacy보다는 덜 엄밀하지만 충분히 정보 보호를 할 수 있는 방법에 대해 이야기합니다.
맨 왼쪽 = p
가운데 두개 = q1,q2 (q1은 q2이미지 없다 vice versa)
마지막 = p,q1,q2 이용 → p_k (둘다 없음)
Dataset : CIFAR-10 (along with horizontal flips) augmented with multiple copies of two images taken from the CIFAR-10 test set
- 2장을 test set에서 가져오고, 이를 copyrighted works로 가정
- 전체의 2%
Model p
- full dataset으로 학습
- two copyrighted works를 생성
Algorithm
- copyrighted images가 나눠지도록 두개의 데이터셋으로 분리
- CP-k using a threshold of k = 500 : $p_k$
$max_{i∈\{1,2\}}(log(p(y)/q_i(y))$
- 분포 bimodal
- first mode는 그냥이미지
- second mode는 모두 copyrighted images
결과적으로 $p_k$를 파란색, 초록색 선의 분포를 가지게 만드는 것이 목표입니다.
DP와 유사해보이지만, 사실 매우 다릅니다.
Copyright가 훨씬 느슨한 기준을 가지고 있어 달성하기 수월합니다.
본 논문도 이를 명시해서 설명합니다.
Comparison with Differentially Private Prediction
Privacy
- Privacy is focused on an individual and the attributes of that individual
- if any particular generative output leaks even a few bits about a training sample, this could still be a significant privacy violation
- privacy requires that the output of a mechanism does not reveal whether or not an individual’s data was in the database
Copyright
- copyright protection is only for a specific piece of work
- a few bits of leakage are unlikely to constitute a copyright violation since copyright requires a minimum amount of information content
- we only need to ensure that no particular output is substantially similar to a copyrighted work
'Paper Review' 카테고리의 다른 글
[Paper Review] CPR: Retrieval Augmented Generation for Copyright Protection (0) 2024.06.02 - 2장을 test set에서 가져오고, 이를 copyrighted works로 가정