要約
大規模言語モデルは、人間が生成した機密情報を含む広範なデータセットでトレーニングされるため、プライバシー侵害に関する重大な懸念が生じます。
認定されたアンラーニング アプローチは強力なプライバシー保証を提供しますが、LLM には適用できない限定的なモデルの仮定に依存しています。
その結果、関連するプライバシー リスクが経験的にのみ評価された、さまざまなアンラーニング ヒューリスティックが提案されています。
標準評価パイプラインは通常、トレーニング セットから削除するデータをランダムに選択し、非学習手法を適用し、メンバーシップ推論攻撃を使用して、未学習モデルと、未学習データなしで再トレーニングされたモデルを比較します。
ただし、すべてのデータ ポイントは忘れられる権利があるため、プライバシーの観点から最悪のシナリオでは学習を解除することを考慮する必要があります。
これまでの研究では、データの外れ値がより高い記憶効果を示す可能性があることが示されています。
直観的には、それらを忘れることはより困難であるため、現在の評価では、それらを忘れることによるプライバシーのリスクは過小評価されています。
このペーパーでは、少数派のデータを活用して、以前に広く採用されていた評価におけるそのような重大な欠陥を特定します。
私たちは、プライバシー監査の文献に触発された、少数派グループに関連するカナリアの学習を解くなど、慎重に設計された実験を通じてこの主張を実証します。
個人を特定できる情報を代表的な少数派識別子として使用し、6 つの非学習アプローチ、3 つの MIA、3 つのベンチマーク データセット、および異なるスケールの 2 つの LLM にわたって、ほとんどの場合、少数派グループは少なくとも 20% 多くのプライバシー漏洩を経験していることを実証します。
忘れられる権利がすべての個人にとって擁護されるべきであることを考慮して、私たちは LLM の非学習方法をより厳密に評価することを主張します。
マイノリティを意識した当社の評価フレームワークは、LLM アンラーニングの有効性をより公平に評価するための最初のステップとなります。
要約(オリジナル)
Large Language Models are trained on extensive datasets that often contain sensitive, human-generated information, raising significant concerns about privacy breaches. While certified unlearning approaches offer strong privacy guarantees, they rely on restrictive model assumptions that are not applicable to LLMs. As a result, various unlearning heuristics have been proposed, with the associated privacy risks assessed only empirically. The standard evaluation pipelines typically randomly select data for removal from the training set, apply unlearning techniques, and use membership inference attacks to compare the unlearned models against models retrained without the to-be-unlearned data. However, since every data point is subject to the right to be forgotten, unlearning should be considered in the worst-case scenario from the privacy perspective. Prior work shows that data outliers may exhibit higher memorization effects. Intuitively, they are harder to be unlearn and thus the privacy risk of unlearning them is underestimated in the current evaluation. In this paper, we leverage minority data to identify such a critical flaw in previously widely adopted evaluations. We substantiate this claim through carefully designed experiments, including unlearning canaries related to minority groups, inspired by privacy auditing literature. Using personally identifiable information as a representative minority identifier, we demonstrate that minority groups experience at least 20% more privacy leakage in most cases across six unlearning approaches, three MIAs, three benchmark datasets, and two LLMs of different scales. Given that the right to be forgotten should be upheld for every individual, we advocate for a more rigorous evaluation of LLM unlearning methods. Our minority-aware evaluation framework represents an initial step toward ensuring more equitable assessments of LLM unlearning efficacy.
arxiv情報
| 著者 | Rongzhe Wei,Mufei Li,Mohsen Ghassemi,Eleonora Kreačić,Yifan Li,Xiang Yue,Bo Li,Vamsi K. Potluru,Pan Li,Eli Chien |
| 発行日 | 2024-12-11 17:22:07+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google