Learning to Refuse: Towards Mitigating Privacy Risks in LLMs

要約

大規模言語モデル (LLM) は、自然言語の理解と生成において優れた能力を発揮します。
ただし、これらのモデルは個人情報を誤って記憶する可能性があり、重大なプライバシー リスクが生じます。
この研究は、LLM が完全な再トレーニングを必要とせずに特定の個人の個人データを保護できるようにするという課題に取り組んでいます。
我々は、現実的なシナリオで個人データを保護するための機械学習解除 (MU) 手法を評価するために、Wikipedia の 2,492 人の個人と関連する QA ペアで構成される、現実世界の個人データ学習データセットである \return を提案します。
さらに、プライバシー保護のための Name-Aware Unlearning Framework (NAUF) を導入します。これにより、関係のない他の個人に関する質問に答える能力に影響を与えることなく、どの個人の情報を保護すべきかをモデルが学習できるようになります。
私たちの広範な実験では、NAUF が最先端の平均未学習スコアを達成し、最良のベースライン手法を 5.65 ポイント上回っており、モデルの一般的な機能を維持しながら、対象となる個人の個人データを効果的に保護していることが実証されています。

要約(オリジナル)

Large language models (LLMs) exhibit remarkable capabilities in understanding and generating natural language. However, these models can inadvertently memorize private information, posing significant privacy risks. This study addresses the challenge of enabling LLMs to protect specific individuals’ private data without the need for complete retraining. We propose \return, a Real-world pErsonal daTa UnleaRNing dataset, comprising 2,492 individuals from Wikipedia with associated QA pairs, to evaluate machine unlearning (MU) methods for protecting personal data in a realistic scenario. Additionally, we introduce the Name-Aware Unlearning Framework (NAUF) for Privacy Protection, which enables the model to learn which individuals’ information should be protected without affecting its ability to answer questions related to other unrelated individuals. Our extensive experiments demonstrate that NAUF achieves a state-of-the-art average unlearning score, surpassing the best baseline method by 5.65 points, effectively protecting target individuals’ personal data while maintaining the model’s general capabilities.

arxiv情報

著者 Zhenhua Liu,Tong Zhu,Chuanyuan Tan,Wenliang Chen
発行日 2024-09-16 07:20:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク