Tracing Privacy Leakage of Language Models to Training Data via Adjusted Influence Functions

要約

大規模言語モデル (LLM) によって生成される応答には、個人や組織からの機密情報が含まれる可能性があり、プライバシー漏洩の可能性があります。
この取り組みでは、影響関数 (IF) を実装してプライバシー漏洩をトレーニング データまで追跡し、それによって言語モデル (LM) のプライバシーに関する懸念を軽減します。
ただし、現在の IF は、大きな勾配ノルムを持つトークンの影響を正確に推定するのに苦労しており、その影響を過大評価する可能性があることに気付きました。
最も影響力のあるサンプルをトレースする場合、これにより、勾配ノルム トークンが大きいサンプルまで頻繁にトレースバックすることになり、たとえその影響が適切に推定されていたとしても、実際の最も影響力のあるサンプルが影になってしまいます。
この問題に対処するために、私たちはヒューリスティック調整 IF (HAIF) を提案します。これは、大きな勾配ノルムを持つトークンの重みを軽減し、それによって最も影響力のあるサンプルを追跡する精度を大幅に向上させます。
プライバシー漏洩を追跡するための簡単に入手できる根拠を確立するために、2 つの異なるシナリオを表す 2 つのデータセット PII-E と PII-CR を構築します。1 つはモデル出力と事前トレーニング データに同一のテキストがあり、もう 1 つはモデルが推論を活用するシナリオです。
トレーニング前のデータから異なるテキストを生成する機能。
HAIF はトレース精度を大幅に向上させ、さまざまな GPT-2 および QWen-1.5 モデルに対する最良の SOTA IF と比較して、PII-E データセットでは 20.96% から 73.71%、PII-CR データセットでは 3.21% から 45.93% 向上しました。
また、HAIF は、実世界の事前トレーニング データ CLUECorpus2020 において SOTA IF よりも優れたパフォーマンスを示し、プロンプトと応答の長さに関係なく強力な堅牢性を示しています。

要約(オリジナル)

The responses generated by Large Language Models (LLMs) can include sensitive information from individuals and organizations, leading to potential privacy leakage. This work implements Influence Functions (IFs) to trace privacy leakage back to the training data, thereby mitigating privacy concerns of Language Models (LMs). However, we notice that current IFs struggle to accurately estimate the influence of tokens with large gradient norms, potentially overestimating their influence. When tracing the most influential samples, this leads to frequently tracing back to samples with large gradient norm tokens, overshadowing the actual most influential samples even if their influences are well estimated. To address this issue, we propose Heuristically Adjusted IF (HAIF), which reduces the weight of tokens with large gradient norms, thereby significantly improving the accuracy of tracing the most influential samples. To establish easily obtained groundtruth for tracing privacy leakage, we construct two datasets, PII-E and PII-CR, representing two distinct scenarios: one with identical text in the model outputs and pre-training data, and the other where models leverage their reasoning abilities to generate text divergent from pre-training data. HAIF significantly improves tracing accuracy, enhancing it by 20.96% to 73.71% on the PII-E dataset and 3.21% to 45.93% on the PII-CR dataset, compared to the best SOTA IFs against various GPT-2 and QWen-1.5 models. HAIF also outperforms SOTA IFs on real-world pretraining data CLUECorpus2020, demonstrating strong robustness regardless prompt and response lengths.

arxiv情報

著者 Jinxin Liu,Zao Yang
発行日 2024-09-05 15:47:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク