要約
大規模言語モデル (LLM) は、トレーニング データに含まれる機密情報や個人を特定できる情報 (PII) を誤って記憶したり漏洩したりする危険性があり、プライバシー上の懸念を引き起こします。
この問題に対処する現在のアプローチには、コストのかかるデータセットのスクラブ、または非学習およびモデル編集によるモデル フィルタリングが含まれますが、抽出攻撃によって回避できます。
我々は、LLM から機密情報を学習しないための新しいモデル編集方法である REVS を提案します。
REVS は、機密情報のそれぞれに関連するニューロンの小さなサブセットを識別して変更します。
これらのニューロンを語彙空間に投影する (非埋め込み) ことにより、その生成を駆動するコンポーネントを正確に特定します。
次に、非埋め込み行列の擬似逆行列に基づいてモデル編集を計算し、それを適用して、対象となる機密データの生成を非促進します。
真に機密情報に関する手法を適切に評価するために、GPT-J によって本質的に記憶される電子メール データセットと、記憶するようにモデルを調整する合成社会保障番号データセットの 2 つのデータセットを厳選します。
他の最先端のモデル編集手法と比較して、REVS は、基礎となるモデルの整合性を維持しながら、機密情報の削除と抽出攻撃に対する堅牢性の両方において優れたパフォーマンスを示します。
コードとデモ ノートブックは https://technion-cs-nlp.github.io/REVS で入手できます。
要約(オリジナル)
Large language models (LLMs) risk inadvertently memorizing and divulging sensitive or personally identifiable information (PII) seen in training data, causing privacy concerns. Current approaches to address this issue involve costly dataset scrubbing, or model filtering through unlearning and model editing, which can be bypassed through extraction attacks. We propose REVS, a novel model editing method for unlearning sensitive information from LLMs. REVS identifies and modifies a small subset of neurons relevant for each piece of sensitive information. By projecting these neurons to the vocabulary space (unembedding), we pinpoint the components driving its generation. We then compute a model edit based on the pseudo-inverse of the unembedding matrix, and apply it to de-promote generation of the targeted sensitive data. To adequately evaluate our method on truly sensitive information, we curate two datasets: an email dataset inherently memorized by GPT-J, and a synthetic social security number dataset that we tune the model to memorize. Compared to other state-of-the-art model editing methods, REVS demonstrates superior performance in both eliminating sensitive information and robustness to extraction attacks, while retaining integrity of the underlying model. The code and a demo notebook are available at https://technion-cs-nlp.github.io/REVS.
arxiv情報
著者 | Tomer Ashuach,Martin Tutek,Yonatan Belinkov |
発行日 | 2024-06-13 17:02:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google