Controlling the Extraction of Memorized Data from Large Language Models via Prompt-Tuning

要約

大規模言語モデル (LLM) は、トレーニング データの重要な部分を記憶することが知られています。
この記憶されたコンテンツの一部は、モデルにクエリを実行するだけで抽出できることが示されており、プライバシーのリスクが生じます。
我々は、プロンプトチューニングを使用してLLMの記憶されたコンテンツの抽出率を制御する新しいアプローチを紹介します。
抽出率を増加および減少させるための 2 つの即時トレーニング戦略を紹介します。これらはそれぞれ攻撃と防御に対応します。
公開ベンチマークで GPT-Neo ファミリのモデルを使用することで、技術の有効性を実証します。
1.3B パラメーターの GPT-Neo モデルの場合、私たちの攻撃により、ベースラインと比較して抽出率が 9.3 パーセント増加しました。
ユーザー指定のハイパーパラメーターによって、プライバシーとユーティリティのさまざまなトレードオフを達成するように防御を調整できます。
ベースラインと比較して最大 97.7% の抽出率の削減を達成し、複雑さは 16.9% 増加しました。

要約(オリジナル)

Large Language Models (LLMs) are known to memorize significant portions of their training data. Parts of this memorized content have been shown to be extractable by simply querying the model, which poses a privacy risk. We present a novel approach which uses prompt-tuning to control the extraction rates of memorized content in LLMs. We present two prompt training strategies to increase and decrease extraction rates, which correspond to an attack and a defense, respectively. We demonstrate the effectiveness of our techniques by using models from the GPT-Neo family on a public benchmark. For the 1.3B parameter GPT-Neo model, our attack yields a 9.3 percentage point increase in extraction rate compared to our baseline. Our defense can be tuned to achieve different privacy-utility trade-offs by a user-specified hyperparameter. We achieve an extraction rate reduction of up to 97.7% relative to our baseline, with a perplexity increase of 16.9%.

arxiv情報

著者 Mustafa Safa Ozdayi,Charith Peris,Jack FitzGerald,Christophe Dupuy,Jimit Majmudar,Haidar Khan,Rahil Parikh,Rahul Gupta
発行日 2023-05-19 15:45:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク