要約
大規模な事前トレーニング済み言語モデルは、多くのタスクにわたって優れた結果を達成します。
しかし、最近の研究では、事前トレーニングされた言語モデルがトレーニング データのかなりの部分を記憶する可能性があり、情報漏洩というプライバシー リスクにつながる可能性があることが指摘されています。
この論文では、損失平滑化されたソフト プロンプティングと校正された信頼度推定を介してターゲットを絞ったトレーニング データを抽出するための Ethicist という名前のメソッドを提案し、プレフィックスが与えられたときにトレーニング データ内のサフィックスを回復する方法を調査します。
攻撃されたモデルの記憶を引き出すために、モデルを固定したままソフト プロンプトの埋め込みを調整します。
さらに、正しいサフィックスをサンプリングしやすくするためにサフィックス トークンの損失分布を平滑化する平滑化損失を提案します。
サンプリングされた接尾辞のコレクションから最も可能性の高い接尾辞を選択し、予測の信頼度を推定するために、生成された接尾辞の信頼度を局所推定で正規化する、校正された信頼度推定方法を提案します。
最近提案された公開ベンチマークにおいて、Ethicist が抽出パフォーマンスを大幅に向上させることを示します。
また、デコード戦略、モデルスケール、プレフィックス長、サフィックス長など、データ抽出パフォーマンスに影響を与えるいくつかの要因も調査します。
私たちのコードは https://github.com/thu-coai/Targeted-Data-Extraction で入手できます。
要約(オリジナル)
Large pre-trained language models achieve impressive results across many tasks. However, recent works point out that pre-trained language models may memorize a considerable fraction of their training data, leading to the privacy risk of information leakage. In this paper, we propose a method named Ethicist for targeted training data extraction through loss smoothed soft prompting and calibrated confidence estimation, investigating how to recover the suffix in the training data when given a prefix. To elicit memorization in the attacked model, we tune soft prompt embeddings while keeping the model fixed. We further propose a smoothing loss that smooths the loss distribution of the suffix tokens to make it easier to sample the correct suffix. In order to select the most probable suffix from a collection of sampled suffixes and estimate the prediction confidence, we propose a calibrated confidence estimation method, which normalizes the confidence of the generated suffixes with a local estimation. We show that Ethicist significantly improves the extraction performance on a recently proposed public benchmark. We also investigate several factors influencing the data extraction performance, including decoding strategy, model scale, prefix length, and suffix length. Our code is available at https://github.com/thu-coai/Targeted-Data-Extraction.
arxiv情報
著者 | Zhexin Zhang,Jiaxin Wen,Minlie Huang |
発行日 | 2023-07-10 08:03:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google