Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs

要約

この論文では、攻撃者 LLM エージェントを使用して、ターゲット モデルにトレーニング データを直接プロンプトすることによって明らかにされるものと比較して、被害者エージェントのより高いレベルの記憶を明らかにするブラックボックス プロンプト最適化手法を紹介します。
LLM での記憶を定量化するアプローチ。
反復拒否サンプリング最適化プロセスを使用して、次の 2 つの主な特徴を持つ命令ベースのプロンプトを見つけます。(1) モデルにソリューションを直接提示することを避けるため、トレーニング データとの重複が最小限であること、および (2) 犠牲モデルの出力間の重複が最大であること
被害者に訓練データを吐き出させることを目的としています。
命令ベースのプロンプトは、ベースラインのプレフィックス/サフィックス測定と比較して、トレーニング データとの重複が 23.7% 高い出力を生成することがわかります。
私たちの調査結果は、(1) 命令調整モデルは、基本モデルと同等かそれ以上に事前トレーニング データを公開する可能性があること、(2) 元のトレーニング データ以外のコンテキストが漏洩につながる可能性があること、(3) を使用することを示しています。
他の LLM によって提案された指示は、自動化された攻撃の新たな道を開く可能性があり、私たちはさらに研究し、探索する必要があります。
コードは https://github.com/Alymostafa/struct_based_attach にあります。

要約(オリジナル)

In this paper, we introduce a black-box prompt optimization method that uses an attacker LLM agent to uncover higher levels of memorization in a victim agent, compared to what is revealed by prompting the target model with the training data directly, which is the dominant approach of quantifying memorization in LLMs. We use an iterative rejection-sampling optimization process to find instruction-based prompts with two main characteristics: (1) minimal overlap with the training data to avoid presenting the solution directly to the model, and (2) maximal overlap between the victim model’s output and the training data, aiming to induce the victim to spit out training data. We observe that our instruction-based prompts generate outputs with 23.7% higher overlap with training data compared to the baseline prefix-suffix measurements. Our findings show that (1) instruction-tuned models can expose pre-training data as much as their base-models, if not more so, (2) contexts other than the original training data can lead to leakage, and (3) using instructions proposed by other LLMs can open a new avenue of automated attacks that we should further study and explore. The code can be found at https://github.com/Alymostafa/Instruction_based_attack .

arxiv情報

著者 Aly M. Kassem,Omar Mahmoud,Niloofar Mireshghallah,Hyunwoo Kim,Yulia Tsvetkov,Yejin Choi,Sherif Saad,Santu Rana
発行日 2024-03-31 04:33:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク