要約
大規模な言語モデルの劇的な増加(LLMS)パラメーターは、プロンプト、つまりタスクの説明による微調整のないダウンストリームカスタマイズの新しい研究方向につながりました。
これらの迅速なサービス(OpenaiのGPTなど)は多くのビジネスで重要な役割を果たしていますが、これらのサービスの知的特性を損ない、下流の攻撃を引き起こす迅速な漏れに関する懸念が高まっています。
この論文では、迅速な漏れの基礎となるメカニズムを分析します。これは迅速な暗記と呼ばれ、対応する防御戦略を開発します。
迅速な抽出でスケーリング法則を調査することにより、モデルサイズ、プロンプトの長さ、プロンプトの種類など、プロンプト抽出に影響を与える重要な属性を分析します。
次に、LLMがプロンプトをどのように公開するかを説明する2つの仮説を提案します。
1つ目は、困惑、つまりLLMのテキストへの親しみやすさに起因しますが、2つ目は注意マトリックスの単純なトークン変換パスに基づいています。
そのような脅威から防御するために、アラインメントがプロンプトの抽出を損なうことができるかどうかを調査します。
現在のLLMは、GPT-4のような安全アライメントを持つ人でさえ、最も簡単なユーザー攻撃の下でも、迅速な抽出攻撃に対して非常に脆弱であることがわかります。
したがって、Llama2-7BとGPT-3.5の迅速な抽出率の83.8 \%と71.0 \%の低下を達成する調査結果のインスピレーションを得て、いくつかの防衛戦略を提案しました。
ソースコードは、https://github.com/liangzid/promptextractionevalで利用できます。
要約(オリジナル)
The drastic increase of large language models’ (LLMs) parameters has led to a new research direction of fine-tuning-free downstream customization by prompts, i.e., task descriptions. While these prompt-based services (e.g. OpenAI’s GPTs) play an important role in many businesses, there has emerged growing concerns about the prompt leakage, which undermines the intellectual properties of these services and causes downstream attacks. In this paper, we analyze the underlying mechanism of prompt leakage, which we refer to as prompt memorization, and develop corresponding defending strategies. By exploring the scaling laws in prompt extraction, we analyze key attributes that influence prompt extraction, including model sizes, prompt lengths, as well as the types of prompts. Then we propose two hypotheses that explain how LLMs expose their prompts. The first is attributed to the perplexity, i.e. the familiarity of LLMs to texts, whereas the second is based on the straightforward token translation path in attention matrices. To defend against such threats, we investigate whether alignments can undermine the extraction of prompts. We find that current LLMs, even those with safety alignments like GPT-4, are highly vulnerable to prompt extraction attacks, even under the most straightforward user attacks. Therefore, we put forward several defense strategies with the inspiration of our findings, which achieve 83.8\% and 71.0\% drop in the prompt extraction rate for Llama2-7B and GPT-3.5, respectively. Source code is avaliable at https://github.com/liangzid/PromptExtractionEval.
arxiv情報
著者 | Zi Liang,Haibo Hu,Qingqing Ye,Yaxin Xiao,Haoyang Li |
発行日 | 2025-02-12 14:52:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google