Prompt Leakage effect and defense strategies for multi-turn LLM interactions

要約

即座の漏洩は、LLM アプリケーションにおいてセキュリティとプライバシーの重大な脅威を引き起こします。
システム プロンプトの漏洩は、知的財産を侵害し、攻撃者にとって敵対的な偵察として機能する可能性があります。
特にマルチターン LLM インタラクションの場合、即時漏洩の脅威と緩和戦略の体系的な評価が不足しています。
このペーパーでは、4 つのドメインにわたる 10 個のクローズドおよびオープンソース LLM のプロンプト漏洩に対する LLM の脆弱性を体系的に調査します。
当社は、LLM おべっか効果を活用し、複数ターン設定で平均攻撃成功率 (ASR) を 17.7% から 86.2% に高める独自の脅威モデルを設計しています。
当社の標準化されたセットアップにより、タスクの指示やナレッジドキュメントなどの特定のプロンプトコンテンツの漏洩をさらに分析することができます。
私たちは、漏洩の試みを防御するためにオープンソース モデルを微調整するとともに、7 つのブラックボックス防御戦略の軽減効果を測定します。
コスト分析を含め、脅威モデルに対するさまざまな防御の組み合わせを示します。
私たちの研究は、安全な LLM アプリケーションを構築するための重要なポイントを強調し、マルチターン LLM インタラクションにおける研究の方向性を提供します。

要約(オリジナル)

Prompt leakage poses a compelling security and privacy threat in LLM applications. Leakage of system prompts may compromise intellectual property, and act as adversarial reconnaissance for an attacker. A systematic evaluation of prompt leakage threats and mitigation strategies is lacking, especially for multi-turn LLM interactions. In this paper, we systematically investigate LLM vulnerabilities against prompt leakage for 10 closed- and open-source LLMs, across four domains. We design a unique threat model which leverages the LLM sycophancy effect and elevates the average attack success rate (ASR) from 17.7% to 86.2% in a multi-turn setting. Our standardized setup further allows dissecting leakage of specific prompt contents such as task instructions and knowledge documents. We measure the mitigation effect of 7 black-box defense strategies, along with finetuning an open-source model to defend against leakage attempts. We present different combination of defenses against our threat model, including a cost analysis. Our study highlights key takeaways for building secure LLM applications and provides directions for research in multi-turn LLM interactions

arxiv情報

著者 Divyansh Agarwal,Alexander R. Fabbri,Ben Risher,Philippe Laban,Shafiq Joty,Chien-Sheng Wu
発行日 2024-07-29 17:16:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR パーマリンク