Investigating the prompt leakage effect and black-box defenses for multi-turn LLM interactions

要約

大規模言語モデル (LLM) での即時漏洩は、特に検索拡張生成 (RAG) システムにおいて、重大なセキュリティとプライバシーの脅威を引き起こします。
ただし、マルチターン LLM インタラクションにおける漏洩と緩和戦略は、標準化された方法で研究されていません。
このペーパーでは、4 つの多様なドメインと 10 のクローズドおよびオープンソース LLM にわたるプロンプト漏洩に対する LLM の脆弱性を調査します。
当社の独自のマルチターン脅威モデルは、LLM のおべっか効果を活用しており、当社の分析では、LLM の対応におけるタスクの指示と知識の漏洩を分析しています。
マルチターン設定では、当社の脅威モデルは、GPT-4 と claude-1.3 による 99% の漏洩を含め、平均攻撃成功率 (ASR) を 86.2% まで高めます。
Gemini のような一部のブラックボックス LLM は、ドメイン間での漏洩に対してさまざまな感受性を示していることがわかりました。これらの LLM は、医療分野と比較して、ニュース分野で文脈上の知識を漏洩する可能性が高くなります。
私たちの実験では、RAG シナリオのクエリ リライターを含む 6 つのブラックボックス防御戦略の具体的な効果を測定しました。
私たちが提案した多層防御の組み合わせでも、ブラックボックス LLM の ASR は 5.3% であり、LLM セキュリティ研究の強化と将来の方向性の余地があることを示しています。

要約(オリジナル)

Prompt leakage in large language models (LLMs) poses a significant security and privacy threat, particularly in retrieval-augmented generation (RAG) systems. However, leakage in multi-turn LLM interactions along with mitigation strategies has not been studied in a standardized manner. This paper investigates LLM vulnerabilities against prompt leakage across 4 diverse domains and 10 closed- and open-source LLMs. Our unique multi-turn threat model leverages the LLM’s sycophancy effect and our analysis dissects task instruction and knowledge leakage in the LLM response. In a multi-turn setting, our threat model elevates the average attack success rate (ASR) to 86.2%, including a 99% leakage with GPT-4 and claude-1.3. We find that some black-box LLMs like Gemini show variable susceptibility to leakage across domains – they are more likely to leak contextual knowledge in the news domain compared to the medical domain. Our experiments measure specific effects of 6 black-box defense strategies, including a query-rewriter in the RAG scenario. Our proposed multi-tier combination of defenses still has an ASR of 5.3% for black-box LLMs, indicating room for enhancement and future direction for LLM security research.

arxiv情報

著者 Divyansh Agarwal,Alexander R. Fabbri,Philippe Laban,Ben Risher,Shafiq Joty,Caiming Xiong,Chien-Sheng Wu
発行日 2024-04-26 07:47:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR パーマリンク