Safeguarding System Prompts for LLMs

要約

大規模言語モデル (LLM) は、モデルの出力をガイドするシステム プロンプトが重要な役割を果たすアプリケーションでますます利用されています。
これらのプロンプトにはビジネス ロジックや機密情報が含まれることが多く、その保護が不可欠です。
ただし、敵対的なユーザー クエリや通常のユーザー クエリでも LLM の脆弱性を悪用して、これらの隠れたプロンプトが表示される可能性があります。
この問題に対処するために、システム プロンプトを保護するために設計された堅牢な防御メカニズムである PromptKeeper を提案します。
PromptKeeper は、プロンプト リークを確実に検出することと、リークが発生した場合のサイドチャネルの脆弱性を軽減するという 2 つの主要な課題に取り組みます。
PromptKeeper は、検出を仮説検証問題として構成することで、明示的な漏れと微妙な漏れの両方を効果的に特定します。
検出すると、ダミー プロンプトを使用して応答を再生成し、漏れがない場合には出力が通常のインタラクションと区別できないようにします。
PromptKeeper は、悪意のないユーザー対話中の会話機能とランタイム効率を維持しながら、敵対的クエリまたは通常のクエリによるプロンプト抽出攻撃に対する堅牢な保護を保証します。

要約(オリジナル)

Large language models (LLMs) are increasingly utilized in applications where system prompts, which guide model outputs, play a crucial role. These prompts often contain business logic and sensitive information, making their protection essential. However, adversarial and even regular user queries can exploit LLM vulnerabilities to expose these hidden prompts. To address this issue, we propose PromptKeeper, a robust defense mechanism designed to safeguard system prompts. PromptKeeper tackles two core challenges: reliably detecting prompt leakage and mitigating side-channel vulnerabilities when leakage occurs. By framing detection as a hypothesis-testing problem, PromptKeeper effectively identifies both explicit and subtle leakage. Upon detection, it regenerates responses using a dummy prompt, ensuring that outputs remain indistinguishable from typical interactions when no leakage is present. PromptKeeper ensures robust protection against prompt extraction attacks via either adversarial or regular queries, while preserving conversational capability and runtime efficiency during benign user interactions.

arxiv情報

著者 Zhifeng Jiang,Zhihua Jin,Guoliang He
発行日 2025-01-09 14:33:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR パーマリンク