PLeak: Prompt Leaking Attacks against Large Language Model Applications

要約

大規模言語モデル (LLM) により、さまざまな自然言語処理タスクを備えた、LLM アプリケーションと呼ばれる多くの下流アプリケーションを備えた新しいエコシステムが可能になります。
LLM アプリケーションの機能とパフォーマンスは、バックエンド LLM に実行するタスクを指示するシステム プロンプトに大きく依存します。
したがって、LLM アプリケーション開発者は、知的財産を保護するためにシステム プロンプトを機密に保つことがよくあります。
その結果、プロンプト漏洩と呼ばれる自然な攻撃により、LLM アプリケーションからシステム プロンプトが盗まれ、開発者の知的財産が侵害されます。
既存の即時漏洩攻撃は主に手動で作成されたクエリに依存しているため、効果は限られています。
この論文では、PLeak と呼ばれる新しいクローズドボックスのプロンプト漏洩攻撃フレームワークを設計し、攻撃者がターゲットの LLM アプリケーションに送信したときにその応答によって独自のシステム プロンプトが明らかにされるように、敵対的なクエリを最適化します。
このような敵対的なクエリの発見を最適化問題として定式化し、近似的に勾配ベースの方法で解決します。
私たちの重要なアイデアは、システム プロンプトに対する敵対者のクエリを段階的に最適化することによって、最適化目標を細分化することです。つまり、各システム プロンプトの最初のいくつかのトークンから開始して、システム プロンプト全体の長さまで段階的に実行していきます。
私たちは、オフライン設定と実際の LLM アプリケーション (たとえば、そのようなアプリケーションをホストする人気のあるプラットフォームである Poe 上のアプリケーション) の両方で PLeak を評価します。
私たちの結果は、PLeak がシステム プロンプトを効果的に漏洩する可能性があり、クエリを手動でキュレーションするベースラインだけでなく、既存のジェイルブレイク攻撃から変更および適応された最適化されたクエリを含むベースラインよりも大幅に優れていることを示しています。
私たちは責任を持って問題を Poe に報告し、まだ返答を待っています。
私たちの実装はこのリポジトリ: https://github.com/BHui97/PLeak で入手できます。

要約(オリジナル)

Large Language Models (LLMs) enable a new ecosystem with many downstream applications, called LLM applications, with different natural language processing tasks. The functionality and performance of an LLM application highly depend on its system prompt, which instructs the backend LLM on what task to perform. Therefore, an LLM application developer often keeps a system prompt confidential to protect its intellectual property. As a result, a natural attack, called prompt leaking, is to steal the system prompt from an LLM application, which compromises the developer’s intellectual property. Existing prompt leaking attacks primarily rely on manually crafted queries, and thus achieve limited effectiveness. In this paper, we design a novel, closed-box prompt leaking attack framework, called PLeak, to optimize an adversarial query such that when the attacker sends it to a target LLM application, its response reveals its own system prompt. We formulate finding such an adversarial query as an optimization problem and solve it with a gradient-based method approximately. Our key idea is to break down the optimization goal by optimizing adversary queries for system prompts incrementally, i.e., starting from the first few tokens of each system prompt step by step until the entire length of the system prompt. We evaluate PLeak in both offline settings and for real-world LLM applications, e.g., those on Poe, a popular platform hosting such applications. Our results show that PLeak can effectively leak system prompts and significantly outperforms not only baselines that manually curate queries but also baselines with optimized queries that are modified and adapted from existing jailbreaking attacks. We responsibly reported the issues to Poe and are still waiting for their response. Our implementation is available at this repository: https://github.com/BHui97/PLeak.

arxiv情報

著者 Bo Hui,Haolin Yuan,Neil Gong,Philippe Burlina,Yinzhi Cao
発行日 2024-05-14 15:03:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG パーマリンク