PRSA: Prompt Reverse Stealing Attacks against Large Language Models

要約

Prompt は重要な知的財産として認識されており、大規模言語モデル (LLM) が微調整を必要とせずに特定のタスクを実行できるようにすることで、その重要性が高まっていることが強調されています。
プロンプト マーケットプレイスや LLM アプリケーションなどのプロンプトベースのサービスの台頭により、プロバイダーはユーザーを引き付けるために入出力例を通じてプロンプトの機能を表示することがよくあります。
しかし、このパラダイムは重大なセキュリティ上の懸念を引き起こします。入出力ペアの公開により、即時漏洩の可能性があり、開発者の知的財産権が侵害されるリスクがあるのでしょうか?
私たちの知る限り、この問題はまだ包括的に調査されていません。
このギャップを埋めるために、この論文では、最初の詳細な調査を実行し、商用 LLM に対するプロンプトをリバーススチールするための新しい攻撃フレームワーク、つまり PRSA を提案します。
PRSA の主なアイデアは、入出力ペアの重要な特徴を分析することによって、ターゲット プロンプトを模倣し、徐々に推測 (盗む) するというものです。
詳細には、PRSA は主に、プロンプト ミューテーションとプロンプト プルーニングという 2 つの主要なフェーズで構成されます。
突然変異フェーズでは、ターゲットプロンプトを効果的に推測するためにこれらの重要な特徴を捕捉するための差分フィードバックに基づくプロンプトアテンションアルゴリズムを提案します。
プロンプトの枝刈りフェーズでは、特定の入力に依存する単語を特定してマスクし、プロンプトが一般化のための多様な入力に対応できるようにします。
広範な評価を通じて、私たちは PRSA が現実世界のシナリオにおいて重大な脅威をもたらすことを確認しました。
私たちはこれらの調査結果を迅速なサービスプロバイダーに報告し、迅速な著作権の保護措置を講じるために積極的に協力しています。

要約(オリジナル)

Prompt, recognized as crucial intellectual property, enables large language models (LLMs) to perform specific tasks without the need of fine-tuning, underscoring their escalating importance. With the rise of prompt-based services, such as prompt marketplaces and LLM applications, providers often display prompts’ capabilities through input-output examples to attract users. However, this paradigm raises a pivotal security concern: does the exposure of input-output pairs pose the risk of potential prompt leakage, infringing on the intellectual property rights of the developers? To our knowledge, this problem still has not been comprehensively explored yet. To remedy this gap, in this paper, we perform the first in depth exploration and propose a novel attack framework for reverse-stealing prompts against commercial LLMs, namely PRSA. The main idea of PRSA is that by analyzing the critical features of the input-output pairs, we mimic and gradually infer (steal) the target prompts. In detail, PRSA mainly consists of two key phases: prompt mutation and prompt pruning. In the mutation phase, we propose a prompt attention algorithm based on differential feedback to capture these critical features for effectively inferring the target prompts. In the prompt pruning phase, we identify and mask the words dependent on specific inputs, enabling the prompts to accommodate diverse inputs for generalization. Through extensive evaluation, we verify that PRSA poses a severe threat in real world scenarios. We have reported these findings to prompt service providers and actively collaborate with them to take protective measures for prompt copyright.

arxiv情報

著者 Yong Yang,Xuhong Zhang,Yi Jiang,Xi Chen,Haoyu Wang,Shouling Ji,Zonghui Wang
発行日 2024-02-29 14:30:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR パーマリンク