Prompts Should not be Seen as Secrets: Systematically Measuring Prompt Extraction Attack Success

要約

大規模な言語モデルの世代は、一般にプロンプ​​ト手法によって制御されます。プロンプト手法では、モデルに対するユーザーのクエリの前に、クエリに対するモデルの動作をガイドすることを目的としたプロンプトが付けられます。
企業がモデルをガイドするために使用するプロンプトは、多くの場合、クエリを行うユーザーから隠されるように秘密として扱われます。
売買される商品として扱われることさえあります。
ただし、プロンプトが秘密にされている場合でも、ユーザーがプロンプトを抽出できることを示す事例証拠があります。
このペーパーでは、即時抽出攻撃の成功を体系的に測定するためのフレームワークを紹介します。
複数のプロンプトソースと複数の基礎となる言語モデルを使った実験では、単純なテキストベースの攻撃で実際に高い確率でプロンプトを明らかにできることがわかりました。

要約(オリジナル)

The generations of large language models are commonly controlled through prompting techniques, where a user’s query to the model is prefixed with a prompt that aims to guide the model’s behaviour on the query. The prompts used by companies to guide their models are often treated as secrets, to be hidden from the user making the query. They have even been treated as commodities to be bought and sold. However, there has been anecdotal evidence showing that the prompts can be extracted by a user even when they are kept secret. In this paper, we present a framework for systematically measuring the success of prompt extraction attacks. In experiments with multiple sources of prompts and multiple underlying language models, we find that simple text-based attacks can in fact reveal prompts with high probability.

arxiv情報

著者 Yiming Zhang,Daphne Ippolito
発行日 2023-07-13 16:15:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク