Prompt Obfuscation for Large Language Models

要約

基礎となるLLMによって実行されるタスクを説明するための詳細な指示を含むシステムプロンプトは、最小限のオーバーヘッドでファンデーションモデルをツールとサービスに簡単に変換できます。
ユーティリティへの重要な影響のため、ソフトウェア製品のコードと同様に、それらはしばしば知的財産と見なされます。
ただし、システムプロンプトの抽出は簡単に可能です。
今日の時点で、システムプロンプトの盗みを防ぐための効果的な対策はなく、すべての保護努力が回避される可能性があります。
この作業では、従来のシステムプロンプトに代わるものを提案します。
頭上のみでシステムプロンプトの抽出を防ぐために、迅速な難読化を導入します。
コアのアイデアは、同じ機能につながる元のシステムプロンプトの表現を見つけることですが、難読化されたシステムプロンプトには、元のシステムプロンプトについて結論を描画できる情報は含まれていません。
難読化されたプロンプト出力を、8つの異なるメトリックを使用して元のプロンプトの出力と比較して、語彙、キャラクターレベル、およびセマンティックな類似性を測定することにより、アプローチを評価します。
難読化されたバージョンは、常に元のバージョンと同等になっていることを示します。
さらに、ブラックボックスとホワイトボックスの両方の条件をカバーするさまざまな攻撃者の知識を使用して、3つの異なるデブファスケーション攻撃を実行し、現実的な攻撃シナリオでは攻撃者が意味のある情報を抽出できないことを示します。
全体として、プロンプトの難読化は、元のプロンプトと同じユーティリティを維持しながら、システムプロンプトの知的財産を保護するための効果的なメカニズムであることを実証します。

要約(オリジナル)

System prompts that include detailed instructions to describe the task performed by the underlying LLM can easily transform foundation models into tools and services with minimal overhead. Because of their crucial impact on the utility, they are often considered intellectual property, similar to the code of a software product. However, extracting system prompts is easily possible. As of today, there is no effective countermeasure to prevent the stealing of system prompts and all safeguarding efforts could be evaded. In this work, we propose an alternative to conventional system prompts. We introduce prompt obfuscation to prevent the extraction of the system prompt with only little overhead. The core idea is to find a representation of the original system prompt that leads to the same functionality, while the obfuscated system prompt does not contain any information that allows conclusions to be drawn about the original system prompt. We evaluate our approach by comparing our obfuscated prompt output with the output of the original prompt, using eight distinct metrics, to measure the lexical, character-level, and semantic similarity. We show that the obfuscated version is constantly on par with the original one. We further perform three different deobfuscation attacks with varying attacker knowledge–covering both black-box and white-box conditions–and show that in realistic attack scenarios an attacker is not able to extract meaningful information. Overall, we demonstrate that prompt obfuscation is an effective mechanism to safeguard the intellectual property of a system prompt while maintaining the same utility as the original prompt.

arxiv情報

著者 David Pape,Sina Mavali,Thorsten Eisenhofer,Lea Schönherr
発行日 2025-01-29 16:57:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク