PRSA: Prompt Stealing Attacks against Real-World Prompt Services

要約

最近、大規模な言語モデル(LLM)は、その並外れた能力について広範囲の注目を集めています。
プロンプトは、LLMSの機能とパフォーマンスの中心であり、非常に価値のある資産になっています。
高品質のプロンプトへの依存度の高まりにより、迅速なサービスの大幅な成長が促進されています。
ただし、この成長は迅速な漏れの可能性を拡大し、攻撃者が元の機能を再現し、競合する製品を作成し、開発者の知的財産を厳しく侵害するリスクを高めます。
これらのリスクにもかかわらず、現実世界の迅速なサービスの迅速な漏れは未熟なままです。
この論文では、迅速な盗みのために設計された実用的な攻撃フレームワークであるPRSAを紹介します。
PRSAは、非常に限られた入出力分析を通じてプロンプトの詳細な意図を推進し、元の機能を複製する盗まれたプロンプトを正常に生成できます。
広範な評価は、実世界の迅速な2つのタイプの2つのタイプにわたるPRSAの有効性を示しています。
具体的には、以前の作品と比較して、迅速な市場でそれぞれ17.8%から46.1%に攻撃成功率を改善し、LLMアプリケーションストアでそれぞれ39%から52%に改善します。
特に、OpenaiのGPTストアで最も人気のある教育アプリケーションの1つである「Math」への攻撃では、100万件以上の会話があり、PRSAは以前に明らかにされていなかった隠されたイースターエッグを発見しました。
それに加えて、私たちの分析により、プロンプトとその出力の間の相互情報が高いほど、漏れのリスクが高くなることが明らかになりました。
この洞察は、PRSAによってもたらされるセキュリティの脅威に対する2つの潜在的な防御の設計と評価を導きます。
これらの調査結果は、PromptBaseやOpenaiを含むPrompt Serviceベンダーに報告し、防御策を実施するために積極的に協力しています。

要約(オリジナル)

Recently, large language models (LLMs) have garnered widespread attention for their exceptional capabilities. Prompts are central to the functionality and performance of LLMs, making them highly valuable assets. The increasing reliance on high-quality prompts has driven significant growth in prompt services. However, this growth also expands the potential for prompt leakage, increasing the risk that attackers could replicate original functionalities, create competing products, and severely infringe on developers’ intellectual property. Despite these risks, prompt leakage in real-world prompt services remains underexplored. In this paper, we present PRSA, a practical attack framework designed for prompt stealing. PRSA infers the detailed intent of prompts through very limited input-output analysis and can successfully generate stolen prompts that replicate the original functionality. Extensive evaluations demonstrate PRSA’s effectiveness across two main types of real-world prompt services. Specifically, compared to previous works, it improves the attack success rate from 17.8% to 46.1% in prompt marketplaces and from 39% to 52% in LLM application stores, respectively. Notably, in the attack on ‘Math’, one of the most popular educational applications in OpenAI’s GPT Store with over 1 million conversations, PRSA uncovered a hidden Easter egg that had not been revealed previously. Besides, our analysis reveals that higher mutual information between a prompt and its output correlates with an increased risk of leakage. This insight guides the design and evaluation of two potential defenses against the security threats posed by PRSA. We have reported these findings to the prompt service vendors, including PromptBase and OpenAI, and actively collaborate with them to implement defensive measures.

arxiv情報

著者 Yong Yang,Changjiang Li,Qingming Li,Oubo Ma,Haoyu Wang,Zonghui Wang,Yandong Gao,Wenzhi Chen,Shouling Ji
発行日 2025-06-12 13:56:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR パーマリンク