Rag and Roll: An End-to-End Evaluation of Indirect Prompt Manipulations in LLM-based Application Frameworks

要約

取得拡張生成 (RAG) は、分布外の知識をモデルに装備するために一般的に使用される手法です。
このプロセスには、応答を生成するための情報の収集、インデックス付け、取得、LLM への提供が含まれます。
RAG はその柔軟性と低コストにより人気が高まっていますが、RAG のセキュリティへの影響については十分に研究されていません。
このようなシステムのデータは多くの場合、公開ソースから収集され、モデルの応答を操作するための間接的なプロンプト インジェクションのゲートウェイを攻撃者に提供します。
このペーパーでは、エンドツーエンドの間接的なプロンプト操作に対する RAG システムのセキュリティを調査します。
まず、既存の RAG フレームワーク パイプラインをレビューし、プロトタイプのアーキテクチャを導き出し、重要なパラメーターを特定します。
次に、攻撃者が間接的なプロンプト操作を実行するために使用できる手法を探して、以前の研究を調査します。
最後に、エンドツーエンドの RAG アプリケーションに対する攻撃の有効性を判断するフレームワークである Rag ‘n Roll を実装しました。
私たちの結果は、既存の攻撃のほとんどが、取得段階で悪意のあるドキュメントのランキングを高めるために最適化されていることを示しています。
ただし、ランクが高くても、すぐに信頼できる攻撃につながるわけではありません。
ほとんどの攻撃は、さまざまな構成に対して 40% 前後の成功率で落ち着きますが、あいまいな応答を攻撃の成功とみなすと、成功率は 60% に上昇する可能性があります (予期される無害な応答も含まれます)。
さらに、最適化されていないドキュメントを使用すると、攻撃者がターゲット クエリに対して 2 つ (またはそれ以上) のドキュメントを展開すると、最適化されたドキュメントを使用した場合と同様の結果が得られる可能性があります。
最後に、RAG の構成空間を調査したところ、攻撃を阻止する効果が限定的であり、最も成功した組み合わせによって機能が著しく損なわれることがわかりました。

要約(オリジナル)

Retrieval Augmented Generation (RAG) is a technique commonly used to equip models with out of distribution knowledge. This process involves collecting, indexing, retrieving, and providing information to an LLM for generating responses. Despite its growing popularity due to its flexibility and low cost, the security implications of RAG have not been extensively studied. The data for such systems are often collected from public sources, providing an attacker a gateway for indirect prompt injections to manipulate the responses of the model. In this paper, we investigate the security of RAG systems against end-to-end indirect prompt manipulations. First, we review existing RAG framework pipelines, deriving a prototypical architecture and identifying critical parameters. We then examine prior works searching for techniques that attackers can use to perform indirect prompt manipulations. Finally, we implemented Rag ‘n Roll, a framework to determine the effectiveness of attacks against end-to-end RAG applications. Our results show that existing attacks are mostly optimized to boost the ranking of malicious documents during the retrieval phase. However, a higher rank does not immediately translate into a reliable attack. Most attacks, against various configurations, settle around a 40% success rate, which could rise to 60% when considering ambiguous answers as successful attacks (those that include the expected benign one as well). Additionally, when using unoptimized documents, attackers deploying two of them (or more) for a target query can achieve similar results as those using optimized ones. Finally, exploration of the configuration space of a RAG showed limited impact in thwarting the attacks, where the most successful combination severely undermines functionality.

arxiv情報

著者 Gianluca De Stefano,Lea Schönherr,Giancarlo Pellegrino
発行日 2024-08-12 13:57:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR パーマリンク