要約
検索された生成(RAG)システムは、知識データベースから関連ドキュメントを取得し、取得したドキュメントにLLMを適用することにより、クエリに応答します。
信頼されていないコンテンツを持つデータベースで動作するRAGシステムは、ジャミングと呼ばれるサービス拒否攻撃に対して脆弱であることを実証します。
敵は、特定のクエリに応じて取得され、このクエリに応答しないRAGシステムになり、関連情報がないため、または回答が安全でないためにこのクエリに回答しない「ブロッカー」ドキュメントをデータベースに追加できます。
ブラックボックスの最適化に基づいた新しい方法を含む、ブロッカードキュメントを生成するためのいくつかの方法の有効性を説明および測定します。
(1)我々の方法は命令注入に依存せず、(2)ターゲットRAGシステムで使用される埋め込みまたはLLMを敵に知る必要はなく、(3)補助LLMを使用しません。
いくつかの埋め込みとLLMに対する妨害攻撃を評価し、LLMの既存の安全メトリックがジャミングに対する脆弱性を捉えていないことを示しています。
次に、ブロッカードキュメントに対する防御について説明します。
要約(オリジナル)
Retrieval-augmented generation (RAG) systems respond to queries by retrieving relevant documents from a knowledge database and applying an LLM to the retrieved documents. We demonstrate that RAG systems that operate on databases with untrusted content are vulnerable to denial-of-service attacks we call jamming. An adversary can add a single “blocker” document to the database that will be retrieved in response to a specific query and result in the RAG system not answering this query, ostensibly because it lacks relevant information or because the answer is unsafe. We describe and measure the efficacy of several methods for generating blocker documents, including a new method based on black-box optimization. Our method (1) does not rely on instruction injection, (2) does not require the adversary to know the embedding or LLM used by the target RAG system, and (3) does not employ an auxiliary LLM. We evaluate jamming attacks on several embeddings and LLMs and demonstrate that the existing safety metrics for LLMs do not capture their vulnerability to jamming. We then discuss defenses against blocker documents.
arxiv情報
著者 | Avital Shafran,Roei Schuster,Vitaly Shmatikov |
発行日 | 2025-03-10 12:56:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google