要約
検索された生成(RAG)システムと統合された大規模な言語モデル(LLM)は、外部の知識ソースを活用することにより精度を向上させます。
しかし、最近の研究により、Ragの中毒攻撃に対する感受性が明らかになりました。攻撃者が毒物を知識データベースに注入し、攻撃者を決定した応答につながりました。
主に推論時間緩和に焦点を当てた既存の防御は、洗練された攻撃に対して不十分であることが証明されています。
このホワイトペーパーでは、攻撃を担当する知識データベース内で中毒テキストを識別するように設計されたRagの最初のトレースバックシステムであるRagforensicsを紹介します。
Ragforensicsは繰り返し動作し、最初にデータベースからテキストのサブセットを取得し、次に潜在的な中毒テキストの検出にLLMを導くために特別に作成されたプロンプトを使用します。
複数のデータセットにわたる経験的評価は、最先端の中毒攻撃に対するRagforensicsの有効性を示しています。
この作業は、RAGシステムの中毒テキストの痕跡を先駆けて、セキュリティを強化するための実用的で有望な防御メカニズムを提供します。
要約(オリジナル)
Large language models (LLMs) integrated with retrieval-augmented generation (RAG) systems improve accuracy by leveraging external knowledge sources. However, recent research has revealed RAG’s susceptibility to poisoning attacks, where the attacker injects poisoned texts into the knowledge database, leading to attacker-desired responses. Existing defenses, which predominantly focus on inference-time mitigation, have proven insufficient against sophisticated attacks. In this paper, we introduce RAGForensics, the first traceback system for RAG, designed to identify poisoned texts within the knowledge database that are responsible for the attacks. RAGForensics operates iteratively, first retrieving a subset of texts from the database and then utilizing a specially crafted prompt to guide an LLM in detecting potential poisoning texts. Empirical evaluations across multiple datasets demonstrate the effectiveness of RAGForensics against state-of-the-art poisoning attacks. This work pioneers the traceback of poisoned texts in RAG systems, providing a practical and promising defense mechanism to enhance their security.
arxiv情報
著者 | Baolei Zhang,Haoran Xin,Minghong Fang,Zhuqing Liu,Biao Yi,Tong Li,Zheli Liu |
発行日 | 2025-04-30 14:10:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google