Certifiably Robust RAG against Retrieval Corruption

要約

検索拡張生成 (RAG) は、検索破損攻撃に対して脆弱であることがわかっています。攻撃者は、悪意のあるパッセージを検索結果に挿入して、不正確な応答を誘導する可能性があります。
この論文では、取得破損攻撃に対する最初の防御フレームワークとして RobustRAG を提案します。
RobustRAG の重要な洞察は、分離してから集約する戦略です。つまり、各パッセージから LLM 応答を分離して取得し、これらの分離された応答を安全に集約します。
RobustRAG をインスタンス化するために、非構造化テキスト応答を安全に集約するためのキーワードベースおよびデコードベースのアルゴリズムを設計します。
特に、RobustRAG は証明可能な堅牢性を実現できます。攻撃者が防御について十分な知識を持ち、少数の悪意のあるパッセージを恣意的に挿入できる場合でも、特定のクエリに対して RobustRAG が常に正確な応答を返すことができることを正式に証明し、証明することができます。
私たちは、オープンドメイン QA および長文テキスト生成データセットで RobustRAG を評価し、さまざまなタスクとデータセットにわたるその有効性と汎用性を実証します。

要約(オリジナル)

Retrieval-augmented generation (RAG) has been shown vulnerable to retrieval corruption attacks: an attacker can inject malicious passages into retrieval results to induce inaccurate responses. In this paper, we propose RobustRAG as the first defense framework against retrieval corruption attacks. The key insight of RobustRAG is an isolate-then-aggregate strategy: we get LLM responses from each passage in isolation and then securely aggregate these isolated responses. To instantiate RobustRAG, we design keyword-based and decoding-based algorithms for securely aggregating unstructured text responses. Notably, RobustRAG can achieve certifiable robustness: we can formally prove and certify that, for certain queries, RobustRAG can always return accurate responses, even when the attacker has full knowledge of our defense and can arbitrarily inject a small number of malicious passages. We evaluate RobustRAG on open-domain QA and long-form text generation datasets and demonstrate its effectiveness and generalizability across various tasks and datasets.

arxiv情報

著者 Chong Xiang,Tong Wu,Zexuan Zhong,David Wagner,Danqi Chen,Prateek Mittal
発行日 2024-05-24 13:44:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク