One Pic is All it Takes: Poisoning Visual Document Retrieval Augmented Generation with a Single Image

要約

マルチモーダル検索拡張生成(M-RAG)は、事実知識ベース(KB)を使用して、大規模なマルチモーダルモデル(LMMS)の幻覚を阻害するための機器です。
ただし、M-Ragは、悪意のあるエントリをKBに注入することにより、システムを混乱させることを目的とした敵の新しい攻撃ベクトルを導入します。
このホワイトペーパーでは、KBにドキュメントページの画像が含まれている視覚ドキュメント検索アプリケーションをターゲットとするM-RAGに対する最初の中毒攻撃を紹介します。
2つの攻撃を提案しますが、それぞれがKBに単一の敵対的な画像のみを注入する必要があります。
まず、潜在的なユーザークエリに対して、M-RAGシステムにサービス拒否(DOS)を引き起こすための応答に影響を与えるユニバーサル攻撃を提案します。
第二に、ターゲットの誤った情報を広めることを目標に、1つまたはユーザーのクエリのグループに対するターゲット攻撃を提示します。
両方の攻撃について、多目的勾配ベースの敵対的アプローチを使用して、検索と生成の両方に最適化しながら、注入された画像を作成します。
いくつかの視覚ドキュメント検索データセット、最先端のレトリバー(埋め込みモデル)とジェネレーター(LMM)の多様なセットに対する攻撃を評価し、ユニバーサルとターゲットの両方の設定の両方で攻撃の有効性を実証します。
さらに、一般的に使用される防御、さまざまな攻撃ハイパーパラメーターの設定、アブレーション、攻撃移転可能性などの結果を提示します。

要約(オリジナル)

Multi-modal retrieval augmented generation (M-RAG) is instrumental for inhibiting hallucinations in large multi-modal models (LMMs) through the use of a factual knowledge base (KB). However, M-RAG introduces new attack vectors for adversaries that aim to disrupt the system by injecting malicious entries into the KB. In this paper, we present the first poisoning attack against M-RAG targeting visual document retrieval applications where the KB contains images of document pages. We propose two attacks, each of which require injecting only a single adversarial image into the KB. Firstly, we propose a universal attack that, for any potential user query, influences the response to cause a denial-of-service (DoS) in the M-RAG system. Secondly, we present a targeted attack against one or a group of user queries, with the goal of spreading targeted misinformation. For both attacks, we use a multi-objective gradient-based adversarial approach to craft the injected image while optimizing for both retrieval and generation. We evaluate our attacks against several visual document retrieval datasets, a diverse set of state-of-the-art retrievers (embedding models) and generators (LMMs), demonstrating the attack effectiveness in both the universal and targeted settings. We additionally present results including commonly used defenses, various attack hyper-parameter settings, ablations, and attack transferability.

arxiv情報

著者 Ezzeldin Shereen,Dan Ristea,Shae McFadden,Burak Hasircioglu,Vasilios Mavroudis,Chris Hicks
発行日 2025-06-11 15:07:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.CV, cs.IR パーマリンク