Adversarial Robustness for Visual Grounding of Multimodal Large Language Models

要約

マルチモーダル大規模言語モデル (MLLM) は最近、視覚的なグラウンディング機能を含むさまざまな視覚言語タスクにわたってパフォーマンスの向上を達成しました。
ただし、視覚的グラウンディングの敵対的な堅牢性は、MLLM ではまだ解明されていません。
このギャップを埋めるために、視覚的グラウンディングにおけるタスク例として参照表現理解 (REC) を使用し、次の 3 つの敵対的攻撃パラダイムを提案します。
まず、ターゲットを絞らない敵対的攻撃により、MLLM がオブジェクトごとに誤った境界ボックスを生成するようになります。
さらに、排他的標的型敵対的攻撃により、生成されたすべての出力が同じターゲット境界ボックスに送信されます。
さらに、並べ替えられた標的型攻撃は、単一の画像内の異なるオブジェクト間のすべての境界ボックスを並べ替えることを目的としています。
広範な実験により、提案された方法が MLLM の視覚的グラウンディング機能を攻撃できることが実証されました。
私たちの手法は、新しい攻撃を設計するための新しい視点を提供するだけでなく、MLLM の視覚的な根拠に対する敵対的堅牢性を向上させるための強力なベースラインとしても機能します。

要約(オリジナル)

Multi-modal Large Language Models (MLLMs) have recently achieved enhanced performance across various vision-language tasks including visual grounding capabilities. However, the adversarial robustness of visual grounding remains unexplored in MLLMs. To fill this gap, we use referring expression comprehension (REC) as an example task in visual grounding and propose three adversarial attack paradigms as follows. Firstly, untargeted adversarial attacks induce MLLMs to generate incorrect bounding boxes for each object. Besides, exclusive targeted adversarial attacks cause all generated outputs to the same target bounding box. In addition, permuted targeted adversarial attacks aim to permute all bounding boxes among different objects within a single image. Extensive experiments demonstrate that the proposed methods can successfully attack visual grounding capabilities of MLLMs. Our methods not only provide a new perspective for designing novel attacks but also serve as a strong baseline for improving the adversarial robustness for visual grounding of MLLMs.

arxiv情報

著者 Kuofeng Gao,Yang Bai,Jiawang Bai,Yong Yang,Shu-Tao Xia
発行日 2024-05-16 10:54:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク