MirrorCheck: Efficient Adversarial Defense for Vision-Language Models

要約

ビジョン言語モデル (VLM) に対してさまざまな新しい攻撃戦略が提案されているため、これらのモデルは敵対的攻撃に対してますます脆弱になっています。
既存の防御は単峰性のコンテキストでは優れていますが、敵対的な脅威から VLM を保護するには現時点では不十分です。
この脆弱性を軽減するために、VLM 内の敵対的なサンプルを検出するための、斬新でありながら洗練されたシンプルなアプローチを提案します。
私たちの方法では、Text-to-Image (T2I) モデルを利用して、ターゲット VLM によって生成されたキャプションに基づいて画像を生成します。
続いて、特徴空間における入力画像と生成画像の両方の埋め込みの類似性を計算して、敵対的なサンプルを特定します。
さまざまなデータセットに対して実施された経験的評価により、画像分類ドメインから適応されたベースライン手法を上回る、私たちのアプローチの有効性が検証されました。
さらに、手法を分類タスクに拡張し、その適応性とモデルに依存しない性質を示します。
理論分析と実証結果は、適応型攻撃に対する当社のアプローチの回復力も示しており、敵対的な脅威に対する現実世界での展開のための優れた防御メカニズムとして位置づけられています。

要約(オリジナル)

Vision-Language Models (VLMs) are becoming increasingly vulnerable to adversarial attacks as various novel attack strategies are being proposed against these models. While existing defenses excel in unimodal contexts, they currently fall short in safeguarding VLMs against adversarial threats. To mitigate this vulnerability, we propose a novel, yet elegantly simple approach for detecting adversarial samples in VLMs. Our method leverages Text-to-Image (T2I) models to generate images based on captions produced by target VLMs. Subsequently, we calculate the similarities of the embeddings of both input and generated images in the feature space to identify adversarial samples. Empirical evaluations conducted on different datasets validate the efficacy of our approach, outperforming baseline methods adapted from image classification domains. Furthermore, we extend our methodology to classification tasks, showcasing its adaptability and model-agnostic nature. Theoretical analyses and empirical findings also show the resilience of our approach against adaptive attacks, positioning it as an excellent defense mechanism for real-world deployment against adversarial threats.

arxiv情報

著者 Samar Fares,Klea Ziu,Toluwani Aremu,Nikita Durasov,Martin Takáč,Pascal Fua,Karthik Nandakumar,Ivan Laptev
発行日 2024-06-13 15:55:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク