MirrorCheck: Efficient Adversarial Defense for Vision-Language Models


ビジョン言語モデル (VLM) に対してさまざまな新しい攻撃戦略が提案されているため、これらのモデルは敵対的攻撃に対してますます脆弱になっています。
既存の防御は単峰性のコンテキストでは優れていますが、敵対的な脅威から VLM を保護するには現時点では不十分です。
この脆弱性を軽減するために、VLM 内の敵対的なサンプルを検出するための、斬新でありながら洗練されたシンプルなアプローチを提案します。
私たちの方法では、Text-to-Image (T2I) モデルを利用して、ターゲット VLM によって生成されたキャプションに基づいて画像を生成します。


Vision-Language Models (VLMs) are becoming increasingly vulnerable to adversarial attacks as various novel attack strategies are being proposed against these models. While existing defenses excel in unimodal contexts, they currently fall short in safeguarding VLMs against adversarial threats. To mitigate this vulnerability, we propose a novel, yet elegantly simple approach for detecting adversarial samples in VLMs. Our method leverages Text-to-Image (T2I) models to generate images based on captions produced by target VLMs. Subsequently, we calculate the similarities of the embeddings of both input and generated images in the feature space to identify adversarial samples. Empirical evaluations conducted on different datasets validate the efficacy of our approach, outperforming baseline methods adapted from image classification domains. Furthermore, we extend our methodology to classification tasks, showcasing its adaptability and model-agnostic nature. Theoretical analyses and empirical findings also show the resilience of our approach against adaptive attacks, positioning it as an excellent defense mechanism for real-world deployment against adversarial threats.


著者 Samar Fares,Klea Ziu,Toluwani Aremu,Nikita Durasov,Martin Takáč,Pascal Fua,Karthik Nandakumar,Ivan Laptev
発行日 2024-06-13 15:55:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク