SCAM: A Real-World Typographic Robustness Evaluation for Multimodal Foundation Models

要約

活版印刷攻撃は、マルチモーダルファンデーションモデルのテキストと視覚コンテンツの相互作用を活用し、誤解を招くテキストが画像に組み込まれている場合に誤分類を引き起こします。
ただし、既存のデータセットのサイズと多様性は限られているため、このような脆弱性を研究することは困難です。
このホワイトペーパーでは、これまでの実際のタイポグラフィ攻撃画像の最大かつ最も多様なデータセットである詐欺を導入し、数百のオブジェクトカテゴリと攻撃語に1,162枚の画像を含んでいます。
詐欺でのビジョン言語モデル(VLMS)の広範なベンチマークを通じて、タイポグラフィ攻撃がパフォーマンスを大幅に低下させることを実証し、トレーニングデータとモデルアーキテクチャがこれらの攻撃に対する感受性に影響することを特定します。
私たちの調査結果は、大きな言語モデル(LLMS)のバックボーンが脆弱性を軽減するのに役立つにもかかわらず、視力エンコーダの選択により、最先端の大型ビジョン言語モデル(LVLMS)でタイポグラフィ攻撃が持続することが明らかになりました。
さらに、合成攻撃は、実世界(手書き)攻撃に非常に似ており、研究での使用を検証することを実証します。
私たちの仕事は、堅牢で信頼できるマルチモーダルAIシステムに対する将来の研究を促進するための包括的なリソースと経験的洞察を提供します。
www.bliss.berlin/research/scamで評価のためのコードとともに、このペーパーで導入されたデータセットを公開します。

要約(オリジナル)

Typographic attacks exploit the interplay between text and visual content in multimodal foundation models, causing misclassifications when misleading text is embedded within images. However, existing datasets are limited in size and diversity, making it difficult to study such vulnerabilities. In this paper, we introduce SCAM, the largest and most diverse dataset of real-world typographic attack images to date, containing 1,162 images across hundreds of object categories and attack words. Through extensive benchmarking of Vision-Language Models (VLMs) on SCAM, we demonstrate that typographic attacks significantly degrade performance, and identify that training data and model architecture influence the susceptibility to these attacks. Our findings reveal that typographic attacks persist in state-of-the-art Large Vision-Language Models (LVLMs) due to the choice of their vision encoder, though larger Large Language Models (LLMs) backbones help mitigate their vulnerability. Additionally, we demonstrate that synthetic attacks closely resemble real-world (handwritten) attacks, validating their use in research. Our work provides a comprehensive resource and empirical insights to facilitate future research toward robust and trustworthy multimodal AI systems. We publicly release the datasets introduced in this paper along with the code for evaluations at www.bliss.berlin/research/scam.

arxiv情報

著者 Justus Westerhoff,Erblina Purelku,Jakob Hackstein,Jonas Loos,Leo Pinetzki,Lorenz Hufe
発行日 2025-05-12 13:45:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク