Vision-LLMs Can Fool Themselves with Self-Generated Typographic Attacks

要約

誤解を招くテキストを画像に貼り付けるタイポグラフィック攻撃は、CLIP などの視覚言語モデルのパフォーマンスに悪影響を与えることが指摘されています。
ただし、これらの攻撃に対する最近の大規模ビジョン言語モデルの脆弱性については、まだ十分に研究されていません。
さらに、CLIP に対する以前の研究のタイポグラフィック攻撃は、事前に定義されたカテゴリのセットから誤解を招くクラスをランダムにサンプリングします。
ただし、この単純な戦略では、LVLM の強力な言語スキルを悪用する、より効果的な攻撃が見逃されます。
これらの問題に対処するために、まず、LVLM に対するタイポグラフィ攻撃をテストするためのベンチマークを導入します。
さらに、LVLM 自身に対する攻撃を生成するよう促す、2 つの斬新でより効果的な \textit{自己生成} 攻撃を紹介します。 1) クラスベースの攻撃。LVLM (例: LLaVA) は、どの欺瞞クラスが最も類似しているかを尋ねられます。
ターゲットクラスと 2) 記述的攻撃。より高度な LVLM (例: GPT4-V) が、欺瞞的なクラスと説明の両方を含むタイポグラフィー攻撃を推奨するように求められます。
ベンチマークを使用すると、自己生成攻撃が重大な脅威となり、LVLM 分類パフォーマンスが最大 33\% 低下することがわかりました。
また、1 つのモデル (GPT-4V や LLaVA など) によって生成された攻撃が、そのモデル自体や、InstructBLIP や MiniGPT4 などの他のモデルに対して有効であることも判明しました。
コード: \url{https://github.com/mqraitem/Self-Gen-Typo- Attack}

要約(オリジナル)

Typographic Attacks, which involve pasting misleading text onto an image, were noted to harm the performance of Vision-Language Models like CLIP. However, the susceptibility of recent Large Vision-Language Models to these attacks remains understudied. Furthermore, prior work’s Typographic attacks against CLIP randomly sample a misleading class from a predefined set of categories. However, this simple strategy misses more effective attacks that exploit LVLM(s) stronger language skills. To address these issues, we first introduce a benchmark for testing Typographic attacks against LVLM(s). Moreover, we introduce two novel and more effective \textit{Self-Generated} attacks which prompt the LVLM to generate an attack against itself: 1) Class Based Attack where the LVLM (e.g. LLaVA) is asked which deceiving class is most similar to the target class and 2) Descriptive Attacks where a more advanced LVLM (e.g. GPT4-V) is asked to recommend a Typographic attack that includes both a deceiving class and description. Using our benchmark, we uncover that Self-Generated attacks pose a significant threat, reducing LVLM(s) classification performance by up to 33\%. We also uncover that attacks generated by one model (e.g. GPT-4V or LLaVA) are effective against the model itself and other models like InstructBLIP and MiniGPT4. Code: \url{https://github.com/mqraitem/Self-Gen-Typo-Attack}

arxiv情報

著者 Maan Qraitem,Nazia Tasnim,Piotr Teterwak,Kate Saenko,Bryan A. Plummer
発行日 2024-02-16 15:15:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.LG パーマリンク