Typography Leads Semantic Diversifying: Amplifying Adversarial Transferability across Multimodal Large Language Models

要約

大規模モデルの人工知能 (AI) 時代の到来に続き、視覚とテキストの間のクロスモーダルな相互作用を理解する機能を備えたマルチモーダル大規模言語モデル (MLLM) が幅広い注目を集めています。
人間には知覚できない摂動を伴う敵対的な例には、伝達可能性として知られる特性があることが示されています。これは、あるモデルによって生成された摂動が別の異なるモデルにも誤解を与える可能性があることを意味します。
入力データの多様性を高めることは、敵対的転送可能性を高めるための最も重要な方法の 1 つです。
この方法は、ブラックボックス条件下で脅威の影響を大幅に拡大する方法として認定されています。
研究成果では、MLLM を悪用してホワイトボックス シナリオで敵対的な例を生成できることも実証されています。
ただし、このような摂動の敵対的伝達可能性は非常に限られており、異なるモデル間で効果的なブラックボックス攻撃を達成することはできません。
この論文では、次のことから着想を得たタイポグラフィベースのセマンティック転送攻撃 (TSTA) を提案します。(1) MLLM はセマンティックレベルの情報を処理する傾向があります。
(2) タイポグラフィック攻撃は、MLLM が取得した視覚情報の注意を効果的にそらす可能性があります。
有害な単語の挿入や重要な情報の保護のシナリオにおいて、当社の TSTA は優れたパフォーマンスを発揮します。

要約(オリジナル)

Following the advent of the Artificial Intelligence (AI) era of large models, Multimodal Large Language Models (MLLMs) with the ability to understand cross-modal interactions between vision and text have attracted wide attention. Adversarial examples with human-imperceptible perturbation are shown to possess a characteristic known as transferability, which means that a perturbation generated by one model could also mislead another different model. Augmenting the diversity in input data is one of the most significant methods for enhancing adversarial transferability. This method has been certified as a way to significantly enlarge the threat impact under black-box conditions. Research works also demonstrate that MLLMs can be exploited to generate adversarial examples in the white-box scenario. However, the adversarial transferability of such perturbations is quite limited, failing to achieve effective black-box attacks across different models. In this paper, we propose the Typographic-based Semantic Transfer Attack (TSTA), which is inspired by: (1) MLLMs tend to process semantic-level information; (2) Typographic Attack could effectively distract the visual information captured by MLLMs. In the scenarios of Harmful Word Insertion and Important Information Protection, our TSTA demonstrates superior performance.

arxiv情報

著者 Hao Cheng,Erjia Xiao,Jiahang Cao,Le Yang,Kaidi Xu,Jindong Gu,Renjing Xu
発行日 2024-05-30 14:27:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク