要約
オープンソースの大型ビジョン言語モデル(LVLMS)での有望なパフォーマンスにもかかわらず、トランスファーベースのターゲット攻撃は、ブラックボックスの商用LVLMに対してしばしば失敗することがよくあります。
失敗した敵対的な摂動を分析すると、学習した摂動は通常、均一な分布に由来し、明確なセマンティックの詳細が欠けており、意図しない反応をもたらすことが明らかになりました。
セマンティック情報のこの重大な欠如により、商用LVLMは摂動を完全に無視するか、埋め込まれたセマンティクスを誤って解釈し、それにより攻撃が失敗します。
これらの問題を克服するために、コアセマンティックオブジェクトを特定することが、さまざまなデータセットや方法論でトレーニングされたモデルにとって重要な目的であることに気付きます。
この洞察は、ローカル地域内の明示的なセマンティックの詳細をエンコードし、相互運用性を確保し、より細かい特徴をキャプチャし、均一に適用するのではなく、意味的に豊富な領域に集中することにより、セマンティックの明確さを改善するアプローチを動機付けます。
これを達成するために、シンプルでありながら非常に効果的なソリューションを提案します。各最適化ステップで、敵対的な画像は制御されたアスペクト比とスケールによってランダムにトリミングされ、サイズ変更され、埋め込み空間のターゲット画像と整列します。
実験結果は私たちの仮説を確認します。
重要な領域に焦点を当てた局所凝集摂動で作られた敵対的な例は、GPT-4.5、GPT-4O、GEMINI-2.0-FLASH、CLAUDE-3.5-SONNET、CLAUDE-3.7-SONNET、さらにはO1、Claude-3.7-thinkinkのような推論モデルなど、市販のLVLMSへの驚くほど良好な移動性を示します。
gemini-2.0-flash-hinking。
私たちのアプローチは、GPT-4.5、4o、およびO1で90%を超える成功率を達成し、以前のすべての最先端の攻撃方法を大幅に上回ります。
さまざまな構成とトレーニングコードの下で最適化された敵対例は、https://github.com/vila-lab/m- attackで入手できます。
要約(オリジナル)
Despite promising performance on open-source large vision-language models (LVLMs), transfer-based targeted attacks often fail against black-box commercial LVLMs. Analyzing failed adversarial perturbations reveals that the learned perturbations typically originate from a uniform distribution and lack clear semantic details, resulting in unintended responses. This critical absence of semantic information leads commercial LVLMs to either ignore the perturbation entirely or misinterpret its embedded semantics, thereby causing the attack to fail. To overcome these issues, we notice that identifying core semantic objects is a key objective for models trained with various datasets and methodologies. This insight motivates our approach that refines semantic clarity by encoding explicit semantic details within local regions, thus ensuring interoperability and capturing finer-grained features, and by concentrating modifications on semantically rich areas rather than applying them uniformly. To achieve this, we propose a simple yet highly effective solution: at each optimization step, the adversarial image is cropped randomly by a controlled aspect ratio and scale, resized, and then aligned with the target image in the embedding space. Experimental results confirm our hypothesis. Our adversarial examples crafted with local-aggregated perturbations focused on crucial regions exhibit surprisingly good transferability to commercial LVLMs, including GPT-4.5, GPT-4o, Gemini-2.0-flash, Claude-3.5-sonnet, Claude-3.7-sonnet, and even reasoning models like o1, Claude-3.7-thinking and Gemini-2.0-flash-thinking. Our approach achieves success rates exceeding 90% on GPT-4.5, 4o, and o1, significantly outperforming all prior state-of-the-art attack methods. Our optimized adversarial examples under different configurations and training code are available at https://github.com/VILA-Lab/M-Attack.
arxiv情報
著者 | Zhaoyi Li,Xiaohan Zhao,Dong-Dong Wu,Jiacheng Cui,Zhiqiang Shen |
発行日 | 2025-03-13 17:59:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google