AdPO: Enhancing the Adversarial Robustness of Large Vision-Language Models with Preference Optimization

要約

GPT-4OやLlavaなどの大きなビジョン言語モデル(LVLMS)は、最近顕著な進歩を目撃し、実際のアプリケーションでますます展開されています。
ただし、視覚ニューラルネットワークの感度を継承するLVLMは、誤った攻撃に対して脆弱なままであり、誤ったまたは悪意のある出力をもたらす可能性があります。
既存の努力は敵対的な微調整を利用して堅牢性を高めることができますが、彼らはしばしばきれいな入力のパフォーマンスの低下に苦しんでいます。
この論文では、好みの最適化に基づいてLVLMSの新しい敵対的な防衛戦略であるADPOを提案します。
初めて、敵対的なトレーニングを優先最適化問題として再構成し、敵対例の潜在的な誤解を招く出力を拒否しながら、クリーンな入力で通常の出力を生成するためのモデルの好みを強化することを目指しています。
特に、ADPOは、画像エンコーダー、たとえばClip VITを変更することでこれを達成し、さまざまなダウンズリームタスクで優れたクリーンで敵対的なパフォーマンスをもたらします。
トレーニングには大きな言語モデル(LLM)が含まれることを考慮すると、計算コストは​​大幅に増加します。
より小さなLVLMSでのトレーニングを検証し、その後、より大きなモデルに転送することで、ベースライン方法に匹敵する効率を維持しながら、競争力のあるパフォーマンスを達成できます。
当社の包括的な実験は、提案されたADPOの有効性を確認します。これは、将来の敵対的防衛研究のための新しい視点を提供します。

要約(オリジナル)

Large Vision-Language Models (LVLMs), such as GPT-4o and LLaVA, have recently witnessed remarkable advancements and are increasingly being deployed in real-world applications. However, inheriting the sensitivity of visual neural networks, LVLMs remain vulnerable to adversarial attacks, which can result in erroneous or malicious outputs. While existing efforts utilize adversarial fine-tuning to enhance robustness, they often suffer from performance degradation on clean inputs. In this paper, we proposes AdPO, a novel adversarial defense strategy for LVLMs based on preference optimization. For the first time, we reframe adversarial training as a preference optimization problem, aiming to enhance the model’s preference for generating normal outputs on clean inputs while rejecting the potential misleading outputs for adversarial examples. Notably, AdPO achieves this by solely modifying the image encoder, e.g., CLIP ViT, resulting in superior clean and adversarial performance in a variety of downsream tasks. Considering that training involves large language models (LLMs), the computational cost increases significantly. We validate that training on smaller LVLMs and subsequently transferring to larger models can achieve competitive performance while maintaining efficiency comparable to baseline methods. Our comprehensive experiments confirm the effectiveness of the proposed AdPO, which provides a novel perspective for future adversarial defense research.

arxiv情報

著者 Chaohu Liu,Tianyi Gui,Yu Liu,Linli Xu
発行日 2025-04-02 13:43:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク