Robust image classification with multi-modal large language models

要約

深いニューラルネットワークは、敵対的な例に対して脆弱です。つまり、モデルに自信を持って誤った予測を行うことができる慎重に作成された入力サンプルがあります。
これらの脆弱性を緩和するために、事前にモデルを強化するために、敵対的な訓練と検出に基づく防御が提案されています。
ただし、これらのアプローチのほとんどは、視覚パターンと入力のテキストの説明との関係を見落とす単一のデータモダリティに焦点を当てています。
この論文では、これらの防御をマルチモーダル情報と組み合わせて補完し、堅牢性をさらに高めるように設計された新しい防御を提案します。
MultiShieldは、マルチモーダルの大手言語モデルを活用して、敵対的な例を検出し、入力のテキスト表現と視覚表現の間に整合性がない場合に不確実な分類を控えます。
CIFAR-10およびImagenet Datasetの広範な評価は、堅牢で非堅牢な画像分類モデルを使用して、MultiShieldを簡単に統合して敵対的な例を検出および拒否し、元の防御を上回ることができることを示しています。

要約(オリジナル)

Deep Neural Networks are vulnerable to adversarial examples, i.e., carefully crafted input samples that can cause models to make incorrect predictions with high confidence. To mitigate these vulnerabilities, adversarial training and detection-based defenses have been proposed to strengthen models in advance. However, most of these approaches focus on a single data modality, overlooking the relationships between visual patterns and textual descriptions of the input. In this paper, we propose a novel defense, MultiShield, designed to combine and complement these defenses with multi-modal information to further enhance their robustness. MultiShield leverages multi-modal large language models to detect adversarial examples and abstain from uncertain classifications when there is no alignment between textual and visual representations of the input. Extensive evaluations on CIFAR-10 and ImageNet datasets, using robust and non-robust image classification models, demonstrate that MultiShield can be easily integrated to detect and reject adversarial examples, outperforming the original defenses.

arxiv情報

著者 Francesco Villani,Igor Maljkovic,Dario Lazzaro,Angelo Sotgiu,Antonio Emanuele Cinà,Fabio Roli
発行日 2025-04-18 13:02:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.LG パーマリンク