要約
ディープ ニューラル ネットワークは、敵対的な例、つまり、モデルが高い信頼度で誤った予測を行う原因となる可能性のある慎重に作成された入力サンプルに対して脆弱です。
これらの脆弱性を軽減するために、事前にモデルを強化するための敵対的トレーニングと検出ベースの防御が提案されています。
しかし、これらのアプローチのほとんどは、単一のデータ モダリティに焦点を当てており、視覚的なパターンと入力のテキストによる説明の間の関係を見落としています。
この論文では、これらの防御をマルチモーダル情報と組み合わせて補完し、その堅牢性をさらに強化するように設計された新しい防御であるマルチシールドを提案します。
Multi-Shield は、マルチモーダル大規模言語モデルを活用して敵対的な例を検出し、入力のテキスト表現と視覚的表現が一致していない場合に不確実な分類を回避します。
堅牢な画像分類モデルと非堅牢な画像分類モデルを使用した CIFAR-10 および ImageNet データセットの広範な評価により、Multi-Shield を簡単に統合して敵対的な例を検出および拒否し、元の防御を上回るパフォーマンスを発揮できることが実証されました。
要約(オリジナル)
Deep Neural Networks are vulnerable to adversarial examples, i.e., carefully crafted input samples that can cause models to make incorrect predictions with high confidence. To mitigate these vulnerabilities, adversarial training and detection-based defenses have been proposed to strengthen models in advance. However, most of these approaches focus on a single data modality, overlooking the relationships between visual patterns and textual descriptions of the input. In this paper, we propose a novel defense, Multi-Shield, designed to combine and complement these defenses with multi-modal information to further enhance their robustness. Multi-Shield leverages multi-modal large language models to detect adversarial examples and abstain from uncertain classifications when there is no alignment between textual and visual representations of the input. Extensive evaluations on CIFAR-10 and ImageNet datasets, using robust and non-robust image classification models, demonstrate that Multi-Shield can be easily integrated to detect and reject adversarial examples, outperforming the original defenses.
arxiv情報
著者 | Francesco Villani,Igor Maljkovic,Dario Lazzaro,Angelo Sotgiu,Antonio Emanuele Cinà,Fabio Roli |
発行日 | 2024-12-13 18:49:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google