要約
多くの下流タスクの解決には非常に成功していますが、ディープ ニューラル ネットワークは一般的な破損や敵対的攻撃などのドメイン シフトの影響を受けやすいため、現実のシナリオでの適用は制限されています。
敵対的な例やデータ破損が存在すると、深層分類モデルのパフォーマンスが大幅に低下します。
研究者たちは、深層分類器の決定を強化するための堅牢なニューラル アーキテクチャの開発で進歩を遂げました。
ただし、これらの研究のほとんどは効果的な敵対的トレーニング方法に依存しており、重要な堅牢性におけるクラスごとの違いを無視して、主にモデル全体の堅牢性に重点を置いています。
堅牢性の低いクラスを悪用すると、攻撃者が画像認識モデルを欺く可能性があります。
したがって、この研究では、敵対的にトレーニングされた堅牢な分類モデル全体にわたるクラス間のバイアスを調査し、潜在空間構造を理解し、クラスごとの強い特性と弱い特性を分析します。
さらに、クラスの脆弱性が特定のクラスの正しい分類の数を超えて広がることを認識し、一般的な破損や敵対的攻撃に対するクラスの堅牢性を評価します。
特定のターゲット クラスとしてのクラスの誤検知の数が、攻撃に対する脆弱性に大きな影響を与えることがわかりました。
クラス誤検知スコアの分析を通じて、各クラスが誤分類の影響をどの程度受けやすいかを公正に評価します。
要約(オリジナル)
While being very successful in solving many downstream tasks, the application of deep neural networks is limited in real-life scenarios because of their susceptibility to domain shifts such as common corruptions, and adversarial attacks. The existence of adversarial examples and data corruption significantly reduces the performance of deep classification models. Researchers have made strides in developing robust neural architectures to bolster decisions of deep classifiers. However, most of these works rely on effective adversarial training methods, and predominantly focus on overall model robustness, disregarding class-wise differences in robustness, which are critical. Exploiting weakly robust classes is a potential avenue for attackers to fool the image recognition models. Therefore, this study investigates class-to-class biases across adversarially trained robust classification models to understand their latent space structures and analyze their strong and weak class-wise properties. We further assess the robustness of classes against common corruptions and adversarial attacks, recognizing that class vulnerability extends beyond the number of correct classifications for a specific class. We find that the number of false positives of classes as specific target classes significantly impacts their vulnerability to attacks. Through our analysis on the Class False Positive Score, we assess a fair evaluation of how susceptible each class is to misclassification.
arxiv情報
著者 | Tejaswini Medi,Julia Grabinski,Margret Keuper |
発行日 | 2024-11-29 17:09:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google