要約
ディープ ニューラル ネットワークは敵対的攻撃に対して脆弱です。
敵対的防御とゼロショット学習の両方が困難であるため、めったに調査されていないゼロショット画像分類設定の場合の敵対的防御を検討します。
ゼロショット設定での敵対的ロバスト性を改善するために、新しい言語主導のアンカーベースの敵対的トレーニング戦略である LAAT を提案します。
LAAT は、テキスト エンコーダーを使用して各カテゴリの固定アンカー (正規化された特徴埋め込み) を取得し、これらのアンカーを使用して敵対的トレーニングを実行します。
テキスト エンコーダーには、意味的に類似したカテゴリを特徴空間内の隣接するアンカーにマッピングできるというプロパティがあります。
このプロパティを活用することで、LAAT は、追加の例を使用せずに、新しいカテゴリに対して画像モデルを敵対的に堅牢にすることができます。
実験結果は、私たちの方法が印象的なゼロショットの敵対的パフォーマンスを達成し、ほとんどの攻撃設定で以前の最先端の敵対的に堅牢なワンショット方法を上回っていることを示しています。
モデルが ImageNet-1K のような大規模なデータセットで LAAT を使用してトレーニングされると、いくつかのダウンストリーム データセット全体で実質的なゼロ ショットの敵対的ロバスト性を持つことができます。
要約(オリジナル)
Deep neural networks are vulnerable to adversarial attacks. We consider adversarial defense in the case of zero-shot image classification setting, which has rarely been explored because both adversarial defense and zero-shot learning are challenging. We propose LAAT, a novel Language-driven, Anchor-based Adversarial Training strategy, to improve the adversarial robustness in a zero-shot setting. LAAT uses a text encoder to obtain fixed anchors (normalized feature embeddings) of each category, then uses these anchors to perform adversarial training. The text encoder has the property that semantically similar categories can be mapped to neighboring anchors in the feature space. By leveraging this property, LAAT can make the image model adversarially robust on novel categories without any extra examples. Experimental results show that our method achieves impressive zero-shot adversarial performance, even surpassing the previous state-of-the-art adversarially robust one-shot methods in most attacking settings. When models are trained with LAAT on large datasets like ImageNet-1K, they can have substantial zero-shot adversarial robustness across several downstream datasets.
arxiv情報
著者 | Xiao Li,Wei Zhang,Yining Liu,Zhanhao Hu,Bo Zhang,Xiaolin Hu |
発行日 | 2023-01-30 17:34:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google