Language-Driven Anchors for Zero-Shot Adversarial Robustness

要約

タイトル:ゼロショットの敵対的な堅牢性のための言語駆動型アンカー

要約:

– 深層ニューラルネットワークは、敵対的攻撃に対して脆弱であることが知られています。

– この論文では、難解なゼロショット画像分類設定における敵対的堅牢性を改善することに焦点を当てています。

– この問題に対処するために、言語駆動型アンカーに基づく敵対的トレーニング戦略であるLAATを提案しています。

– LAATは、各カテゴリの固定アンカー(正規化された特徴ベクトル)を生成するためにテキストエンコーダを使用し、そのアンカーを敵対的トレーニングに使用します。

– テキストエンコーダの意味的な一貫性を活用することで、LAATは追加の例なしに新しいカテゴリにおける画像モデルの敵対的な堅牢性を向上させることができます。

– LAATには、最近のテキストエンコーダの大きなコサイン類似性の問題を特定し、それを解決するためのいくつかの有効な技術を設計しています。

– 実験の結果、LAATは、従来の最先端の敵対的堅牢なワンショット手法を上回るゼロショット敵対的パフォーマンスを大幅に改善します。

– さらに、ImageNet-1Kなどの大規模なデータセットでモデルをトレーニングしていても、いくつかの下流データセットに適用すると、我々の方法は重要なゼロショット敵対的堅牢性を生み出します。

要約(オリジナル)

Deep neural networks are known to be susceptible to adversarial attacks. In this work, we focus on improving adversarial robustness in the challenging zero-shot image classification setting. To address this issue, we propose LAAT, a novel Language-driven, Anchor-based Adversarial Training strategy. LAAT utilizes a text encoder to generate fixed anchors (normalized feature embeddings) for each category and then uses these anchors for adversarial training. By leveraging the semantic consistency of the text encoders, LAAT can enhance the adversarial robustness of the image model on novel categories without additional examples. We identify the large cosine similarity problem of recent text encoders and design several effective techniques to address it. The experimental results demonstrate that LAAT significantly improves zero-shot adversarial performance, outperforming previous state-of-the-art adversarially robust one-shot methods. Moreover, our method produces substantial zero-shot adversarial robustness when models are trained on large datasets such as ImageNet-1K and applied to several downstream datasets.

arxiv情報

著者 Xiao Li,Wei Zhang,Yining Liu,Zhanhao Hu,Bo Zhang,Xiaolin Hu
発行日 2023-04-10 18:03:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク