Multi-Attribute Vision Transformers are Efficient and Robust Learners

要約

ビジョン トランスフォーマー (ViT) は、その誕生以来、幅広いタスクにわたって畳み込みニューラル ネットワーク (CNN) に代わる魅力的な代替手段として登場してきました。
ViT は、世界的な注目、閉塞に対する回復力、分布の変化への適応性など、注目すべき特性を示します。
ViT の十分に解明されていない側面の 1 つは、複数の属性に関連するタスクを同時に把握する能力を指す、多属性学習の可能性です。
この論文では、ViT の複数属性の学習機能を詳しく掘り下げ、単一の ViT ネットワークを通じてさまざまな属性を別個のタスクとしてトレーニングするための単純かつ効果的な戦略を示します。
敵対的な攻撃に対する複数属性の ViT の回復力を評価し、そのパフォーマンスを単一属性用に設計された ViT と比較します。
さらに、パッチフールと呼ばれる最近のトランスフォーマーベースの攻撃に対する多属性 ViT の堅牢性をさらに評価します。
CelebA データセットに関する私たちの経験的発見は、私たちの主張の検証を提供します。
私たちのコードは https://github.com/hananshafi/MTL-ViT で入手できます。

要約(オリジナル)

Since their inception, Vision Transformers (ViTs) have emerged as a compelling alternative to Convolutional Neural Networks (CNNs) across a wide spectrum of tasks. ViTs exhibit notable characteristics, including global attention, resilience against occlusions, and adaptability to distribution shifts. One underexplored aspect of ViTs is their potential for multi-attribute learning, referring to their ability to simultaneously grasp multiple attribute-related tasks. In this paper, we delve into the multi-attribute learning capability of ViTs, presenting a straightforward yet effective strategy for training various attributes through a single ViT network as distinct tasks. We assess the resilience of multi-attribute ViTs against adversarial attacks and compare their performance against ViTs designed for single attributes. Moreover, we further evaluate the robustness of multi-attribute ViTs against a recent transformer based attack called Patch-Fool. Our empirical findings on the CelebA dataset provide validation for our assertion. Our code is available at https://github.com/hananshafi/MTL-ViT

arxiv情報

著者 Hanan Gani,Nada Saadi,Noor Hussein,Karthik Nandakumar
発行日 2024-07-19 16:51:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク