要約
畳み込みネットワーク(CNN)の自己監視による表現の学習は、視覚タスクに効果的であることが証明されています。
CNNの代替として、ビジョントランスフォーマー(ViT)は、ピクセルレベルの自己注意およびチャネルレベルのフィードフォワードネットワークで強力な表現能力を発揮します。
最近の研究は、自己管理学習がViTの大きな可能性を解き放つのに役立つことを明らかにしています。
それでも、ほとんどの作品は、サンプルのインスタンスレベルの識別など、CNN用に設計された自己監視戦略に従いますが、ViTの固有のプロパティを無視します。
ピクセルとチャネル間のモデリング関係により、ViTが他のネットワークと区別されることがわかります。
このプロパティを適用するために、自己監視型ViTをトレーニングするための機能の自己関係を調べます。
具体的には、複数のビューからの機能の埋め込みのみで自己監視学習を実行する代わりに、機能の自己関係、つまりピクセル/チャネルレベルの自己関係を自己監視学習に利用します。
自己関係ベースの学習は、ViTの関係モデリング機能をさらに強化し、複数のダウンストリームタスクのパフォーマンスを安定して向上させる強力な表現をもたらします。
ソースコードは公開されます。
要約(オリジナル)
Learning representations with self-supervision for convolutional networks (CNN) has proven effective for vision tasks. As an alternative for CNN, vision transformers (ViTs) emerge strong representation ability with the pixel-level self-attention and channel-level feed-forward networks. Recent works reveal that self-supervised learning helps unleash the great potential of ViTs. Still, most works follow self-supervised strategy designed for CNNs, e.g., instance-level discrimination of samples, but they ignore the unique properties of ViTs. We observe that modeling relations among pixels and channels distinguishes ViTs from other networks. To enforce this property, we explore the feature self-relations for training self-supervised ViTs. Specifically, instead of conducting self-supervised learning solely on feature embeddings from multiple views, we utilize the feature self-relations, i.e., pixel/channel-level self-relations, for self-supervised learning. Self-relation based learning further enhance the relation modeling ability of ViTs, resulting in strong representations that stably improve performance on multiple downstream tasks. Our source code will be made publicly available.
arxiv情報
著者 | Zhong-Yu Li,Shanghua Gao,Ming-Ming Cheng |
発行日 | 2022-06-10 15:25:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google