Position Labels for Self-Supervised Vision Transformer

要約

位置エンコーディングは、ビジョントランスフォーマー(ViT)が入力画像の空間構造をキャプチャするために重要です。
一般的な有効性はViTで証明されています。
私たちの仕事では、入力画像のパッチの2D位置エンコーディングを認識するようにViTをトレーニングすることを提案します。この明らかに単純なタスクは、実際には意味のある自己監視タスクを生成します。
ViT位置エンコーディングに関する以前の作業に基づいて、絶対位置と相対位置を含む2D画像専用の2つの位置ラベルを提案します。
当社の位置ラベルは、現在のさまざまなViTバリアントと組み合わせて、変圧器に簡単に接続できます。
これは2つの方法で機能します。1。モデルのパフォーマンスを向上させるためのバニラViT(ViT-BやSwin-Bなど)の補助トレーニングターゲットとして。
2.自己監視型ViT(MAEなど)を組み合わせて、意味的特徴学習のためのより強力な自己監視型信号を提供します。
実験は、提案された自己監視方式のみにより、Swin-BとViT-BがMini-ImageNetでそれぞれ1.9%(top-1 Acc)と5.6%(top-1 Acc)の改善を達成したことを示しています。

要約(オリジナル)

Position encoding is important for vision transformer (ViT) to capture the spatial structure of the input image. General efficacy has been proven in ViT. In our work we propose to train ViT to recognize the 2D position encoding of patches of the input image, this apparently simple task actually yields a meaningful self-supervisory task. Based on previous work on ViT position encoding, we propose two position labels dedicated to 2D images including absolute position and relative position. Our position labels can be easily plugged into transformer, combined with the various current ViT variants. It can work in two ways: 1.As an auxiliary training target for vanilla ViT (e.g., ViT-B and Swin-B) to improve model performance. 2. Combine the self-supervised ViT (e.g., MAE) to provide a more powerful self-supervised signal for semantic feature learning. Experiments demonstrate that solely due to the proposed self-supervised methods, Swin-B and ViT-B obtained improvements of 1.9% (top-1 Acc) and 5.6% (top-1 Acc) on Mini-ImageNet, respectively.

arxiv情報

著者 Zhemin Zhang,Xun Gong,Jinyi Wu
発行日 2022-06-10 10:29:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク