Exploring Plain Vision Transformer Backbones for Object Detection

要約

オブジェクト検出のバックボーンネットワークとして、プレーンな非階層型Vision Transformer(ViT)を検討します。
この設計により、事前トレーニング用の階層バックボーンを再設計することなく、元のViTアーキテクチャをオブジェクト検出用に微調整できます。
微調整のための最小限の適応で、私たちのプレーンバックボーン検出器は競争力のある結果を達成することができます。
驚いたことに、次のことがわかります。(i)単一スケールの特徴マップ(一般的なFPN設計なし)から単純な特徴ピラミッドを構築するだけで十分であり、(ii)ごくわずかな支援でウィンドウアテンション(シフトなし)を使用するだけで十分です。
クロスウィンドウ伝播ブロック。
Masked Autoencoders(MAE)として事前トレーニングされたプレーンViTバックボーンを使用すると、ViTDetという名前の検出器は、すべて階層バックボーンに基づいていた以前の主要な方法と競合でき、ImageNet-1Kpr​​eのみを使用してCOCOデータセットで最大61.3AP_boxに到達します。
-トレーニング。
私たちの研究がプレーンバックボーン検出器の研究に注目を集めることを願っています。
ViTDetのコードはDetectron2で利用できます。

要約(オリジナル)

We explore the plain, non-hierarchical Vision Transformer (ViT) as a backbone network for object detection. This design enables the original ViT architecture to be fine-tuned for object detection without needing to redesign a hierarchical backbone for pre-training. With minimal adaptations for fine-tuning, our plain-backbone detector can achieve competitive results. Surprisingly, we observe: (i) it is sufficient to build a simple feature pyramid from a single-scale feature map (without the common FPN design) and (ii) it is sufficient to use window attention (without shifting) aided with very few cross-window propagation blocks. With plain ViT backbones pre-trained as Masked Autoencoders (MAE), our detector, named ViTDet, can compete with the previous leading methods that were all based on hierarchical backbones, reaching up to 61.3 AP_box on the COCO dataset using only ImageNet-1K pre-training. We hope our study will draw attention to research on plain-backbone detectors. Code for ViTDet is available in Detectron2.

arxiv情報

著者 Yanghao Li,Hanzi Mao,Ross Girshick,Kaiming He
発行日 2022-06-10 16:57:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク