DETR Doesn’t Need Multi-Scale or Locality Design

要約

本論文では、マルチスケールと局所性というアーキテクチャ上の帰納的バイアスをデコーダに再導入するこれまでの代表的なDETRに基づく検出器とは対照的に、局所性制約のない単一スケールの特徴マップと大域的な交差注意計算を用いるという、「プレーン」な性質を維持した改良型DETR検出器を紹介する。我々は、マルチスケール特徴マップと局所性制約の欠如を補うために、2つの単純な技術が単純な設計の中で驚くほど効果的であることを示す。1つ目は、クロスアテンション定式化に追加されるボックス-ピクセル相対位置バイアス(BoxRPB)項であり、各クエリが対応する物体領域にアテンションするようにうまく誘導すると同時に、エンコーディングの柔軟性を提供する。もう一つは、マスク画像モデリング(MIM)に基づくバックボーン事前学習である。これは、きめ細かな定位能力を持つ表現を学習するのに役立ち、マルチスケール特徴マップの依存性を改善するのに重要である。これらの技術と、訓練と問題形成における最近の進歩を取り入れることで、改良された「プレーン」DETRは、オリジナルのDETR検出器よりも優れた改善を示しました。事前学習にObject365データセットを活用することで、Swin-Lバックボーンを用いて63.9mAPの精度を達成し、マルチスケール特徴マップと領域ベースの特徴抽出に大きく依存する最先端の検出器と高い競争力を示した。コードは https://github.com/impiga/Plain-DETR にあります。

要約(オリジナル)

This paper presents an improved DETR detector that maintains a ‘plain’ nature: using a single-scale feature map and global cross-attention calculations without specific locality constraints, in contrast to previous leading DETR-based detectors that reintroduce architectural inductive biases of multi-scale and locality into the decoder. We show that two simple technologies are surprisingly effective within a plain design to compensate for the lack of multi-scale feature maps and locality constraints. The first is a box-to-pixel relative position bias (BoxRPB) term added to the cross-attention formulation, which well guides each query to attend to the corresponding object region while also providing encoding flexibility. The second is masked image modeling (MIM)-based backbone pre-training which helps learn representation with fine-grained localization ability and proves crucial for remedying dependencies on the multi-scale feature maps. By incorporating these technologies and recent advancements in training and problem formation, the improved ‘plain’ DETR showed exceptional improvements over the original DETR detector. By leveraging the Object365 dataset for pre-training, it achieved 63.9 mAP accuracy using a Swin-L backbone, which is highly competitive with state-of-the-art detectors which all heavily rely on multi-scale feature maps and region-based feature extraction. Code is available at https://github.com/impiga/Plain-DETR .

arxiv情報

著者 Yutong Lin,Yuhui Yuan,Zheng Zhang,Chen Li,Nanning Zheng,Han Hu
発行日 2023-08-03 17:59:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク