FQDet: Fast-converging Query-based Detector

要約

最近、2 段階の変形可能 DETR は、Faster R-CNN として従来の検出器の領域ベースの 2 段階ヘッドとは異なる、新しいタイプの 2 段階ヘッドであるクエリベースの 2 段階ヘッドを導入しました。
クエリベースの 2 段階のヘッドでは、領域ベースの検出器のように CNN によって処理される特徴の長方形のグリッドをプールするのとは対照的に、第 2 段階では、変換器によって処理される検出ごとに 1 つの特徴 (クエリと呼ばれます) が選択されます。
この作業では、アンカーを使用したクロスアテンション操作の事前確率を改善することにより、クエリベースのヘッドを改善し、パフォーマンスを向上させながら収束を大幅に高速化します。
さらに、事前のクロスアテンションを改善することにより、DETRベースの検出器で通常使用される補助損失と反復バウンディングボックスメカニズムが不要になることを経験的に示しています。
従来の検出器と DETR ベースの検出器の両方の長所を組み合わせることで、1x スケジュールを使用して 12 エポックのトレーニングを行った後でのみ、ResNet-50+TPN バックボーンを使用した場合に、FQDet ヘッドが 2017 COCO 検証セットで 45.4 AP でピークに達しました。
他の高性能 2 ステージ ヘッドよりも優れています。
R-CNN をカスケードし、同じバックボーンを使用し、計算コストを抑えます。
さらに、大規模な ResNeXt-101-DCN+TPN バックボーンとマルチスケール テストを使用すると、当社の FQDet ヘッドは、わずか 12 エポックのトレーニングの後、2017 COCO テスト開発セットで 52.9 AP を達成します。
コードは https://github.com/CedricPicron/FQDet で公開されています。

要約(オリジナル)

Recently, two-stage Deformable DETR introduced the query-based two-stage head, a new type of two-stage head different from the region-based two-stage heads of classical detectors as Faster R-CNN. In query-based two-stage heads, the second stage selects one feature per detection processed by a transformer, called the query, as opposed to pooling a rectangular grid of features processed by CNNs as in region-based detectors. In this work, we improve the query-based head by improving the prior of the cross-attention operation with anchors, significantly speeding up the convergence while increasing its performance. Additionally, we empirically show that by improving the cross-attention prior, auxiliary losses and iterative bounding box mechanisms typically used by DETR-based detectors are no longer needed. By combining the best of both the classical and the DETR-based detectors, our FQDet head peaks at 45.4 AP on the 2017 COCO validation set when using a ResNet-50+TPN backbone, only after training for 12 epochs using the 1x schedule. We outperform other high-performing two-stage heads such as e.g. Cascade R-CNN, while using the same backbone and while being computationally cheaper. Additionally, when using the large ResNeXt-101-DCN+TPN backbone and multi-scale testing, our FQDet head achieves 52.9 AP on the 2017 COCO test-dev set after only 12 epochs of training. Code is released at https://github.com/CedricPicron/FQDet .

arxiv情報

著者 Cédric Picron,Punarjay Chakravarty,Tinne Tuytelaars
発行日 2022-10-28 08:05:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク