要約
近年、2ステージDeformable DETRは、Faster R-CNNとして古典的な検出器のリージョンベース2ステージヘッドとは異なる新しいタイプの2ステージヘッドであるクエリベース2ステージヘッドを導入した。クエリベース2ステージヘッドでは、リージョンベース検出器のように矩形格子の特徴をプールするのではなく、第2ステージはクエリと呼ばれる検出ごとに1つの特徴を選択する。本研究では、Deformable DETRのクエリベースヘッドをさらに改良し、性能を向上させながら収束を大幅に高速化させる。これは、アンカー生成などの古典的な技術をクエリベースのパラダイム内に取り込むことで達成される。古典的手法とクエリベース手法の両方の長所を組み合わせることで、ResNet-50+TPNバックボーンを用いた場合、1xスケジュールで12エポックの学習を行った後、我々のFQDetヘッドは2017年COCO検証セットで45.4APのピークを記録しました。同じバックボーンを使いながら、カスケードR-CNNなど他の高性能な2ステージヘッドを凌駕し、計算量も少なくなっていることが多い。さらに、大規模なResNeXt-101-DCN+TPNバックボーンとマルチスケールテストを使用した場合、我々のFQDetヘッドはわずか12エポックの学習後に2017 COCOテスト-devセットで52.9 APを達成しました。コードを公開する予定です。
要約(オリジナル)
Recently, two-stage Deformable DETR introduced the query-based two-stage head, a new type of two-stage head different from the region-based two-stage heads of classical detectors as Faster R-CNN. In query-based two-stage heads, the second stage selects one feature per detection, called the query, as opposed to pooling a rectangular grid of features as in region-based detectors. In this work, we further improve the query-based head from Deformable DETR, significantly speeding up the convergence while increasing its performance. This is achieved by incorporating classical techniques such as anchor generation within the query-based paradigm. By combining the best of both the classical and the query-based worlds, our FQDet head peaks at 45.4 AP on the 2017 COCO validation set when using a ResNet-50+TPN backbone, only after training for 12 epochs using the 1x schedule. We outperform other high-performing two-stage heads such as e.g. Cascade R-CNN, while using the same backbone and while often being computationally cheaper. Additionally, when using the large ResNeXt-101-DCN+TPN backbone and multi-scale testing, our FQDet head achieves 52.9 AP on the 2017 COCO test-dev set after only 12 epochs of training. Code will be released.
arxiv情報
著者 | Cédric Picron,Punarjay Chakravarty,Tinne Tuytelaars |
発行日 | 2022-10-05 15:19:34+00:00 |
arxivサイト | arxiv_id(pdf) |