Rank-DETR for High Quality Object Detection

要約

最新の検出トランスフォーマー (DETR) は、一連のオブジェクト クエリを使用して境界ボックスのリストを予測し、それらを分類信頼スコアで並べ替えて、指定された入力画像の最終的な検出結果として上位の予測を選択します。
高性能のオブジェクト検出器には、境界ボックス予測の正確なランク付けが必要です。
DETR ベースの検出器の場合、分類スコアと位置特定精度の間の不整合により、上位にランクされた境界ボックスの位置特定品質が低精度になるため、高品質の検出器の構築が妨げられます。
この研究では、Rank-DETR と総称される一連のランク指向の設計を提案することにより、シンプルで高性能な DETR ベースの物体検出器を紹介します。
当社の主な貢献には、(i) 肯定的な予測を促し、否定的な予測を抑制して誤検知率を確実に下げることができるランク指向のアーキテクチャ設計、および (ii) 予測を優先するランク指向の損失関数とマッチング コストの設計が含まれます。
高い IoU しきい値の下で AP を向上させるため、ランキング中に位置特定精度がより正確になります。
私たちの手法を適用して、最近の SOTA 手法 (H-DETR や DINO-DETR など) を改善し、ResNet-$50$、Swin-T、Swin-L などのさまざまなバックボーンを使用した場合の強力な COCO オブジェクト検出結果を報告します。
私たちのアプローチの有効性。
コードは \url{https://github.com/LeapLabTHU/Rank-DETR} で入手できます。

要約(オリジナル)

Modern detection transformers (DETRs) use a set of object queries to predict a list of bounding boxes, sort them by their classification confidence scores, and select the top-ranked predictions as the final detection results for the given input image. A highly performant object detector requires accurate ranking for the bounding box predictions. For DETR-based detectors, the top-ranked bounding boxes suffer from less accurate localization quality due to the misalignment between classification scores and localization accuracy, thus impeding the construction of high-quality detectors. In this work, we introduce a simple and highly performant DETR-based object detector by proposing a series of rank-oriented designs, combinedly called Rank-DETR. Our key contributions include: (i) a rank-oriented architecture design that can prompt positive predictions and suppress the negative ones to ensure lower false positive rates, as well as (ii) a rank-oriented loss function and matching cost design that prioritizes predictions of more accurate localization accuracy during ranking to boost the AP under high IoU thresholds. We apply our method to improve the recent SOTA methods (e.g., H-DETR and DINO-DETR) and report strong COCO object detection results when using different backbones such as ResNet-$50$, Swin-T, and Swin-L, demonstrating the effectiveness of our approach. Code is available at \url{https://github.com/LeapLabTHU/Rank-DETR}.

arxiv情報

著者 Yifan Pu,Weicong Liang,Yiduo Hao,Yuhui Yuan,Yukang Yang,Chao Zhang,Han Hu,Gao Huang
発行日 2023-10-19 10:32:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク