NMS Strikes Back

要約

検出トランスフォーマー (DETR) は、トレーニング中に 1 対 1 の 2 部マッチングを使用してクエリを一意のオブジェクトに直接変換し、エンド ツー エンドのオブジェクト検出を可能にします。
最近、これらのモデルは、紛れもないエレガントさで、COCO の従来の検出器を凌駕しています。
ただし、モデル アーキテクチャやトレーニング スケジュールなど、複数の設計において従来の検出器とは異なるため、1 対 1 のマッチングの有効性は完全には理解されていません。
この作業では、DETR での 1 対 1 のハンガリー語マッチングと、非最大監視 (NMS) を使用する従来の検出器での 1 対多のラベル割り当てとの間で厳密な比較を行います。
驚くべきことに、NMS を使用した 1 対多の割り当ては、同じ設定で標準的な 1 対 1 のマッチングよりも一貫して優れており、最大 2.5 mAP の大幅な向上が見られます。
従来の IoU ベースのラベル割り当てで Deformable-DETR をトレーニングする当社の検出器は、ResNet50 バックボーンを使用して 12 エポック (1x スケジュール) 内で 50.2 COCO mAP を達成し、この設定で既存のすべての従来型または変換器ベースの検出器よりも優れています。
複数のデータセット、スケジュール、およびアーキテクチャで、パフォーマンスの高い検出トランスフォーマーには 2 部マッチングが不要であることを一貫して示しています。
さらに、検出トランスの成功は、その表現力豊かなトランス アーキテクチャに起因すると考えています。
コードは https://github.com/jozhang97/DETA で入手できます。

要約(オリジナル)

Detection Transformer (DETR) directly transforms queries to unique objects by using one-to-one bipartite matching during training and enables end-to-end object detection. Recently, these models have surpassed traditional detectors on COCO with undeniable elegance. However, they differ from traditional detectors in multiple designs, including model architecture and training schedules, and thus the effectiveness of one-to-one matching is not fully understood. In this work, we conduct a strict comparison between the one-to-one Hungarian matching in DETRs and the one-to-many label assignments in traditional detectors with non-maximum supervision (NMS). Surprisingly, we observe one-to-many assignments with NMS consistently outperform standard one-to-one matching under the same setting, with a significant gain of up to 2.5 mAP. Our detector that trains Deformable-DETR with traditional IoU-based label assignment achieved 50.2 COCO mAP within 12 epochs (1x schedule) with ResNet50 backbone, outperforming all existing traditional or transformer-based detectors in this setting. On multiple datasets, schedules, and architectures, we consistently show bipartite matching is unnecessary for performant detection transformers. Furthermore, we attribute the success of detection transformers to their expressive transformer architecture. Code is available at https://github.com/jozhang97/DETA.

arxiv情報

著者 Jeffrey Ouyang-Zhang,Jang Hyun Cho,Xingyi Zhou,Philipp Krähenbühl
発行日 2022-12-12 18:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク