要約
DETR は、画像の特徴に基づいて複数のオブジェクト候補を繰り返し生成し、グラウンド トゥルース オブジェクトごとに 1 つの候補を昇格することで、エンドツーエンドのオブジェクト検出を実現します。
オリジナルの DETR で 1 対 1 の監視を使用する従来のトレーニング手順には、物体検出候補に対する直接の監視がありません。
1対1監視と1対多監視を混在させて候補生成手順を明示的に監視することで、DETR学習効率の向上を目指します。
私たちのアプローチ、つまり MS-DETR はシンプルで、推論に使用されるプライマリ デコーダのオブジェクト クエリに 1 対多の監視を配置します。
グループ DETR やハイブリッド DETR など、1 対多の監視を備えた既存の DETR バリアントと比較して、私たちのアプローチは追加のデコーダ ブランチやオブジェクト クエリを必要としません。
私たちのアプローチにおけるプライマリ デコーダのオブジェクト クエリは、1 対多の監視から直接恩恵を受けるため、オブジェクト候補の予測において優れています。
実験結果は、私たちのアプローチが DN-DETR、ハイブリッド DETR、グループ DETR などの関連する DETR バリアントよりも優れたパフォーマンスを示し、関連する DETR バリアントと組み合わせることでパフォーマンスがさらに向上することを示しています。
要約(オリジナル)
DETR accomplishes end-to-end object detection through iteratively generating multiple object candidates based on image features and promoting one candidate for each ground-truth object. The traditional training procedure using one-to-one supervision in the original DETR lacks direct supervision for the object detection candidates. We aim at improving the DETR training efficiency by explicitly supervising the candidate generation procedure through mixing one-to-one supervision and one-to-many supervision. Our approach, namely MS-DETR, is simple, and places one-to-many supervision to the object queries of the primary decoder that is used for inference. In comparison to existing DETR variants with one-to-many supervision, such as Group DETR and Hybrid DETR, our approach does not need additional decoder branches or object queries. The object queries of the primary decoder in our approach directly benefit from one-to-many supervision and thus are superior in object candidate prediction. Experimental results show that our approach outperforms related DETR variants, such as DN-DETR, Hybrid DETR, and Group DETR, and the combination with related DETR variants further improves the performance.
arxiv情報
著者 | Chuyang Zhao,Yifan Sun,Wenhao Wang,Qiang Chen,Errui Ding,Yi Yang,Jingdong Wang |
発行日 | 2024-01-08 16:08:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google