要約
この論文では、1対1のセットマッチングを使用してDETRでポジティブサンプルとして割り当てられたクエリが少なすぎると、エンコーダーの出力に対する監視がまばらになり、エンコーダーの識別機能学習と注意学習の副ビザが大幅に損なわれるという観察結果を提供します
デコーダーで。
これを軽減するために、新しい共同ハイブリッド割り当てトレーニング スキーム、つまり Co-DETR を提示して、汎用性の高いラベル割り当て方法からより効率的で効果的な DETR ベースの検出器を学習します。
この新しいトレーニング スキームは、ATSS、FCOS、Faster RCNN などの 1 対多のラベル割り当てによって監視される複数の並列補助ヘッドをトレーニングすることにより、エンドツーエンド検出器でのエンコーダーの学習能力を簡単に強化できます。
さらに、これらの補助ヘッドから正の座標を抽出して、デコーダーでの正のサンプルのトレーニング効率を向上させることにより、追加のカスタマイズされた正のクエリを実行します。
推論では、これらの補助ヘッドは破棄されるため、独自の非最大抑制 (NMS) を必要とせずに、追加のパラメーターや計算コストを元の検出器に導入することはありません。
DAB-DETR、Deformable-DETR、DINO-Deformable-DETR などの DETR バリアントに対する提案されたアプローチの有効性を評価するために、広範な実験を行います。
具体的には、基本的な Deformable-DETR を 12 エポックのトレーニングで 5.8%、36 エポックのトレーニングで 3.2% 改善します。
最先端の DINO-Deformable-DETR は、MS COCO val で 49.4% から 51.2% に改善することができます。
驚くべきことに、10 億のパラメーターを持つ大規模なバックボーン MixMIM-g を組み込むことで、MS COCO テスト開発で 64.5% の mAP を達成し、余分なデータ サイズを大幅に減らして優れたパフォーマンスを実現しました。
コードは https://github.com/Sense-X/Co-DETR で入手できます。
要約(オリジナル)
In this paper, we provide the observation that too few queries assigned as positive samples in DETR with one-to-one set matching leads to sparse supervisions on the encoder’s output which considerably hurt the discriminative feature learning of the encoder and vice visa for attention learning in the decoder. To alleviate this, we present a novel collaborative hybrid assignments training scheme, namely Co-DETR, to learn more efficient and effective DETR-based detectors from versatile label assignment manners. This new training scheme can easily enhance the encoder’s learning ability in end-to-end detectors by training the multiple parallel auxiliary heads supervised by one-to-many label assignments such as ATSS, FCOS, and Faster RCNN. In addition, we conduct extra customized positive queries by extracting the positive coordinates from these auxiliary heads to improve the training efficiency of positive samples in the decoder. In inference, these auxiliary heads are discarded and thus our method introduces no additional parameters and computational cost to the original detector while requiring no hand-crafted non-maximum suppression (NMS). We conduct extensive experiments to evaluate the effectiveness of the proposed approach on DETR variants, including DAB-DETR, Deformable-DETR, and DINO-Deformable-DETR. Specifically, we improve the basic Deformable-DETR by 5.8% in 12-epoch training and 3.2% in 36-epoch training. The state-of-the-art DINO-Deformable-DETR can still be improved from 49.4% to 51.2% on the MS COCO val. Surprisingly, incorporated with the large-scale backbone MixMIM-g with 1-Billion parameters, we achieve the 64.5% mAP on MS COCO test-dev, achieving superior performance with much fewer extra data sizes. Codes will be available at https://github.com/Sense-X/Co-DETR.
arxiv情報
著者 | Zhuofan Zong,Guanglu Song,Yu Liu |
発行日 | 2023-02-17 09:43:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google