DETRs with Collaborative Hybrid Assignments Training

要約

この論文では、1 対 1 のセット マッチングを使用した DETR で正のサンプルとして割り当てられたクエリが少なすぎると、エンコーダの出力に対する監視がまばらになり、エンコーダの識別機能の学習が著しく損なわれ、注意学習の逆効果が損なわれるという観察結果を提供します。
デコーダで。
これを軽減するために、多様なラベル割り当て方法からより効率的かつ効果的な DETR ベースの検出器を学習する、新しい協調ハイブリッド割り当てトレーニング スキーム、つまり $\mathcal{C}$o-DETR を提案します。
この新しいトレーニング スキームは、ATSS や Faster RCNN などの 1 対多のラベル割り当てによって監視される複数の並列補助ヘッドをトレーニングすることにより、エンドツーエンド検出器におけるエンコーダーの学習能力を簡単に強化できます。
さらに、これらの補助ヘッドから正の座標を抽出することで追加のカスタマイズされた正のクエリを実行し、デコーダでの正のサンプルのトレーニング効率を向上させます。
推論では、これらの補助ヘッドは破棄されるため、私たちの方法では、元の検出器に追加のパラメーターや計算コストが導入されず、手作りの非最大抑制(NMS)も必要ありません。
私たちは、DAB-DETR、Deformable-DETR、DINO-Deformable-DETR などの DETR バリアントに対する提案されたアプローチの有効性を評価するために広範な実験を実施します。
Swin-L を備えた最先端の DINO-Deformable-DETR は、COCO val の AP を 58.5% から 59.5% に向上させることができます。
驚くべきことに、ViT-L バックボーンを組み込むことで、COCO test-dev で 66.0% の AP、LVIS val で 67.9% の AP を達成し、はるかに少ないモデル サイズで以前の方法を大幅に上回りました。
コードは \url{https://github.com/Sense-X/Co-DETR} で入手できます。

要約(オリジナル)

In this paper, we provide the observation that too few queries assigned as positive samples in DETR with one-to-one set matching leads to sparse supervision on the encoder’s output which considerably hurt the discriminative feature learning of the encoder and vice visa for attention learning in the decoder. To alleviate this, we present a novel collaborative hybrid assignments training scheme, namely $\mathcal{C}$o-DETR, to learn more efficient and effective DETR-based detectors from versatile label assignment manners. This new training scheme can easily enhance the encoder’s learning ability in end-to-end detectors by training the multiple parallel auxiliary heads supervised by one-to-many label assignments such as ATSS and Faster RCNN. In addition, we conduct extra customized positive queries by extracting the positive coordinates from these auxiliary heads to improve the training efficiency of positive samples in the decoder. In inference, these auxiliary heads are discarded and thus our method introduces no additional parameters and computational cost to the original detector while requiring no hand-crafted non-maximum suppression (NMS). We conduct extensive experiments to evaluate the effectiveness of the proposed approach on DETR variants, including DAB-DETR, Deformable-DETR, and DINO-Deformable-DETR. The state-of-the-art DINO-Deformable-DETR with Swin-L can be improved from 58.5% to 59.5% AP on COCO val. Surprisingly, incorporated with ViT-L backbone, we achieve 66.0% AP on COCO test-dev and 67.9% AP on LVIS val, outperforming previous methods by clear margins with much fewer model sizes. Codes are available at \url{https://github.com/Sense-X/Co-DETR}.

arxiv情報

著者 Zhuofan Zong,Guanglu Song,Yu Liu
発行日 2023-08-09 16:06:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク