Group DETR: Fast Training Convergence with Decoupled One-to-Many Label Assignment

要約

Detection Transformer(DETR)は、1対1のラベル割り当てに依存します。つまり、エンドツーエンドのオブジェクト検出のために、1つのグラウンドトゥルース(gt)オブジェクトを1つのポジティブオブジェクトクエリにのみ割り当てます。複数のポジティブクエリを活用する機能がありません。

複数の肯定的なクエリをサポートするために、{\ emGroupDETR}という名前の新しいDETRトレーニングアプローチを紹介します。
具体的には、ポジティブを複数の独立したグループに分離し、各グループのgtオブジェクトごとに1つのポジティブのみを保持します。
トレーニング中に簡単な変更を加えます。(i)オブジェクトクエリの$K$グループを採用します。
(ii)同じパラメータを使用してオブジェクトクエリの各グループに対してデコーダーの自己注意を実行します。
(iii)グループごとに1対1のラベル割り当てを実行し、gtオブジェクトごとに$K$のポジティブオブジェクトクエリを実行します。
推論では、オブジェクトクエリの1つのグループのみを使用し、アーキテクチャとプロセスの両方に変更を加えません。
条件付きDETR、DAB-DETR、DN-DETR、DINOなどのDETRバリアントに対する提案されたアプローチの有効性を検証します。

要約(オリジナル)

Detection Transformer (DETR) relies on One-to-One label assignment, i.e., assigning one ground-truth (gt) object to only one positive object query, for end-to-end object detection and lacks the capability of exploiting multiple positive queries. We present a novel DETR training approach, named {\em Group DETR}, to support multiple positive queries. To be specific, we decouple the positives into multiple independent groups and keep only one positive per gt object in each group. We make simple modifications during training: (i) adopt $K$ groups of object queries; (ii) conduct decoder self-attention on each group of object queries with the same parameters; (iii) perform One-to-One label assignment for each group, leading to $K$ positive object queries for each gt object. In inference, we only use one group of object queries, making no modifications to both architecture and processes. We validate the effectiveness of the proposed approach on DETR variants, including Conditional DETR, DAB-DETR, DN-DETR, and DINO.

arxiv情報

著者 Qiang Chen,Xiaokang Chen,Gang Zeng,Jingdong Wang
発行日 2022-07-26 17:57:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク