Decoupled DETR: Spatially Disentangling Localization and Classification for Improved End-to-End Object Detection

要約

DETR の導入は、物体検出の新しいパラダイムを表します。
ただし、そのデコーダは共有クエリとクロスアテンション レイヤーを使用して分類とボックスの位置特定を実行するため、次善の結果が得られます。
同じオブジェクトであっても、視覚的特徴マップ内のさまざまな関心領域が、クエリ分類タスクとボックス位置特定タスクの実行に適していることがわかります。
顕著な領域は分類に重要な情報を提供しますが、その周囲の境界はボックス回帰にとってより有利です。
残念なことに、これら 2 つのタスク間のこのような空間的なずれは、DETR のトレーニングを大きく妨げます。
したがって、この作業では、DETR における位置特定タスクと分類タスクを分離することに焦点を当てます。
これを達成するために、空間的に分離された DETR (SD-DETR) と呼ばれる新しい設計スキームを導入します。これには、タスク認識クエリ生成モジュールともつれ解除された特徴学習プロセスが含まれます。
タスク認識クエリの初期化プロセスを入念に設計し、デコーダ内のクロスアテンション ブロックを分割して、タスク認識クエリがさまざまな視覚領域に一致できるようにします。
一方で、高い分類信頼性と正確な位置特定のための予測ミスアライメント問題が存在することも観察しているため、空間的に分離された DETR トレーニングをさらにガイドするためのアライメント損失を提案します。
広範な実験を通じて、私たちのアプローチが以前の研究と比較して MSCOCO データセットの大幅な改善を達成することを実証しました。
たとえば、条件付き DETR のパフォーマンスが 4.5 AP 向上しました。
2 つのタスクを空間的に解きほぐすことで、私たちの方法は位置ずれの問題を克服し、物体検出における DETR のパフォーマンスを大幅に向上させます。

要約(オリジナル)

The introduction of DETR represents a new paradigm for object detection. However, its decoder conducts classification and box localization using shared queries and cross-attention layers, leading to suboptimal results. We observe that different regions of interest in the visual feature map are suitable for performing query classification and box localization tasks, even for the same object. Salient regions provide vital information for classification, while the boundaries around them are more favorable for box regression. Unfortunately, such spatial misalignment between these two tasks greatly hinders DETR’s training. Therefore, in this work, we focus on decoupling localization and classification tasks in DETR. To achieve this, we introduce a new design scheme called spatially decoupled DETR (SD-DETR), which includes a task-aware query generation module and a disentangled feature learning process. We elaborately design the task-aware query initialization process and divide the cross-attention block in the decoder to allow the task-aware queries to match different visual regions. Meanwhile, we also observe that the prediction misalignment problem for high classification confidence and precise localization exists, so we propose an alignment loss to further guide the spatially decoupled DETR training. Through extensive experiments, we demonstrate that our approach achieves a significant improvement in MSCOCO datasets compared to previous work. For instance, we improve the performance of Conditional DETR by 4.5 AP. By spatially disentangling the two tasks, our method overcomes the misalignment problem and greatly improves the performance of DETR for object detection.

arxiv情報

著者 Manyuan Zhang,Guanglu Song,Yu Liu,Hongsheng Li
発行日 2023-10-24 15:54:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク