StageInteractor: Query-based Object Detector with Cross-stage Interaction

要約

タイトル:StageInteractor: クエリベースのオブジェクト検出器におけるクロスステージの相互作用
要約:

– 従来のオブジェクト検出器は、密なグリッドポイントまたは多数のプリセットアンカーに基づいて予測を行います。
– 大部分の検出器は1から多数までのラベル割り当て戦略を使用してトレーニングされています。
– 一方、最近のクエリベースのオブジェクト検出器は、疎な学習可能なクエリセットと一連のデコーダ層に依存しています。
– 一対一のラベル割り当ては、トレーニング中の各層に独立して適用され、深い監視が行われます。
– クエリベースのオブジェクト検出の大成功にもかかわらず、この一対一のラベル割り当て戦略は、検出器が強い細かいディスクリミネーション能力とモデリング能力を持っている必要があります。
– 上記の問題を解決するために、本論文では、ステージ間の相互作用を備えた新しいクエリベースのオブジェクト検出器(StageInteractor)を提案します。
– 順伝播中に、ダイナミックオペレータを軽量アダプタで再利用することにより、このモデリング能力を向上させる効率的な方法を提供します。
– ラベル割り当てに関しては、1対1のラベル割り当ての後にクロスステージのラベル割り当てが適用されます。
– この割り当て者により、トレーニング対象のクラスラベルが段階的に集められ、それぞれのデコーダ層で適切な予測に再割り当てされます。
– MS COCOベンチマークでは、バックボーンにResNet-50を使用し、100個のクエリと12個のトレーニングエポックで、当社のモデルはベースラインを2.2 AP改善し、44.8 APを達成します。
– より長い訓練時間と300個のクエリを使用すると、StageInteractorはResNeXt-101-DCNで51.1 AP、Swin-Sで52.2 APを達成します。

要約(オリジナル)

Previous object detectors make predictions based on dense grid points or numerous preset anchors. Most of these detectors are trained with one-to-many label assignment strategies. On the contrary, recent query-based object detectors depend on a sparse set of learnable queries and a series of decoder layers. The one-to-one label assignment is independently applied on each layer for the deep supervision during training. Despite the great success of query-based object detection, however, this one-to-one label assignment strategy demands the detectors to have strong fine-grained discrimination and modeling capacity. To solve the above problems, in this paper, we propose a new query-based object detector with cross-stage interaction, coined as StageInteractor. During the forward propagation, we come up with an efficient way to improve this modeling ability by reusing dynamic operators with lightweight adapters. As for the label assignment, a cross-stage label assigner is applied subsequent to the one-to-one label assignment. With this assigner, the training target class labels are gathered across stages and then reallocated to proper predictions at each decoder layer. On MS COCO benchmark, our model improves the baseline by 2.2 AP, and achieves 44.8 AP with ResNet-50 as backbone, 100 queries and 12 training epochs. With longer training time and 300 queries, StageInteractor achieves 51.1 AP and 52.2 AP with ResNeXt-101-DCN and Swin-S, respectively.

arxiv情報

著者 Yao Teng,Haisong Liu,Sheng Guo,Limin Wang
発行日 2023-04-11 04:50:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク