Dynamic Object Queries for Transformer-based Incremental Object Detection

要約

増分オブジェクト検出 (IOD) は、古いクラスを見つけて識別する機能を維持しながら、新しいクラスを順次学習することを目的としています。
トレーニング データは新しいクラスの注釈付きでのみ到着するため、IOD は致命的な忘却に悩まされます。
従来の方法論は主に、知識の蒸留と模範の再生を通じて忘却の問題に取り組み、限られたモデルの能力と知識の増加との間の矛盾を無視していました。
このペーパーでは、Transformer アーキテクチャに基づいて構築された増分オブジェクト検出のための \textit{動的オブジェクト クエリ} について検討します。
我々は、安定性と可塑性のトレードオフを達成するためにモデル表現能力を段階的に拡張する \textbf{Dy}namic object \textbf{Q}uery-based \textbf{DE}tection \textbf{TR}ansformer (DyQ-DETR) を提案します。
まず、学習可能なオブジェクト クエリの新しいセットがデコーダに供給され、新しいクラスが表現されます。
これらの新しいオブジェクト クエリは、古い知識と新しい知識の両方を適切に適応させるために、前のフェーズのクエリと集約されます。
第二に、もつれのない自己注意に基づいて、さまざまなフェーズでのオブジェクトクエリに対する分離された二部マッチングを提案します。
クラス間の混乱を軽減するために、さまざまなフェーズでのオブジェクト クエリ間の相互作用が排除されます。
オブジェクト クエリに対する個別の監視と計算のおかげで、効果的なサンプル リプレイのためのリスク バランスのとれた部分キャリブレーションがさらに提供されます。
広範な実験により、DyQ-DETR はパラメーターのオーバーヘッドが限られており、最先端の方法を大幅に上回っていることが実証されています。
コードは公開されます。

要約(オリジナル)

Incremental object detection (IOD) aims to sequentially learn new classes, while maintaining the capability to locate and identify old ones. As the training data arrives with annotations only with new classes, IOD suffers from catastrophic forgetting. Prior methodologies mainly tackle the forgetting issue through knowledge distillation and exemplar replay, ignoring the conflict between limited model capacity and increasing knowledge. In this paper, we explore \textit{dynamic object queries} for incremental object detection built on Transformer architecture. We propose the \textbf{Dy}namic object \textbf{Q}uery-based \textbf{DE}tection \textbf{TR}ansformer (DyQ-DETR), which incrementally expands the model representation ability to achieve stability-plasticity tradeoff. First, a new set of learnable object queries are fed into the decoder to represent new classes. These new object queries are aggregated with those from previous phases to adapt both old and new knowledge well. Second, we propose the isolated bipartite matching for object queries in different phases, based on disentangled self-attention. The interaction among the object queries at different phases is eliminated to reduce inter-class confusion. Thanks to the separate supervision and computation over object queries, we further present the risk-balanced partial calibration for effective exemplar replay. Extensive experiments demonstrate that DyQ-DETR significantly surpasses the state-of-the-art methods, with limited parameter overhead. Code will be made publicly available.

arxiv情報

著者 Jichuan Zhang,Wei Li,Shuang Cheng,Ya-Li Li,Shengjin Wang
発行日 2024-07-31 15:29:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク