CAT: LoCalization and IdentificAtion Cascade Detection Transformer for Open-World Object Detection

要約

オープン ワールド オブジェクト検出 (OWOD) は、より一般的で挑戦的な目標として、既知のオブジェクトのデータからトレーニングされたモデルが、既知のオブジェクトと未知のオブジェクトの両方を検出し、これらの未知のオブジェクトを識別することを段階的に学習する必要があります。
標準的な検出フレームワークと固定疑似ラベリング メカニズム (PLM) を使用する既存の作業には、次の問題があります。(i) 未知のオブジェクトの検出を含めると、既知のオブジェクトを検出するモデルの能力が大幅に低下します。
(ii) PLM は入力のアプリオリな知識を適切に利用していません。
(iii) PLM の固定された選択方法は、モデルが正しい方向にトレーニングされることを保証できません。
人間は、混乱を軽減するために、単一のオブジェクトを同時にローカライズして識別するよりも、前景のすべてのオブジェクトに焦点を合わせてから、それぞれを詳細に識別することを無意識のうちに好むことがわかりました。
これは、CAT と呼ばれる新しいソリューションを提案する動機となります: ローカライゼーションと識別カスケード検出トランスフォーマーは、カスケード デコード方法で共有デコーダーを介して検出プロセスを分離します。
一方、モデル駆動型と入力駆動型の PLM を組み合わせ、未知のオブジェクトに対して堅牢な擬似ラベルを自己適応的に生成する自己適応型の擬似ラベル付けメカニズムを提案し、未知のオブジェクトを取得する CAT の機能を大幅に改善します。
2 つのベンチマーク データセット、つまり MS-COCO と PASCAL VOC での包括的な実験は、OWOD、インクリメンタル オブジェクト検出 (IOD)、およびオープン セットのタスクにおけるすべてのメトリックに関して、モデルが最先端のものよりも優れていることを示しています。
検出。

要約(オリジナル)

Open-world object detection (OWOD), as a more general and challenging goal, requires the model trained from data on known objects to detect both known and unknown objects and incrementally learn to identify these unknown objects. The existing works which employ standard detection framework and fixed pseudo-labelling mechanism (PLM) have the following problems: (i) The inclusion of detecting unknown objects substantially reduces the model’s ability to detect known ones. (ii) The PLM does not adequately utilize the priori knowledge of inputs. (iii) The fixed selection manner of PLM cannot guarantee that the model is trained in the right direction. We observe that humans subconsciously prefer to focus on all foreground objects and then identify each one in detail, rather than localize and identify a single object simultaneously, for alleviating the confusion. This motivates us to propose a novel solution called CAT: LoCalization and IdentificAtion Cascade Detection Transformer which decouples the detection process via the shared decoder in the cascade decoding way. In the meanwhile, we propose the self-adaptive pseudo-labelling mechanism which combines the model-driven with input-driven PLM and self-adaptively generates robust pseudo-labels for unknown objects, significantly improving the ability of CAT to retrieve unknown objects. Comprehensive experiments on two benchmark datasets, i.e., MS-COCO and PASCAL VOC, show that our model outperforms the state-of-the-art in terms of all metrics in the task of OWOD, incremental object detection (IOD) and open-set detection.

arxiv情報

著者 Shuailei Ma,Yuefeng Wang,Jiaqi Fan,Ying Wei,Thomas H. Li,Hongli Liu,Fanbing Lv
発行日 2023-03-01 12:42:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク