CAT: LoCalization and IdentificAtion Cascade Detection Transformer for Open-World Object Detection

要約

オープンワールドオブジェクト検出(OWOD)は、より一般的かつ挑戦的な目標として、既知のオブジェクトに関するデータから学習したモデルが、既知と未知の両方のオブジェクトを検出し、これらの未知のオブジェクトを識別するために漸進的に学習することを要求する。標準的な検出フレームワークと固定的な擬似ラベリング機構(PLM)を採用した既存の作品には、以下の問題がある:(i)未知オブジェクトの検出を含めると、既知オブジェクトを検出するモデルの能力が大幅に低下してしまう。(ii) PLMは入力の先験的知識を適切に利用しない。(iii) PLMの固定的な選択方法は、モデルが正しい方向に学習されることを保証できない。我々は、人間は無意識のうちに、混乱を緩和するために、1つの物体を同時に認識するよりも、すべての前景物体に注目し、それぞれを詳細に認識することを好むと観察している。そこで、我々はCATと呼ばれる新しい解決策を提案することにした。CAT: LoCalization and IdentificAtion Cascade Detection Transformerは、カスケード復号方式で共有デコーダを介して検出処理を切り離すものである。一方、我々はモデル駆動型PLMと入力駆動型PLMを組み合わせた自己適応型擬似ラベル生成機構を提案し、未知物体に対する頑健な擬似ラベルを自己適応的に生成し、CATの未知物体検索能力を著しく向上させる。2つのベンチマークデータセット、すなわちMS-COCOとPASCAL VOCを用いた包括的な実験により、我々のモデルは、OWOD、増分オブジェクト検出(IOD)、オープンセット検出のタスクにおいて、全てのメトリクスで最先端技術を上回る性能を持つことが示される。

要約(オリジナル)

Open-world object detection (OWOD), as a more general and challenging goal, requires the model trained from data on known objects to detect both known and unknown objects and incrementally learn to identify these unknown objects. The existing works which employ standard detection framework and fixed pseudo-labelling mechanism (PLM) have the following problems: (i) The inclusion of detecting unknown objects substantially reduces the model’s ability to detect known ones. (ii) The PLM does not adequately utilize the priori knowledge of inputs. (iii) The fixed selection manner of PLM cannot guarantee that the model is trained in the right direction. We observe that humans subconsciously prefer to focus on all foreground objects and then identify each one in detail, rather than localize and identify a single object simultaneously, for alleviating the confusion. This motivates us to propose a novel solution called CAT: LoCalization and IdentificAtion Cascade Detection Transformer which decouples the detection process via the shared decoder in the cascade decoding way. In the meanwhile, we propose the self-adaptive pseudo-labelling mechanism which combines the model-driven with input-driven PLM and self-adaptively generates robust pseudo-labels for unknown objects, significantly improving the ability of CAT to retrieve unknown objects. Comprehensive experiments on two benchmark datasets, i.e., MS-COCO and PASCAL VOC, show that our model outperforms the state-of-the-art in terms of all metrics in the task of OWOD, incremental object detection (IOD) and open-set detection.

arxiv情報

著者 Shuailei Ma,Yuefeng Wang,Jiaqi Fan,Ying Wei,Thomas H. Li,Hongli Liu,Fanbing Lv
発行日 2023-01-05 09:11:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク