Open World DETR: Transformer based Open World Object Detection

要約

オープンワールド物体検出は、学習データの物体クラスに存在しない物体を、明示的な監視なしに未知物体として検出することを目的とする。さらに、未知オブジェクトに対応するアノテーションが漸増的に与えられる場合、以前の既知のクラスを壊滅的に忘れることなく、未知オブジェクトの正確なクラスを特定しなければならない。本論文では、変形可能DETRに基づくオープンワールド物体検出のために、オープンワールドDETRと名付けた2段階の学習アプローチを提案する。第一段階では、現在の既知のクラスからオブジェクトを検出するために、現在の注釈付きデータに対してモデルを事前学習し、同時に、予測値を前景クラスか背景クラスに分類するための二値分類器を追加で学習する。これにより、モデルは偏りのない特徴表現を構築することができ、その後のプロセスで未知のクラスの検出を容易にすることができる。第2段階では、マルチビューセルフラベリング戦略と一貫性制約を用いて、モデルのクラス固有の構成要素を微調整する。さらに、知識抽出と模範解答の再生により、未知クラスのアノテーションが段階的に利用可能になった場合の壊滅的な忘却を緩和する。PASCAL VOCとMS-COCOを用いた実験の結果、提案手法は他の最先端オープンワールドオブジェクト検出手法を大きく上回る性能を持つことが示された。

要約(オリジナル)

Open world object detection aims at detecting objects that are absent in the object classes of the training data as unknown objects without explicit supervision. Furthermore, the exact classes of the unknown objects must be identified without catastrophic forgetting of the previous known classes when the corresponding annotations of unknown objects are given incrementally. In this paper, we propose a two-stage training approach named Open World DETR for open world object detection based on Deformable DETR. In the first stage, we pre-train a model on the current annotated data to detect objects from the current known classes, and concurrently train an additional binary classifier to classify predictions into foreground or background classes. This helps the model to build an unbiased feature representations that can facilitate the detection of unknown classes in subsequent process. In the second stage, we fine-tune the class-specific components of the model with a multi-view self-labeling strategy and a consistency constraint. Furthermore, we alleviate catastrophic forgetting when the annotations of the unknown classes becomes available incrementally by using knowledge distillation and exemplar replay. Experimental results on PASCAL VOC and MS-COCO show that our proposed method outperforms other state-of-the-art open world object detection methods by a large margin.

arxiv情報

著者 Na Dong,Yongqiang Zhang,Mingli Ding,Gim Hee Lee
発行日 2022-12-06 13:39:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク