Incremental Object Detection with CLIP

要約

増分分類タスクとは対照的に、増分検出タスクは、画像に複数の連続学習段階にわたって異なるラベルが付けられた境界ボックスが存在する可能性があるため、データの曖昧さの存在によって特徴付けられます。
この現象は、多くの場合、モデルが新しいクラスを効果的に学習する能力を損ないます。
ただし、既存の研究では、モデルの前方互換性についてはあまり注目されていないため、増分学習への適合性が制限されています。
この障害を克服するために、CLIP などの視覚言語モデルを活用して、さまざまなクラス セットのテキスト特徴埋め込みを生成し、特徴空間をグローバルに強化することを提案します。
次に、増分シナリオをシミュレートするために、初期学習段階で使用できない新しいクラスをスーパークラスを使用して置き換えます。
最後に、CLIP 画像エンコーダーを利用して、潜在的なオブジェクトを正確に識別します。
細かく認識された検出ボックスを疑似アノテーションとしてトレーニング プロセスに組み込むことで、検出パフォーマンスがさらに向上します。
私たちは、PASCAL VOC 2007 データセットを使用して、さまざまな増分学習設定に対するアプローチを評価しました。そのアプローチは、特に新しいクラスの認識において、最先端の方法を上回っています。

要約(オリジナル)

In contrast to the incremental classification task, the incremental detection task is characterized by the presence of data ambiguity, as an image may have differently labeled bounding boxes across multiple continuous learning stages. This phenomenon often impairs the model’s ability to effectively learn new classes. However, existing research has paid less attention to the forward compatibility of the model, which limits its suitability for incremental learning. To overcome this obstacle, we propose leveraging a visual-language model such as CLIP to generate text feature embeddings for different class sets, which enhances the feature space globally. We then employ super-classes to replace the unavailable novel classes in the early learning stage to simulate the incremental scenario. Finally, we utilize the CLIP image encoder to accurately identify potential objects. We incorporate the finely recognized detection boxes as pseudo-annotations into the training process, thereby further improving the detection performance. We evaluate our approach on various incremental learning settings using the PASCAL VOC 2007 dataset, and our approach outperforms state-of-the-art methods, particularly for recognizing the new classes.

arxiv情報

著者 Ziyue Huang,Yupeng He,Qingjie Liu,Yunhong Wang
発行日 2024-05-29 16:11:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク