Open-World Object Detection with Instance Representation Learning

要約

人間は自然に新しいオブジェクトを識別し、それらの関係を理解し​​ますが、深層学習ベースのオブジェクト検出器は、トレーニング中に観察されなかったオブジェクトを検出して関連付けるのに苦労します。
この問題を解決するために、モデルがオープンワールド シナリオで未知のオブジェクトを検出できるようにするために、Open World Object Detection (OWOD) が導入されました。
ただし、OWOD 手法では、包括的なシーンの理解や、クラスの検出や追跡などのアプリケーションにとって重要である、検出されたオブジェクト間の詳細な関係を捉えることができません。
この論文では、Vision Foundation Models(VFM)の知識を活用して、新しいオブジェクトを検出し、オープンワールド条件で意味的に豊富な特徴を抽出できるオブジェクト検出器をトレーニングする方法を提案します。
まず、セグメント何でもモデルのセマンティック マスクを利用して、未知のオブジェクトのボックス回帰を監視し、正確な位置特定を保証します。
VFM 特徴から得られたインスタンスごとの類似性を検出器のインスタンス埋め込みに転送することにより、私たちの方法はこれらの埋め込みの意味的に豊富な特徴空間を学習します。
広範な実験により、私たちの方法が堅牢で一般化可能な特徴空間を学習し、他の OWOD ベースの特徴抽出方法よりも優れたパフォーマンスを発揮することが示されています。
さらに、モデルの強化された機能により、オープンワールド追跡などのタスクに対する検出器の適用性が向上することを実証します。

要約(オリジナル)

While humans naturally identify novel objects and understand their relationships, deep learning-based object detectors struggle to detect and relate objects that are not observed during training. To overcome this issue, Open World Object Detection(OWOD) has been introduced to enable models to detect unknown objects in open-world scenarios. However, OWOD methods fail to capture the fine-grained relationships between detected objects, which are crucial for comprehensive scene understanding and applications such as class discovery and tracking. In this paper, we propose a method to train an object detector that can both detect novel objects and extract semantically rich features in open-world conditions by leveraging the knowledge of Vision Foundation Models(VFM). We first utilize the semantic masks from the Segment Anything Model to supervise the box regression of unknown objects, ensuring accurate localization. By transferring the instance-wise similarities obtained from the VFM features to the detector’s instance embeddings, our method then learns a semantically rich feature space of these embeddings. Extensive experiments show that our method learns a robust and generalizable feature space, outperforming other OWOD-based feature extraction methods. Additionally, we demonstrate that the enhanced feature from our model increases the detector’s applicability to tasks such as open-world tracking.

arxiv情報

著者 Sunoh Lee,Minsik Jeon,Jihong Min,Junwon Seo
発行日 2024-09-24 13:13:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク