要約
未知の物体検出 (UOD) は、閉じられた世界の仮定によって制限される従来の検出パラダイムとは異なり、目に見えないカテゴリの物体を識別することを目的としています。
UOD の重要なコンポーネントは、一般化された表現、つまり、クラスに依存しない方法でオブジェクトを背景から区別して位置特定するために、既知のカテゴリと未知のカテゴリの両方のオブジェクト性を学習することです。
ただし、以前の方法では、位置特定情報または分類情報から分離してオブジェクト性を学習するための監視信号を取得するため、UOD のパフォーマンスが低下します。
この問題に対処するために、変圧器ベースの UOD フレームワークである UN-DETR を提案します。
これに基づいて、オブジェクトの存在確率を表すインスタンス存在スコア (IPS) を作成します。
情報の相補性を目的として、IPS は共同教師あり学習の戦略を採用し、位置およびカテゴリ潜在空間からの一般的なオブジェクト性を表す属性を教師信号として統合します。
IPS 学習を強化するために、より多くの監視を組み込む 1 対多の割り当て戦略を導入します。
次に、デコーダにプレミアムな初期クエリ ベクトルを提供するために、不偏クエリ選択を提案します。
さらに、冗長なボックスをフィルタリングし、既知および未知のオブジェクトの分類予測を修正するための、IPS ガイドに基づく後処理戦略を提案します。
最後に、事前にオブジェクト性を取得するために、教師なしの方法で UN-DETR 全体を事前学習します。
当社の UN-DETR は、複数の UOD および既知の検出ベンチマークで包括的に評価され、その有効性が実証され、最先端のパフォーマンスが実現されています。
要約(オリジナル)
Unknown Object Detection (UOD) aims to identify objects of unseen categories, differing from the traditional detection paradigm limited by the closed-world assumption. A key component of UOD is learning a generalized representation, i.e. objectness for both known and unknown categories to distinguish and localize objects from the background in a class-agnostic manner. However, previous methods obtain supervision signals for learning objectness in isolation from either localization or classification information, leading to poor performance for UOD. To address this issue, we propose a transformer-based UOD framework, UN-DETR. Based on this, we craft Instance Presence Score (IPS) to represent the probability of an object’s presence. For the purpose of information complementarity, IPS employs a strategy of joint supervised learning, integrating attributes representing general objectness from the positional and the categorical latent space as supervision signals. To enhance IPS learning, we introduce a one-to-many assignment strategy to incorporate more supervision. Then, we propose Unbiased Query Selection to provide premium initial query vectors for the decoder. Additionally, we propose an IPS-guided post-process strategy to filter redundant boxes and correct classification predictions for known and unknown objects. Finally, we pretrain the entire UN-DETR in an unsupervised manner, in order to obtain objectness prior. Our UN-DETR is comprehensively evaluated on multiple UOD and known detection benchmarks, demonstrating its effectiveness and achieving state-of-the-art performance.
arxiv情報
著者 | Haomiao Liu,Hao Xu,Chuhuai Yue,Bo Ma |
発行日 | 2024-12-13 14:45:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google